Papers by Ahmad Fathan Hidayatullah
Language tweet characteristics of Indonesian citizens
2015 International Conference on Science and Technology (TICST), 2015
Stemming has commonly used in some research about text mining, information retrieval, and natural... more Stemming has commonly used in some research about text mining, information retrieval, and natural language processing. However, there is an indication that stemming does not deliver significant influence toward accuracy in text classification. Hence, this research attempts to investigate the influence of the
stemming process on Indonesian tweet sentiment analysis.
Furthermore, this work examines about the difference effect
between two conditions by involving stemming and without
involving stemming on pre-preprocessing task. The experiments show that the accuracy difference for SVM using stemming in preprocessing acquired 0.67% and 1.34% higher than pre-processing without stemming, whereas, Naive Bayes obtained 0.23% and 1.12%. Finally, this research proves that stemming does not raise the accuracy either using SVM or Naive Bayes algorithm.

Keberadaan Twitter telah digunakan secara luas oleh berbagai lapisan masyarakat dalam beberapa ta... more Keberadaan Twitter telah digunakan secara luas oleh berbagai lapisan masyarakat dalam beberapa tahun terakhir. Kebiasaan masyarakat mem-posting tweet untuk menilai tokoh publik adalah salah satu media yang merepresentasikan tanggapan masyarakat terhadap tokoh publik. Menjelang pemilihan umum, biasanya ada pihak-pihak tertentu yang ingin mengetahui sentimen dan tanggapan terhadap tokoh publik. Tokoh publik yang dinilai adalah tokoh yang dianggap layak dan memiliki kemampuan untuk dipilih menjadi pemimpin. Oleh karena itu, penelitian ini mencoba menganalisis tweet berbahasa Indonesia yang membicarakan tentang tokoh publik. Analisis dilakukan dengan melakukan klasifikasi tweet yang berisi sentimen masyarakat tentang tokoh tertentu. Metode klasifikasi yang digunakan dalam penelitian ini adalah Naive Bayes Classifier. Naive Bayes Classifier dikombinasikan dengan fitur untuk dapat mendeteksi negasi dan pembobotan menggunakan term frequency serta TF-IDF. Klasifikasi tweet pada penelitian ini diperoleh berdasarkan kombinasi antara kelas sentimen dan kelas kategori. Klasifikasi sentimen terdiri dari positif dan negatif sedangkan klasifikasi kategori terdiri dari kapabilitas, integritas, dan akseptabilitas. Hasil pengujian pada aplikasi yang dibangun dan pada tools RapidMiner memperlihatkan bahwa akurasi dengan term frequency memberikan hasil akurasi yang lebih baik daripada akurasi dengan fitur TF-IDF. Metode Support Vector Machine menghasilkan akurasi performansi yang lebih baik daripada metode Naive Bayes baik dalam klasifikasi sentimen maupun dalam klasifikasi kategori. Namun demikian, secara keseluruhan penggunaan metode Support Vector Machine dan Naive Bayes sama-sama memiliki performansi yang cukup baik untuk melakukan klasifikasi tweet.

Masalah yang ditemui dalam dataset yang besar adalah adanya duplikasi data dan missing value. Dup... more Masalah yang ditemui dalam dataset yang besar adalah adanya duplikasi data dan missing value. Duplikasi terjadi karena ada perbedaan identifikasi antara entitas yang sama dalam dunia nyata misalnya duplikasi data pasien rumah sakit. Solusi dari permasalahan duplikasi adalah dengan melakukan deduplikasi. Deduplikasi dilakukan dengan mengeliminasi data yang memiliki kemiripan. Pendeteksian duplikasi data dilakukan dengan Algoritma Levenshtein distance. Missing value terjadi jika ada nilai dari suatu atribut yang tidak ditemukan. Atribut yang mengandung missing value diganti dengan nilai rata-rata seluruh data dalam setiap atribut. Setelah duplikasi data dan missing value dapat diatasi, kemudian dilakukan klasifikasi untuk mengidentifikasi adanya kesamaan data. Klasifikasi dilakukan dengan tools WEKA menggunakan algoritma Decision Tree dan Naive Bayes. Metode Decision tree menghasilkan akurasi sebesar 99.9988 % sedangkan metode Naive Bayes menghasilkan akurasi 99.9799 %. Akurasi yang diperoleh algoritma Decision Tree memiliki hasil sedikit lebih baik daripada Naive Bayes. Namun demikian, secara umum metode Decision Tree dan Naive Bayes sama-sama memiliki akurasi yang baik dalam melakukan klasifikasi kemiripan data pasien.
Uploads
Papers by Ahmad Fathan Hidayatullah
stemming process on Indonesian tweet sentiment analysis.
Furthermore, this work examines about the difference effect
between two conditions by involving stemming and without
involving stemming on pre-preprocessing task. The experiments show that the accuracy difference for SVM using stemming in preprocessing acquired 0.67% and 1.34% higher than pre-processing without stemming, whereas, Naive Bayes obtained 0.23% and 1.12%. Finally, this research proves that stemming does not raise the accuracy either using SVM or Naive Bayes algorithm.