"master/README.md" did not exist on "master"
Newer
Older
## Tentang
Repository ini merupakan script untuk melakukan identifikasi kasus kekerasan seksual terhadap perempuan dan anak pada teks berita online berbahasa Indonesia dengan menggunakan metode Named Entity Recognition Bidirectional Convolutional Neural Networks (NER BiLSTM-CNNs).
## Petunjuk Penggunaan
Folder `News Extractions and Analysis`: Berisi tahapan untuk mengekstraksi sampai menganalisis teks berita. Gunakan Google Colaboratory (Colab) dan RStudio (R) untuk menjalankan. Anda dapat membangun model dari dataset Anda (menyesuaikan dengan data yang digunakan) ataupun dataset pada penelitian ini. Alur tahapan untuk menjalankan script ini dijelaskan sebagai berikut.
_Lakukan di Google Colaboratory_
1. Siapkan data teks berita online berbahasa Indonesia terkait kasus kekerasan seksual yang ingin diekstraksi. Pada penelitian ini, data berita online bersumber dari portal detik.com dan okezone.com. Awalnya dibangun webscraper untuk scraping URL berita online yang akan digunakan. Script webscraper terdapat dalam folder `0. SCRAPING`. URL yang terkumpul akan dilakukan beberapa kali filtering terlebih dahulu, selanjutnya dilakukan pengambilan detail konten berita (judul, tanggal, dan isi).
2. Kemudian data berita masih perlu dilakukan preprocessing berupa data transformation dan data cleaning. Script untuk melakukan preprocessing data terdapat pada folder `1. PREPROCESSING DATA`.
3. Selanjutnya pada data berita dilakukan dua proses filtering. Awalnya dilakukan filtering pertama untuk menghapus berita di luar ruang lingkup penelitian (berita yang dimuat di luar periode waktu 1 Januari 2017 – 31 Desember 2021). Script untuk melakukan filtering pertama dapat dilihat dalam file `2. FILTERING DATA/2a. Filtering 1/Filtering_Data.ipynb`. Output yang dihasilkan dari filtering pertama dapat dilihat dalam folder `2. FILTERING DATA/2a. Filtering 1/OUTPUT`. Kemudian, dilakukan filtering kedua untuk menghapus berita yang tidak relevan (pengerjaannya secara manual). Output yang dihasilkan dapat dilihat dalam folder `2. FILTERING DATA/2b. Filtering 2/OUTPUT`.
4. Gunakan output hasil poin (3). Jalankan script `3. POS TAGGING/POS_Tagging.ipynb` untuk melakukan POS Tagging (fitur tambahan yang akan digunakan pada saat pemodelan NER). Output yang dihasilkan disimpan dalam folder `3. POS TAGGING/OUTPUT`.
5. Gunakan file `4. EKSTRAKSI INFORMASI/4a. NER BiLSTM-CNNs/INPUT/Data Berita_Tag NER_Done.xlsx` untuk mengevaluasi performa model dalam K-Fold CV, sedangkan gunakan file `4. EKSTRAKSI INFORMASI/4a. NER BiLSTM-CNNs/INPUT/Data Berita.csv` sebagai data training dalam membangun model NER. Script yang digunakan yaitu file `4. EKSTRAKSI INFORMASI/4a. NER BiLSTM-CNNs/NER_BiLSTM_CNNs.ipynb`. WordEmbeddings yang digunakan pada pemodelan NER yaitu Glove (generated) hasil dari penelitian Irfan Hanif (2018). Output yang dihasilkan tersimpan dalam folder `4. EKSTRAKSI INFORMASI/4a. NER BiLSTM-CNNs/OUTPUT`.
6. Gunakan output hasil poin (5). Jalankan script `4. EKSTRAKSI INFORMASI/4b. Ekstraksi Berita/Ekstraksi_Berita.ipynb` untuk mendapatkan infomasi setiap entitas pada berita. Output yang dihasilkan dapat dilihat dalam folder `4. EKSTRAKSI INFORMASI/4b. Ekstraksi Berita/OUTPUT`.
7. Gunakan output hasil poin (6) untuk menghapus berita duplikat. Penghapusan duplikasi dilakukan secara manual. Output yang dihasilkan yaitu file `5. MENGHAPUS BERITA DUPLIKAT/OUTPUT/Data Berita_Tanpa Duplikat.xlsx`.
_Lakukan di Rstudio_
1. Gunakan file `7. CLUSTERING/Data untuk Clustering.xlsx` untuk melakukan clustering. Script yang dijalankan yaitu `7. CLUSTERING/Clustering.Rmd`.
## Performa Model
Performa model yang dijalankan pada dataset pada penelitian ini menghasilkan nilai f1-scores sebesar: