KajianMissingData
Software yang digunakan pada penelitian ini adalah
- R 64 Bit
v3.3.1
- R Studio
v0.99.902
- Mozilla Firefox
v54.0.1
Persiapan
- Buat R project
- Copy semua file dan folder yang ada dalam folder
source code
ke lokasi R project
Membangkitkan Data
- Buka R project
- Buka
generate/linear_generate.R
untuk membangkitkan data linier dangenerate/linear_generate.R
untuk membangkitkan data nonlinier - Jalankan script R yang telah dibuka
- Data bangkitan akan tersimpan pada
linier/lineargenerated.csv
untuk data bangkitan linier dannonlinier/nonlineargenerated.csv
untuk data bangkitan nonlinier
Membuat Missing Data Mekanisme MAR
- Buka
codingMAR.R
- Jalankan fungsi
createMARdata
dancreateMissing
(script R baris 1-37) - Ganti nilai variabel
masterdata
,path
, danmissingVar
sesuai dengan data yang digunakan sebagai berikut
Data bangkitan linier
masterdata<-read.csv("linier/lineargenerated.csv")
path<-"linier/123/lineargenerated_NA"
missingVar<-"output"
Data bangkitan nonlinier
masterdata<-read.csv("nonlinier/nonlineargenerated.csv")
path<-"nonlinier/123/nonlineargenerated_NA"
missingVar<-"output"
Data Survei IBS Tahunan 2014 variabel input
masterdata<-read.csv("ibs11/input/ibs2014input - master.csv")
path<-"ibs11/input/123/ibsinput_NA"
missingVar<-"input"
Data Survei IBS Tahunan 2014 variabel output
masterdata<-read.csv("ibs11/output/ibs2014output - master.csv")
path<-"ibs11/output/123/ibsoutput_NA"
missingVar<-"output"
- Jalankan script R pada baris 39-52
- Missing data dengan mekanisme MAR tersimpan pada path masing-masing data yang digunakan
Imputasi
Note: Sebelum melakukan imputasi, pastikan fungsi acc
yang berada pada function.R
sudah dijalankan dan library HotDeckImputation
/missforest
sudah terinstall
- Buka file dengan sufiks HD untuk imputasi menggunakan hot-deck dan MF menggunakan missForest
- Berikut lokasi file tersebut sesuai dengan data yang digunakan
Data bangkitan linier
linier/imputelinear_HD.R
dan linier/imputelinear_MF.R
Data bangkitan nonlinier
nonlinier/imputenonlinear_HD.R
dan nonlinier/nonimputelinear_MF.R
Data Survei IBS Tahunan 2014 variabel input
ibs11/input/imputeibsinput_HD.R
dan ibs11/input/imputeibsinput_MF.R
Data Survei IBS Tahunan 2014 variabel output
ibs11/output/imputeibsoutput_HD.R
dan ibs11/output/imputeibsoutput_MF.R
- Jalankan script R pada bagian
#Section 1
- Jalankan script R pada bagian
#Section 2
sesuai dengan tingkatan missing (5%, 10%, 20%, 35%, 50%) yang ditandai dengan hashtag (#5%
,#10%
,#20%
,#35%
,#50%
) - Catat waktu dan tingkat akurasi yang dihasilkan
- Lakukan imputasi tiap satu tingkatan missing data (5%, 10%, 20%, 35%, 50%). Setelah itu, tutup aplikasi R dan ulangi lagi langkah-langkah diatas hingga semua tingkatan missing diimputasi
FAST
Pemasangan
- Copy semua file yang ada pada folder
fast module
ke folder aplikasi FASTtools/analysis/
- Buka
fast.Rproj
pada folder aplikasi FAST - Buka
server.R
pada folder aplikasi FAST - Tambahkan
library(missForest)
danlibrary(HotDeckImputation)
jika belum ada, kemudian klik Run App Note: folder aplikasi FAST tidak disertakan dalam git ini
Penggunaan
- Upload missing data
- Buka tab Imputation, Hot-Deck / MissForest
- Untuk missForest tentukan seed dan variabel kategorik (jika ada), lalu klik Impute Missing
- Buka tab Result untuk melihat hasil dan mendownload data hasil imputasi (CSV/Excel)
- Untuk simulasi, tingkat akurasi dapat dihitung pada tab accuracy. Upload file sebenarnya dan klik Calculate Accuracy