Skip to content
K

KajianMissingData

Project ID: 27

Software yang digunakan pada penelitian ini adalah

  • R 64 Bit v3.3.1
  • R Studio v0.99.902
  • Mozilla Firefox v54.0.1

Persiapan

  • Buat R project
  • Copy semua file dan folder yang ada dalam folder source code ke lokasi R project

Membangkitkan Data

  • Buka R project
  • Buka generate/linear_generate.R untuk membangkitkan data linier dan generate/linear_generate.R untuk membangkitkan data nonlinier
  • Jalankan script R yang telah dibuka
  • Data bangkitan akan tersimpan pada linier/lineargenerated.csv untuk data bangkitan linier dan nonlinier/nonlineargenerated.csv untuk data bangkitan nonlinier

Membuat Missing Data Mekanisme MAR

  • Buka codingMAR.R
  • Jalankan fungsi createMARdata dan createMissing (script R baris 1-37)
  • Ganti nilai variabel masterdata, path, dan missingVar sesuai dengan data yang digunakan sebagai berikut

       Data bangkitan linier

       masterdata<-read.csv("linier/lineargenerated.csv")

       path<-"linier/123/lineargenerated_NA"

       missingVar<-"output"

       Data bangkitan nonlinier

       masterdata<-read.csv("nonlinier/nonlineargenerated.csv")

       path<-"nonlinier/123/nonlineargenerated_NA"

       missingVar<-"output"

       Data Survei IBS Tahunan 2014 variabel input

       masterdata<-read.csv("ibs11/input/ibs2014input - master.csv")

       path<-"ibs11/input/123/ibsinput_NA"

       missingVar<-"input"

       Data Survei IBS Tahunan 2014 variabel output

       masterdata<-read.csv("ibs11/output/ibs2014output - master.csv")

       path<-"ibs11/output/123/ibsoutput_NA"

       missingVar<-"output"

  • Jalankan script R pada baris 39-52
  • Missing data dengan mekanisme MAR tersimpan pada path masing-masing data yang digunakan

Imputasi

Note: Sebelum melakukan imputasi, pastikan fungsi acc yang berada pada function.R sudah dijalankan dan library HotDeckImputation/missforest sudah terinstall

  • Buka file dengan sufiks HD untuk imputasi menggunakan hot-deck dan MF menggunakan missForest
  • Berikut lokasi file tersebut sesuai dengan data yang digunakan

       Data bangkitan linier

       linier/imputelinear_HD.R dan linier/imputelinear_MF.R

       Data bangkitan nonlinier

       nonlinier/imputenonlinear_HD.R dan nonlinier/nonimputelinear_MF.R

       Data Survei IBS Tahunan 2014 variabel input

       ibs11/input/imputeibsinput_HD.R dan ibs11/input/imputeibsinput_MF.R

       Data Survei IBS Tahunan 2014 variabel output

       ibs11/output/imputeibsoutput_HD.R dan ibs11/output/imputeibsoutput_MF.R

  • Jalankan script R pada bagian #Section 1
  • Jalankan script R pada bagian #Section 2 sesuai dengan tingkatan missing (5%, 10%, 20%, 35%, 50%) yang ditandai dengan hashtag (#5%, #10%, #20%, #35%, #50%)
  • Catat waktu dan tingkat akurasi yang dihasilkan
  • Lakukan imputasi tiap satu tingkatan missing data (5%, 10%, 20%, 35%, 50%). Setelah itu, tutup aplikasi R dan ulangi lagi langkah-langkah diatas hingga semua tingkatan missing diimputasi

FAST

Pemasangan

  • Copy semua file yang ada pada folder fast module ke folder aplikasi FAST tools/analysis/
  • Buka fast.Rproj pada folder aplikasi FAST
  • Buka server.R pada folder aplikasi FAST
  • Tambahkan library(missForest) dan library(HotDeckImputation) jika belum ada, kemudian klik Run Apppemasangan Note: folder aplikasi FAST tidak disertakan dalam git ini

Penggunaan

  • Upload missing data fast_upload
  • Buka tab Imputation, Hot-Deck / MissForest
  • Untuk missForest tentukan seed dan variabel kategorik (jika ada), lalu klik Impute Missingfast_impute
  • Buka tab Result untuk melihat hasil dan mendownload data hasil imputasi (CSV/Excel)fast_hasil
  • Untuk simulasi, tingkat akurasi dapat dihitung pada tab accuracy. Upload file sebenarnya dan klik Calculate Accuracyfast_akurasi