Mengapa Diperlukan Data Yang Berkualitas
Mengapa Diperlukan Data Yang Berkualitas - Halo semuanya, saya teh jarang banget buat twit kerjaan/riset yah. Tapi, sekarang saya mau berbagi salah satu aspek penting dari dunia data, yakni tentang kualitas data (data quality).
Bayangin kalo kita punya pamflet diskon supermarket X di rumah, lalu mau belanja di supermarket X. Eh ternyata, pamfletnya utk 3 bulan lalu. Rusak dong anggaran rumah tangga :(
Data yg di rumah kita jadi tidak tepat untuk sekarang. Harus quality check dulu, bahkan buat diskon
Kalau data berkualitas buruk aja bikin rencana anggaran rumah tangga kita bocor, gimana kalau perusahaan?
Bayangin kalo kita mau bikin promo marketing yang tersegmentasi umur. Untung deh, tabel customer yg di bagian promo ada kolom umur.
Tapi jangan tenang dulu....
Tabel customer di bagian promo nggak ketahuan per data customer itu dibikin kapan dan umurnya bisa jadi ga tepat. Nah gimana dong kalau ternyata kita kirim promo khusus remaja eh yg dikirimin udah dewasa menuju jompo.
Gimana dong biar datanya bener? Ya harus cek tanggal lahir.
Nah dua kasus tersebut bisa dihindari dengan membuat metrik kualitas data yang bisa dimonitor.
Kalau dari pamflet tadi, kita harus cek "timeliness", apakah data untuk sekarang tersedia dan siap dipakai?
Ini bisa dihindari dengan proses pengumpulan data yang benar.
Kalau kasus umur customer, kita bisa cek "akurasi" dan "konsistensi".
Akurasi: apakah data sudah benar?
Konsistensi: apakah data di suatu sumber sama dengan sumber lain? (konsep ini beda dengan redundansi).
Utk menjamin akurasi dan konsistensi, kita bisa pakai data wrangling.
Tentu saja risikonya tidak semua data customer di bagian promo mungkin ada di data customer pusat yg ada tgl lahir. Tapi daripada salah kan ya? Rugi dong.
1. Kita bisa cocokkan data customer di promo dan di pusat (join)
2. Kalau nggak ada tanggal lahir customer di pusat, kita keluarin tuh customer yg ga punya tanggal lahir (empty data removal)
3. Baru deh kita hitung umur customer sesuai dengan tanggal berlaku promo. Bukan tanggal sekarang yah, hati-hati! (Derive new column)
Nah ternyata pakai data wrangling bisa buat memastikan kualitas data yang baik. Dan ini memang proses penjaminan kualitas data ini sangat krusial agar keputusan kita tepat. Dengan data yang baik, anggaran belanja kita jadi efisien dan promonya ke sasaran yang benar.
sedikit dikupas tentang 3 aspek kualitas data, yakni: akurasi, konsistensi, dan timeliness.
Nah ada 3 lagi nih aspek kualitas data yang mau dikupas:
- Completeness alias kelengkapan
- Keunikan alias uniqueness
- Validity alias validitas
-----
Kita bahas satu aja dulu ya: Completeness. Nah ini saya tambah aspek Data Governance: quality monitoring.
COMPLETENESS
-----
Saya mau cek data kelengkapan data pelanggan belanja nih. Ceritanya mau program loyalitas buat pelanggan yg udah lama nih, terus kirim hampers gituh. EH ternyata di tabel pelanggan ada kolom alamat sama kode pos. Nah pas dicek tuh kolom alamat ngisinya suka2.
Contoh: (1) Apartemen XYZ, Jaksel/kode pos: 12750, (2) Jalan ABC no. 2, Kec. XYZ/kode pos: -
Dua contoh ini kan ga bagus2 banget sebenernya. Tapi saya mau fokus ke contoh 2 nih, kan kode posnya kosong nih. Kalau kita isi sendiri bisa aja. tapi kan usaha lagi ya :(
Makanya kualitas tentang kelengkapan penting jadinya.
Tetapi, ada juga kasus yang kelengkapan jadi nggak perlu. Misal, kita mau cek data umur pelanggan untuk segmentasi produk. Berarti data kode pos kan nggak perlu. Jadi, perlu disesuaikan nih kebutuhan kualitas datanya!
DATA GOVERNANCE: QUALITY MONITORING
Tadi kita udah tahu tuh, untuk dua kasus yang berbeda, data kode pos bisa penting dan tidak penting. Jadinya wajib diisi atau tidak? Nah kalau ini tergantung kebutuhan bisnis untuk kasus tersebut.
Misal program loyalitas pelanggan lagi nih. Oh kalau alamatnya sudah keisi, kode pos-nya jadi opsional. Tetapi kalau alamatnya nggak keisi, jadinya gagal.
Dasarnya, cek nilai kosong ini bisa diantisipasi di sisi perangkat lunak registrasi pelanggan.
Tetapi, aturan pengecekan nilai kosong ini juga bisa ditinjau dari sisi data!
Kadang-kadang, kita tidak mau memaksa kolom alamat wajib diisi di sistem registrasi karena menyulitkan pengguna dan mengurangi efisiensi. Maka dari itu, pemeriksaan kolom alamat menjadi perlu ditinjau.
Dari pengawasan kualitas data, sebagai data governance, kita bisa mengatur pengawasan harian bagaimana lengkapnya data alamat+kode pos.
Contoh aturan pengawasan:
- Jika 90% kolom alamat tidak terisi, sistem loyalitas pelanggan tidak bisa berjalan lancar.
- Jika 50% kolom kode pos tidak terisi, sistem loyalitas pelanggan tidak bisa berjalan lancar.
Apa yang bisa kita terapkan di pengawasan datanya?
Nah, kalau kita lihat, kolom alamat kan punya prioritas yang lebih tinggi daripada kolom kode pos. Kita bisa pasang peringatan keras kalau kita menemui nilai kosong di kolom alamat setiap 1 minggu pengecekan. Sedangkan, kolom kode pos, kita cukup beri peringatan biasa saja.
Peringatan keras dan peringatan biasa bisa diterjemahkan ke dua jenis aturan dalam perkakas yang biasa dipakai dalam pengawasan kualitas data, yakni: aturan keras (hard rules) dan aturan lunak (soft rules).
Kembali lagi, semua tergantung kebijakan perusahaan.
Nah, akhirnya kan misal aturan tersebut sudah dijalankan yah. Kita bisa langsung deh tinjau data pelanggan untuk program loyalitas untuk cek data yang kosong (NULL) dengan eksplorasi data dan data wrangling, kemudian olah data untuk para pelanggan yang layak diberi hampers!
Posting Komentar