Seringkali tergelitik kalau dengar atau baca pernyataan ‘bersifat anonim’.
Babak 1: Perkenalan
Seringkali, ketika diajak mengisi survei atau memberikan data tertentu, disebutkan oleh pengumpul data bahwa data yang dikumpulkan bersifat ‘anonim’. Mungkin kurang lebih bunyi pernyataannya:
Data yang dikumpulkan dalam survei ini bersifat anonim. Kami tidak mengumpulkan nama, alamat email, ataupun nomor telepon partisipan.
Tapi apakah hal tersebut lantas membuat data kita menjadi ‘anonim’?
Kalau kita coba buat sebuah studi kasus sederhana:
- Anda sedang mendapatkan tugas untuk melakukan riset persepsi konsumer mengenai sebuah produk
- Anda telah menyusun sebuah survei dan mengirimkannya ke 4 orang teman anda untuk meminta bantuan mengisi survei (tentunya bukan praktik survei yang baik)
- Anda tahu bahwa salah satu teman anda tidak menyukai produk ini

Meski pada survei tersebut tidak ada data yang dapat mengidentifikasi langsung teman-teman anda seperti nama atau nomor telepon, anda bisa mengetahui siapa yang mengisi data “A” kan?
Seringkali, anonim = tidak adanya informasi yang ‘dengan mudah’ mengidentifikasi seseorang seperti nama, nomor telepon, NIK, dsb. Namun, anonimitas tidak sesederhana itu.
Babak 2: Permasalahan
Ah tapi itu kan contoh yang kecil, dan sengaja dikasih tahu bahwa ada teman yang tidak suka dengan produknya.
Betul, memang contoh yang sederhana, tapi de-anonimisasi seperti ini dapat dilakukan terhadap data yang telah dipublikasikan.
Salah satu contoh populer adalah riset yang dilakukan Latanya Sweeney terhadap data rekam medis di Massachusetts, Amerika Serikat. Data tersebut dipublikasikan dan dinyatakan bahwa data tersebut sudah anonim. Namun, dengan menggunakan sebagian dari data rekam medis tersebut: kode pos, jenis kelamin, dan tanggal lahir; ia dapat mengidentifikasi secara spesifik data mana yang merupakan data Gubernur Massachusetts.
Beberapa contoh de-anonimisasi lainnya*:
- Netflix Prize, merupakan data dari ratusan ribu pengguna Netflix beserta penilaian terhadap film yang ditontonnya (movie ratings). Data ini ‘dianonimkan’ dan hanya menyediakan sebuah ID unik untuk setiap orang, namun tidak ada data yang langsung mengidentifikasi seseorang tersebut. Arvind Narayanan dan Vitaly Shmatikov dapat melakukan identifikasi terhadap data Netflix tersebut dengan menyandingkannya dengan penilaian film yang ada di IMDb.

- NYC Taxi Rides, data terkait setiap perjalanan taksi di New York dan ‘dianonimkan’. Setiap taksi memiliki sebuah ID unik dan tidak ada data yang bisa mengidentifikasi pengemudi ataupun pemilik taksi. Namun, sejumlah periset dapat mengidentifikasi kembali pengemudi taksi dan menentukan berapa banyak jumlah penghasilan mereka.
Tapi semua contoh ini kan karena kebetulan, si ‘pelaku jahat’ punya informasi tambahan yang membantu mereka mengidentifikasi seseorang.
Iya. Informasi tambahan ini yang membuat anonimitas menjadi hal yang sulit dijamin karena kita tidak dapat mengetahui informasi tambahan apa yang dimiliki oleh lawan. Selain itu, anonimitas juga bergantung kepada data itu sendiri.
Ada salah satu pengalaman pribadi yang lucu kalau diingat-ingat. Kantor waktu itu sedang mengadakan acara dan ada sesi tanya jawab secara anonim (bayangkan via slido, mentee, google forms, dsb). Hanya pertanyaannya saja yang dimunculkan di layar. Tapi, beberapa kolega dapat langsung menembak saya kalau saya yang menulis pertanyaan tersebut (dan memang benar). Ketika ditanya kok bisa, jawabannya “itu pertanyaan lu banget van” dan “cara nulis lu banget”.
Dari yang hanya teks pertanyaan, berdasarkan cara menulis (pemilihan kata, singkatan, struktur, dst) dan intensi pertanyaannya, bisa mengidentifikasi. Kalau begitu, apa iya pertanyaan tersebut bersifat anonim?
Babak 3: Penutup
Terus apa?
Jadi coba menanyakan kembali:
- Sebagai individu: kalau kalian berikan data ini ke si pengumpul data, asumsikan datanya bisa dihubungkan kembali ke kalian. Dengan mempertimbangkan penggunaan data tersebut dan risiko kalau data tersebut terhubung ke kalian, apakah ok?
- Sebagai pengumpul data: bagaimana sifat dari data yang dikumpulkan dan risiko deanonimisasi apa yang ada pada individu? Apakah iya data yang kita kumpulkan dan proses benar anonim? Transparan kah kita dengan individu terkait terkait anonimitas datanya?
Tapi perlu diperhatikan juga:
- Bukan berarti praktik mengumpulkan data seperti contoh diatas ‘salah’ juga (lagipula, tidak ada yang hitam-putih). Tidak mengumpulkan data yang memang tidak diperlukan (seperti nama, nomor telepon di contoh awal) merupakan praktik minimisasi data yang baik untuk dilakukan.
- Bukan berarti dengan tidak adanya ‘anonimisasi’ yang menyeluruh, data tidak boleh dikumpulkan / digunakan. Tapi perlu dipertimbangkan antara tujuan dan risikonya untuk menentukan mekanisme pelindungannya (misal, apakah minimisasi data sendiri sudah cukup).
* meski riset diatas sering digunakan sebagai contoh dalam berbagai buku atau artikel mengenai privasi, ada artikel yang mengkritik juga penggunaan contoh-contoh diatas karena terlalu sering digunakan dan kurang menapak bumi.
Disclaimer
Tulisan ini mencerminkan pandangan pribadi penulis dan tidak mewakili pandangan lembaga atau organisasi manapun. Penulis sangat menghargai setiap masukan dan saran untuk memperbaiki isi tulisan ini.
Semua pandangan, opini, dan konten yang disediakan dalam tulisan ini dimaksudkan hanya untuk tujuan informasi semata. Penulis tidak bertanggung jawab atas tindakan yang diambil berdasarkan informasi ini dan tidak menjamin keakuratan atau kelengkapan informasi.