contoh kasus data 1
Sebuah rumah sakit ingin ingin menekan biaya perawatan pasien tanpa mengurangi kualitas pelayanan. Salahsatu potensi yang dapat dimanfaatkan pada penerapan data mining di rumah sakit adalah mengidentifikasi atribut-atribut penentu biaya pasien rawat inap. Dengan mengetahui atribut penentu biaya rawat, diharapkan pihak manajemen rumah sakit dapat melakukan kontrol terhadap biaya, sehingga ongkos perawatan pasien dapat ditekan tanpa mengurangi kualitas pelayanan. Untuk mengidentifikasi atribut penentu biaya pasien rawat inap, digunakan data kunjungan pasien rawat inap RSUP Dr. Cipto Mangunkusumo dengan jaminan Jamkesmas periode 1 Januari 2009 s/d 30 September 2010 daridatabase SIMRS sebanyak 2022 kunjungan (jumlah sebelum dilakukan data cleaning 8383). Dengan teknik analisa Atttibute Importance (AI) didapatkan atribut-atribut penentu biaya dengan urutan sebagai berikut: prosedur medis 1 (AI=0,16), prosedur medis 4 (AI=0,15), prosedur medis 3 (AI=0,14), LOS (AI=0,13), prosedur medis 2 (AI=0,13), organisasi (AI=0.10), diagnosa utama (AI=0,08), jenis kelamin (AI=0.02) dan status kawin (AI=0.01). Hasil klasifikasi dengan teknik Algoritma Naive Bayes menunjukkan model yang dibuat memiliki predictive confidence sebesar 50,41%. I. Pendahuluan Perkembangan teknologi informasi yang pesat terutama di sektor kesehatan memungkinkan data dalam jumlah besar terakumulasi dengan cepat. Saat ini berbagai rumah sakit sudah mulai menerapkan sistem informasi rumah sakit berbasis komputer untuk mendukung manajemen keuangan (khususnya billing systems) [1]. Untuk rumah sakit yang sudah mapan sistem informasinya bahkan mulai memperluas kebutuhannya untuk membangun sistem informasi klinik. Pertumbuhan yang pesat dari akumulasi data itu telah menciptakan kondisi yang sering disebut sebagai rich of data but poor of knowledge, karena data yang terkumpul itu hanya digunakan untuk kebutuhan operasional saja, bahkan tidak jarang kumpulan data itu dibiarkan begitu saja seakan-akan menjadi kuburan data (data tombs). Untuk melakukan analisa data dalam jumlah besar yang tersimpan pada database, biasanya digunakan teknik data mining. Meski telah umum digunakan pada industri keuangan dan telekomunikasi, teknik data mining mulai diterapkan secara intensif di sektor kesehatan. Sebagai contoh, Mayo Clinic bekerja sama dengan IBM menerapkan teknik data mining pada pasien dengan kesamaan jenis kelamin, usia dan riwayat kesehatan untuk mengetahui respon terhadap pengobatan tertentu.[2] Teknis data mining dapat kita lihat sebagai hasil dari evolusi alamiah teknologi informasi. 2. PROSES DATA MAINING Pada bagian ini akan dijelaskan proses data mining yang terdiri dari beberapa tahap.
contoh kasus data mining 2
Pembersihan data (data cleaning), untuk membersihkan noise dan data yang tidak konsisten. Dalam kasus ini membersihkan data-data pasien yang sudah dihapus dan identitas yang tidak lengkap (misal: umur, status marital, pendidikan, diagnosa, dan sebagainya). 2. Integrasi data, penggabungan data dari berbagai sumber; 3. Transformasi data, data diubah menjadi bentuk yang sesuai untuk di mining; 4. Aplikasi teknik data mining, proses inti dimana teknikdata mining diterapkan untuk mengekstrak pola-pola tertentu pada data; 5. Evaluasi pola yang ditemukan; 6. Presentasi pengetahuan, menggunakan teknik visualisasi untuk menampilkan hasil data Mining kepadapengguna (user). 3. Data dan Perangkat Pendukung 3.1 Data Untuk mengidentifikasi atribut-atribut penentu biaya pasien rawat inap, digunakan data kunjungan pasien rawat inap RSUP Dr. Cipto Mangunkusumo dengan jaminan Jamkesmas periode 1 Januari 2009 s/d 30 September 2010 yang diambil dari database SIMRS sebanyak 8383 kunjungan pasien. Setelah dilakukan data cleaning, didapatkan 2022 kunjungan pasien yang layak untuk dianalisa Perangkat Lunak Untuk analisa data mining digunakan perangkat lunak Oracle Data Miner dan database Oracle 11g. 3.3 Metode & Teknik 3.3.1Atribute Importance (AI) Attribute Importance (AI) memberi peringkat atribut dengan menghilangkan atribut yang berulang, tidak relevan, atau tidak informatif dan mengidentifikasi atribut yang mungkin memiliki pengaruh yang paling tinggi dalam membuat prediksi. Gambar 3. AI menggunakan algoritma Minimum Description Length (MDL). Algoritma MDL mempertimbangkan setiap atribut sebagai model prediktif sederhana dari kelas target. Teknik AI digunakan untuk mengoptimalkan analisa model classification dengan mengurangi atribut yang digunakan dan akan meningkatkan kecepatan dan akurasi saat membangun model Naive Bayes Algorithm (Classification) Classification adalah proses untuk Menemukan model Atau fungsi yang atau membedakan konsep atau kelas data, Dengan tujuan untuk dapat memperkirakan Kelas dari Suatu objek yang labelnya tidak Berupa aturan jika-- maka. Dalam Teknik classification terdapat beberapa Algoritma yang Bisa digunakan antara lain decision tree,naive bayes, adaptive naive bayes, logistic regression dan support vector machine. Bayesian Classificationdidasarkan pada Teorema Bayesian. Konsep dasar teori bayes itu pada dasarnya
contoh kasus data mining 3
adalah peluang bersyarat P(H X). Dimana dalam Bayesian H adalah posterior dan X adalah prior. Prior adalah pengetahuan kita tentang karakteristik suatu parameter (bisa dibaca sebagai pengalaman di masa lalu atas suatu parameter atau juga bisa berdasarkan teori), sedangkan posterior adalah karakteristik yang akan kita duga pada kejadian yang akan datang. Teorema Bayesian berguna untuk melakukan kalkulasi probabilitas posterior, P(H X), dari P(H), P(X) dan P(X H). Teori Bayes adalah sebagai berikut : P(H X) = P(X H)P(H) P(X) Proses classification biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tersebut. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui. [3] Data Scoring Setelah model dibuat dengan aplikasi data mining, model tersebut bisa digunakan untuk membuat prediksi dari data baru yang dalam hal ini diterapkan untuk memprediksi pola biaya data kunjungan pasien. Model biasanya dibuat dengan menggunakan data historis dari kunjungan pasien sebelumnya. Prosesnya dapat digambarkan sebagai berikut: 4. Teknik Data Mining 4.1 Persiapan Data Sebelum dilakukan teknik data mining dilakukan eksplorasi data untuk mengetahui distribusi data pasien berdasarkan atribut tertentu (misal: distribusi pasien berdasar umur) dan juga untuk mengidentifikasi data yang tidak normal (outliers). Data divisualisasikan dalam bentuk histogram. Beberapa histogram profil kunjungan pasien ditampilkan sebagai berikut : Gambar 5. Distribusi berdasar gender Gambar 6 Distribusi berdasar umur
Posting Komentar