Perlombongan data: Perbezaan antara semakan

Kandungan dihapus Kandungan ditambah
Pengembangan rencana
Tiada ringkasan suntingan
Teg-teg: Suntingan mudah alih Suntingan web mudah alih
Baris 1:
'''Perlombongan data''' ialah suatu proses menemukan corak dalam [[set data]] besar yang melibatkan persimpangan [[pembelajaran mesin]], [[statistik]] dan [[sistem pangkalan data]].<ref name="acm" /> Proses penting ini menggunakan kaedah kecerdasan untuk memperoleh corak data.<ref name="acm" /><ref>{{cite book|last1=Han, Kamber, Pei|first1=Jaiwei, Micheline, Jian|title=Data Mining: Concepts and Techniques|date=9 Jun 2011|publisher=Morgan Kaufmann|isbn=978-0-12-381479-1|edition=ke-3|url=http://proquest.safaribooksonline.com.proxy.library.carleton.ca/book/databases/data-warehouses/9780123814791}}</ref> Ia merupakan subbidang [[sains pengkomputerankomputer]] yang bersifat antara disiplin.<ref name="acm">{{cite web |url=http://www.kdd.org/curriculum/index.html |title=Data Mining Curriculum |publisher=ACM SIGKDD |date=30 April 2006 |accessdate=27 Januari 2014}}</ref><ref name="brittanica">{{cite web |last=Clifton |first=Christopher |title=Encyclopædia Britannica: Definition of Data Mining |year=2010 |url=http://www.britannica.com/EBchecked/topic/1056150/data-mining |accessdate=12 September 2010}}</ref><ref name="elements">{{cite web |last1=Hastie|first1=Trevor|last2=Tibshirani|first2=Robert|last3=Friedman|first3=Jerome|title=The Elements of Statistical Learning: Data Mining, Inference, and Prediction |year=2009 |url=http://www-stat.stanford.edu/~tibs/ElemStatLearn/ |accessdate=7 Ogos 2012}}</ref>
 
Proses ini bermatlamat memperoleh maklumat daripada set data kemudiannyaseterusnya menukarkan maklumat tersebut menjadi suatu struktur yang mudah difahami untuk penggunaan selanjutnya.<ref name="acm" /> Proses perlombongan ini merupakan kangkahlangkah menganalisis dalam proses penemuan maklumatpengetahuan dalam pangkalan data (''knowledge discovery in databases'', atau KDD).<ref name="Fayyad">{{cite web |last1=Fayyad |first1=Usama |last2=Piatetsky-Shapiro |first2=Gregory |last3=Smyth |first3=Padhraic |title=From Data Mining to Knowledge Discovery in Databases |year=1996 |url=http://www.kdnuggets.com/gpspubs/aimag-kdd-overview-1996-Fayyad.pdf |accessdate = 17 DecemberDisember 2008 }}</ref>
 
==Proses==
"Proses penemuan maklumatpengetahuan dalam pangkalan data" ditakrifkan secara umumnya melalui langkah-langkah berikut:
 
# Pemilihan (''Selection'')
Baris 13:
 
===Prapemprosesan===
Suatu set data sasaran yang cukup besar sehingga mengandungi corak yang wujud dalam data sambil ia boleh dilombong dengan tepatnya dalam suatu tempoh masa yang jelas harus dibina sebelum algoritma perlombongan data dapat digunakan. Data dapat diperolehi daripada sumber tertentu seperti [[pasar data|pasar]] atau [[gudang data]]. Langkah ini penting untuk menganalisis set data yang multivariat sebelum pelombongan berlaku. Set data sasaran ini kemudiannya "dibersihkan" bagi membuang sebarang pemerhatian yang mengandungi [[hingar statistik]] (''statitical noise'') dan [[data hilang|data yang hilang]].
 
===DataPerlombongan miningdata===
Perlombongan data melibatkan enam kelas tugasan yang awam iaitu:<ref name="Fayyad"/>
 
* [[Pengesanan anomali]] (''anomaly detection'') – pengenalpastian catatan data yang tidak normal yang barangkalinya menarik perhatian atau ralat datatdata yang memerlukan siasatan lanjut.
* [[Pembelajaran peraturan sekutuan]] (''Association rule learning'') – pencarian hubungan antara pemboleh ubah; sebagai contoh, tabiat pembelian pelanggan yang dikumpul syarikat pasar raya melalui pembelajaran peraturan sekutuan boleh digunakan untuk menentukan produk mana yang dibelikan bersama lalu maklumat tersebut dihantarkan untuk tujuan pemasaran.
* [[Analisis klusterkelompok|PengklusteranPengelompokan]] (''Clustering'') – penemuan kelompok dan struktur dalam data yang sedikit sebanyak "serupa" tanpa mengunakan struktur yang diketahui dalam data.
* [[Pengelasan statistik|Pengelasan]] (''Classification'') – membuat sesuatu struktur yang diketahui itu lebih umum agar ia dipakai pada data baru.
* [[Analisis regresionregresi|Regresi]] (''Regression'') – percubaan mencari fungsi yang memodelkan data dengan ralat yang paingpaling kurang untuk menganggarkan hubungan antara data atau pangkalan data.
* [[Peringkasan automatik|Peringkasan]] (''Summarization'') – memberikna perwakilan yang lebih padat kepada set data termasuk melalui visualisasi dan pemnghasilan laporan.