数据挖掘
维库,知识与思想的自由文库
数据挖掘,(英語:Data mining),又譯為数据採礦、数据探勘。也被稱為数据庫知識發現(英語:Knowledge-Discovery in Databases,簡稱:KDD),習慣上指從大量的数据中自動搜索隱藏於其中之知識的過程。数据挖掘與電腦科學有關,並透過統計、在线分析处理、情報檢索、機器學習和模式識別等諸多方法論來實現上述目標。
目录 |
[编辑] 定義
数据挖掘有以下這些定義:
儘管通常数据挖掘應用於数据分析,但是像人工智慧一樣,它也是個具有豐富含義的詞彙,用於不同的領域。
[编辑] 例子
数据挖掘在零售行業中的應用:零售公司跟蹤客戶的購買情況,發現某個客戶購買了大量的真絲襯衣,這時数据挖掘系統就在此客戶和真絲襯衣之間建立關聯。銷售部們就會看到此信息,直接發送真絲襯衣的當前行情給該客戶。這樣零售商店通過数据挖掘系統就發現了以前未知的關於客戶的新信息。
[编辑] 歷史
数据挖掘是因為海量有用数据快速增長的產物。使用計算機進行歷史数据分析,1960年代數字方式採集数据已經實現。1980年代,关系数据库隨著能夠適應動態按需分析数据的結構化查詢語言(Structured Query Language, SQL)發展起來。数据仓库開始用來存儲大量的数据。
因為面臨處理数据庫中大量数据的挑戰,於是数据挖掘應運而生,對於這些問題,它的主要方法是数据統計分析和人工智慧搜索技術。
[编辑] 数据捕捞
通常作為與数据倉庫和分析相關的技術,数据挖掘處於它們的中間。然而,有時還會出現十分可笑的應用,例如發掘出不存在但看起來振奮人心的模式(特別的因果關係),這些根本不相關的、甚至引人誤入歧途的、或是毫無價值的關聯,在統計學文獻裡通常被戲稱為「数据捕捞」(Data dredging, data fishing, or data snooping)。
数据挖掘意味著掃瞄可能存在任何關係的数据,然後篩選出符合的模式,(這也叫作「過度匹配模式」)。大量的數據集中總會有碰巧或特定的数据,有著「令人振奮的關係」。因此,一些結論看上去十分令人懷疑。儘管如此,一些探索性数据分析 還是需要應用統計分析尋找数据,所以好的統計方法和數據数据的界限並不是很清晰。
更危險是出現根本不存在的關聯性。投資分析家似乎最容易犯這種錯誤。在一本叫做《顧客的遊艇在哪裡?》的書中寫道:「總是有相當數量的可憐人,忙於從上千次的賭輪盤的輪子上尋找可能的重複模式。十分不幸的是,他們通常會找到。」[3]
多數的数据挖掘研究都關注於發現大量的数据集中,一個高度詳細的模式。在《大忙人的数据挖掘》一書中, 西弗吉尼亞大學和大不列顛哥倫比亞大學研究者討論了一個交替模式,用來發現一個数据集當中兩個元素的最小區別,它的目標是發現一個更簡單的模式來描述相關數據。[4]
[编辑] 私隱的關注
與数据挖掘有關的,還牽扯到私隱問題,例如:一個僱主可以透過訪問醫療記錄來篩選出那些有糖尿病或者嚴重心臟病的人,從而意圖削減保險支出。然而,這種做法會導致倫理和法律問題。
對於政府和商業数据的挖掘,可能會涉及到的,是國家安全或者商業機密之類的問題。這對於保密也是個不小的挑戰。[5]
数据挖掘有很多合法的用途,例如可以在患者群的数据庫中查出某藥物和其副作用的關聯。這種關聯可能在1000人中也不會出現一例,但藥物學相關的項目就可以運用此方法減少對藥物有不良反應的病人數量,還有可能挽救生命;但这當中還是存在着数据庫可能被濫用的问题。
数据挖掘實現了用其他方法不可能實現的方法來發現信息,但它必須受到規範,應當在適當的說明下使用。
如果数据是收集自特定的個人,那麼就會出現一些涉及保密、法律和倫理的問題。[6]
[编辑] 演算法
先驗演算法(英語:Apriori algorithm)是数据挖掘中最基本的算法。
[编辑] 組合博奕数据挖掘
1990年代早期, 隨著一種被稱為「tablebase」的組合遊戲雛形的出現(例如3x3-chess、小盤、點格、小6角形盤和象棋殘局, 一種新形態的数据挖掘誕生了。
This is the extraction of human-usable strategies from these oracles. This is pattern-recognition at too high an abstraction for known Statistical Pattern Recognition algorithms or any other algorithmic approaches to be applied: at least, no one knows how to do it yet (as of January 2005). The method used is the full force of Scientific Method: extensive experimentation with the tablebases combined with intensive study of tablebase-answers to well designed problems, combined with knowledge of prior art i.e. pre-tablebase knowledge, leading to flashes of insight. Berlekamp in dots-and-boxes etc. and John Nunn in 國際象棋 endgames are notable examples of people doing this work, though they were not and are not involved in tablebase generation.[编辑] 商業解決方案
(按照字母順序排列)
[编辑] 參考
- 人工智慧
- 神經網絡
- 商務智能
- 商務性能管理
- 数据庫
- 数据流挖掘
- 数据倉庫
- 決策樹
- 描述統計學
- 文件倉庫
- 模糊邏輯
- 假設檢驗
- 線性判斷分析
- Logit (關於logistic regression)
- Loyalty card
- 機器學習
- 數據聚類(Data clustering)
- 最近臨域 (模式識別)
- 模式識別
- 主成分分析
- 回歸分析
- 相關數據挖掘
- 統計
- 文本挖掘
- 關聯式規則(Association rule)
- 在线分析处理
- 决策支持系统
[编辑] 參考書
- 《数据挖掘:概念與技術》,Jiawei Han、Micheline Kamber等著,機械工業出版社,2001年。 ISBN 1-55860-489-8。
- 最負盛名的数据挖掘著作,但版本較老,對讀者的計算機尤其是數據庫背景要求較高。
- 《数据挖掘導論》, Pang-Ning Tan, Michael Steinbach等著,范明、范宏建等譯,人民郵電出版社,2006年。 ISBN 7-115-14698-5 。圖靈教育
- 最新出版的数据挖掘著作,其寫作目的是「盡可能直接地學習数据挖掘,以便盡快地將其應用到各自的領域」。覆蓋了多學科應用實例,對讀者數學和計算機背景要求較低。
- 《数据探勘》,丁一賢、陳牧言合著,滄海出版社,2005年。 ISBN 986-7777-98-0 。滄海書局
- Yuchun Lee et al. (1998), "Solving Data Mining Problems Through Pattern Recognition" , ISBN 0-13-095083-1
- Oded Maimon and Mark Last (2000), "Knowledge Discovery and Data Mining - The Info-Fuzzy Network (IFN) Methodology", Kluwer Academic Publishers. ISBN 0-7923-6647-6
- Sholom Weiss and Nitin Indurkhya(1998). "Predictive Data Mining". Morgan Kaufman. ISBN 1-55860-403-0
- Ian Witten and Eibe Frank, "Data Mining: Practical Machine Learning Tools and Techniques with Java Implementations" (2000), ISBN 1-55860-552-5, (see also Free Weka software)
[编辑] 外部鏈接
- SearchCRM.com Original daily breaking news, white papers, expert advice, webcasts, product reviews and more on data mining.
- 數據挖掘簡介(TwoCrows.com)
- Comprehensive data mining white papers and tutorials (thearling.com)
- SQLServerDataMining SQL Server 2005數據挖掘相關信息和交互式演示
- CRM Today-數據挖掘 數據挖掘白頁,論文,演示和學術論文
- Data Mining whitepapers, webcasts and case studies
- KDnuggets 數據挖掘,知識發現,普通挖掘,Web挖掘目錄
- 數據挖掘 Siebel公司的軟件
- Kmining 數據挖掘和KDD科學會議列表
- 數據挖掘 嚮導
- 數據挖掘和數據倉庫 數據挖掘指導
- Weka Java語言版開放源代碼數據挖掘軟件
- 數據流挖掘書目 數據流挖掘的相關內容,技術和應用
- Orange C++和Python語言編寫的開放源代碼數據挖掘軟件
- Data Mining Program, University of Central Florida
- Future of Data Mining 數據挖掘的未來, Hari Mailvaganam, http://www.dwreview.com/ (2004年12月)
[编辑] 參考文獻
- ↑ W. Frawley and G. Piatetsky-Shapiro and C. Matheus (Fall 1992). "Knowledge Discovery in Databases: An Overview". AI Magazine: pp. 213-228. ISSN 0738-4602.
- ↑ D. Hand, H. Mannila, P. Smyth (2001). "Principles of Data Mining". MIT Press, Cambridge, MA. ISBN 0-262-08290-X .
- ↑ Fred Schwed, Jr (1940). "Where Are the Customers' Yachts?". ISBN 0-471-11979-2 .
- ↑ {{{2}}}
- ↑ K.A. Taipale (December 15, 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data". Colum. Sci. & Tech. L. Rev. 5 (2). SSRN 546782 / OCLC 45263753 .
- ↑ Chip Pitts (March 15, 2007). "The End of Illegal Domestic Spying? Don't Count on It". Wash. Spec.




