1 引言
數字革命已使數字化信息更容易獲得和儲存。隨著計算機軟硬件的發展和大量的商務活動,海量數據被收集在數據庫中,這樣的數據迅猛增加,導致傳統的統計技術和數據管理工具不足以分析這些海量數據。因為在許多領域,數據分析往往是一個人工過程。一名或多名分析師應對數據非常熟悉,并通過運行統計軟件提供出總結報告。實際上,分析師充當的是電腦處理程序,然而,在數據規模和維數不斷增加時,此種軟件程序將很快崩潰。數據和維數分別為十億和千位的數據庫會很普通,當操作、探究和推測所需數據的規模超出人們的能力時,人們需依靠計算機自動操作技術。要實現這種技術,急需一種能夠智能地、自動地把數據轉換成有用信息和知識的技術和工具。數據挖掘是一個多學科交叉,并能從海量的、潛在的、隱含的、事先未知的數據中,提取人們感興趣的有用信息和知識的過程。提取的知識表示為概念、規則、規律、模式、可視化等。它利用自動化工具及成熟算法從海量數據中發現隱藏的模型和結構。數據挖掘結果被描述出來,如發現能描述數據的令人感興趣的模型,基于有用數據預測模型行為等。軟計算是方法論的集合,這些方法集互相協作,并以一種形式或其它某種形式為現實中的模糊情況提供靈活信息處理功能[1]。它的目的是為了獲得易處理的、粗糙的、低成本的解決方法而對不確定的數據進行處理。遵從的原則是以追求近似解決模糊/精確問題,并低成本地設計解決方案。軟計算方法主要包括模糊集、遺傳算法、神經網絡、粗糙集等,已經廣泛應用于數據挖掘中。模糊集是對處理不確定性概念及其推理機制的過程,神經網絡和粗糙集常被用來分類,遺傳算法包括最優解和搜索過程,像問題最優解和樣本選擇。其它方法還有決策樹,也廣泛用于數據挖掘領域。本文對主要軟計算方法做了系統性的闡述,并著重強調了不同軟計算方法在數據挖掘中的應用情況。
2 數據挖掘技術
數據挖掘被認為是一種有效的、新穎的、用途廣闊的,并最終能理解數據模型的過程。正確高效的實施數據挖掘是從這些海量的、以不同形式存儲的數據資料中發現有價值的信息或關鍵知識,從而確保人們獲得所需要的信息和規律,以制定解決方案。
(1)數據清理:消除噪聲或不一致的數據。
(2)數據集成:多種數據源可以組合在一起。
(3)數據選擇:從數據庫中檢索與分析任務相關的數據。
(4)數據變換:數據變換或統一成適合挖掘的形式。
(5)數據挖掘:使用智能方法提取數據模式。
(6)模式評估:根據某種興趣度度量,識別表示知識的價值的模式。
(7)知識表示:使用可視化和知識表示技術,展現挖掘的知識或信息。
能挖掘到最好的模型與高效的挖掘數據規模是不可分的。多數原因在于擴大數據范圍,常常也會提高分類的準確度,在大多數情況下,當數據規模小、有噪聲、特征多時準確率就會降低;再有,大數據集的出現暗示著算法也在不斷的發展。大數據集也會預示時間和空間的復雜程度;最后,挖掘的效果不一定完全取決于算法。
3 數據挖掘中的軟計算方法
目前,已有多種軟計算方法被用來處理數據挖掘所面臨的挑戰。軟計算方法主要包括模糊邏輯、神經網絡、遺傳算法和粗糙集等。這些方法各具優勢,與傳統技術相比,它能使系統更加智能化,讓人理解性更強,且成本更低。
3.1 模糊邏輯軟計算方法
模糊邏輯是最早、應用最廣泛的軟計算方法,模糊邏輯的發展導致了軟計算方法的出現,模糊集技術在數據挖掘領域占有重要地位,多數數據瀏覽方式都是通過模糊集理論來完成。數據挖掘中的數據分析經常同時分析不同種數據,即符號數據和數字數據。Pedrycz[2]討論了一些結構化和模糊化的知識發現,確定了數據挖掘和模糊模型間的聯系。隨著技術的發展,模糊集被認為是數據挖掘的另一種不同功能方法:
聚類:數據挖掘就是從海量數據中,挖掘出用戶感興趣的知識。模糊集有很強的搜索能力,尤其是數據中的語氣詞匯,它對發現的結構感興趣,這會幫助發現定性/半定性數據的依賴度。在數據挖掘中,它對發現的結構感興趣,這會幫助阻止搜到無用和微不足道的知識。研究者為此發展了模糊聚類算法。Russell和Lodwick[3]在挖掘通訊市場領域時探索出了模糊聚類。在數據挖掘中取得有用信息是重要的,因為有太多的屬性要考慮,多數無指導的數據挖掘方法,首先是通過興趣度來取得有用信息的。Mazlack[4]建議消減與要求不協調的屬性來縮減數據集。軟方法用來處理不準確的數據時,它通過消減與要求不協調的屬性來更好地發現有用的信息,任務就是通過去除無興趣屬性來找到有凝聚性和可理解性的知識,不活躍的值通過所要求的粒度來處理。
協作規則:數據挖掘重要的一點是協作規則的發現,協作規則描述了不同屬性間的相互關系。布爾協作包括二元屬性,普通協作包括最重要的屬性,與量有關的協作包括能呈現量值或定值的屬性。模糊技術的應用已經成為數據挖掘系統關鍵組成部分之一。Wei 和Chen[5]用模糊分類開拓了普通協作規則,模糊分類用非周期性曲線來表示。當計算支持度和置信度時,項目屬于哪類需進行考慮。Au 和Chan[6]利用關系數據庫中觀測和期望模糊協作屬性間的差距來進行調整,基于詞語來表示發現的規則和期望,而不是把與量有關的屬性分成幾段,并不需設置閾值,量值能直接從規則中提取;語言表達法能發現更自然和人性化的規則;算法能發現肯定的和否定的規則,也能處理缺失的值,但模糊技術的使用隱藏了數字量的間隔,會引起噪聲的復原。此算法己應用到PBX數據庫系統和工業企業的數據庫。
功能依賴度:模糊邏輯在關系數據庫中通過功能依賴度來進行分析,模糊推論概括了不準確和準確的推論。相似的、模糊的關系數據庫概括了那些支持模糊信息存儲和恢復,既優秀和不確切的部分。推論分析常常應用在不確切的、模糊的關系數據庫上,這增加了其在應用領域的范圍,它包括數據挖掘和數據庫安全系統。自從功能依賴度可用緊密的格式來表達關于實時領域屬性的數據庫時,它就成為數據挖掘的用武之地。這些屬性能在許多領域應用,如工業和咨詢最優化。
數據概化:概化發現是數據挖掘重要部分之一。它用可理解的信息來表達數據庫中最重要的部分,并提供給用戶。
大數據集的語言概化通過有效的程度來獲得,參考的標準內容在挖掘任務中。系統由概述、一致性程度真實和有效性組成。已經發現的最有興趣的語言概化并不瑣碎,卻很人性化。實際上,它并不能自動地進行概化,需要人的操作。Kacprzyk和Zadrozny[7]發展了功能依賴度,語言概化使用了自然和可理解性的詞匯,它支持模糊元素,包括屬性間模糊的、重要的相互作用。首先,用戶必須制定概化興趣度,然后系統從數據庫中獲得記錄,并計算每個概化的有效性,最后,選擇最適合的語言概化。此方法通過網絡瀏覽器已用在因特網上。模糊值、模糊聯系和語言量都通過JAVA來定義。
Chiang[8]在挖掘時間序列數據時使用了模糊語言概化。在顯示工具中,系統提供用戶預挖掘的數據庫,并決定什么樣的知識能被挖掘。模型被用來預測包括CPU和存儲單元在內的不同資源。
3.2 神經網絡軟計算方法
因為神經網絡的黑箱問題,它先前被認為不適合應用于數據挖掘,且在符號格式中,它并不能獲得有用信息,但卻適合進行解釋。近年來,挖掘訓練過的網絡中的嵌入知識,已廣泛地應用于數據挖掘中。它對屬性或逐個或合并地進行判別,這對于決策或分類是非常重要的。它對數據挖掘的貢獻是在規則提取和自組織性上。
規則提取:一般來說,規則提取算法首要的輸入連接是訓練過的神經網絡與數據集節點的連接。一個或多個隱藏的輸出單元會自動地獲得規則,合并后可得到更多可理解的規則集,這些規則也能應用在新領域。神經網絡應用主要在并行和數據搜索最優解方面。在網絡訓練達到準確率要求后,修剪網絡節點,分析網絡隱藏單元的價值,最進行分類,此模式適合于有海量數據領域。
自組織性:數據挖掘最大挑戰之一是組織性和檔案文件的取得。Kohonen[9]論證了利用有一百多萬個節點的自組織映射來劃分近七百萬份500維特征向量的抽象文件。
回歸:神經網絡也用在變量分類和回歸任務上。Lee和 Liu[10]利用神經網絡分類精度高、魯棒性強等優點,做出關于熱帶龍卷風軌跡的模型。
3.3 神經-模糊軟計算方法
神經-模糊計算結合了神經網絡和模糊兩種方法,建立了更強的智能決策系統,它把神經網絡的優點,如并行性、魯棒性和學習性融入系統中,而模型中不確定、模糊的知識可以利用模糊邏輯來解決。
神經網絡被用來提取更多的自然規則,模糊多層感知器MLP[11]和模糊Kohonen網絡[12]就使用語言規則概括和推論,除了在數量、語言、集合形式以外,輸入也可能是不完全的,輸入向量用語言形式分成低、中和高,用來相應每個輸入特征。模型能夠基于完整的或部分信息進行推論,為用戶找到那些能進行決策的關鍵的未知輸入量,用IF THEN語句來進行表達。
在執行中,訓練網絡中的節點和物體間的連接是必須的。挖掘規則的標準對輸出決策是有影響的。Zhang[13]設計了一種粒度神經網絡來處理數字量數據庫中的粒度知識。網絡能學習輸入和輸出間的粒度聯系,并預測新的聯系。低水平的粒度數據能濃縮成高水平的知識。基于網絡的神經模糊知識能概括肯定的和否定的規則并驗證是否能達到決策。當從數據集中提取領域知識時,分類信息和模式的分配都要被考慮進去,模糊間隔和語言集也被使用。網絡知識的提取需使用生長或剪枝技術。基于網絡的知識得到的越早,得出的規則也就更豐富。
3.4 遺傳算法
遺傳算法是可調節的、魯棒的、有效率的搜索方法,它適應于搜索大空間集。它相對數據挖掘的標準來優化功能,并達到搜索最優解的目的。從給定目標集中挖掘目的信息的MASSON系統已受到歡迎,而從目標集中找到普遍存在的特征卻是一個問題。遺傳程序被用來進行交叉、變異和選擇。遺傳算法也可用在多媒體數據庫中對復雜的數據分類及自動地挖掘多媒體數據。
遺傳算法具有計算簡單,優化效果好的特點,它在處理組合優化問題方面有一定的優勢,可用于聚類分析等。遺傳算法作為一種有效的全局搜索方法,從產生至今不斷擴展應用領域,同時應用實踐又促進了遺傳算法的發展和完善。Nada[14]利用遺傳算法來發現有用規則,不同的規則能預測不同的目標屬性。具有高信息增益的屬性分類是好的,當考慮屬性的相互作用時,具有低信息增益的屬性的相互聯系能更加緊密,這個現象與規則興趣度有關,換句話說,目標屬性的值越小,預測規則的興趣度越大。Nada試圖發現的是一些有興趣的規則,而不是大量精確的規則。
3.5 粗糙集軟計算方法
粗糙集理論由波蘭邏輯學家Pawlak教授在20世紀80年代提出,是一種處理含糊和不確定問題的新型數學工具,其出發點是根據目前已有的對給定問題的知識將問題的論域進行劃分,然后對劃分的每一部分確定其對某一概念的支持程度:即肯定支持此概念,肯定不支持此概念和可能支持此概念,并分別用三個近似集合來表示為正域、負域和邊界。它能有效地分析不精確、不一致、不完整等各種不完備的信息,還可以對數據進行分析和推理,從中發現隱含的知識和潛在的規律。同時,粗糙集理論在處理大數據量,消除冗余信息等方面有著良好的效果,因此廣泛應用于數據挖掘的數據預處理、規則生成等方面[15]。但是,由于粗糙集理論存在對錯誤描述的確定性機制過于簡單,而且在約簡的過程中缺乏交互驗證功能,因此,在數據存在噪聲時,其結果往往不穩定,精度也不高。針對粗糙集理論應用于數據挖掘時存在的問題,文獻[16]提出了一種融合粗糙集理論和神經網絡的數據挖掘新方法,應用于大型數據庫的分類規則挖掘。其主要思想是首先由粗糙集理論對數據庫進行初步約簡,然后借助于神經網絡在自學習過程中完成對數據庫的進一步屬性約簡,并過濾數據中的噪聲數據,最后由粗糙集理論對約簡后的數據庫進行規則抽取,得到最終的挖掘知識。
3.6 混合方法
Banerjee[17]利用粗糙集、神經網絡和模糊邏輯相結合的方法設計了數據挖掘系統,其中用粗糙集方法在決策表中進行約簡。而用模糊集方法挖掘出未經加工的知識,最后由神經網絡根據依賴度進行取舍。George和Srikanth[18]應用了模糊與遺傳算法相結合的方法,其中遺傳算法用來決定選取最適當的數據。Kiem和Phul[19]用粗糙集、神經網絡和遺傳算法相結合的方法來對大數據庫進行聚類。研究表明,混合式數據挖掘方法具有更好的特性。
4 結論
數據挖掘是一個年輕而又活躍的研究領域,目前面臨的問題是缺少對基礎理論和應用技術方面的研究。數據挖掘中經常遇到的技術難題有:大量的數據集及其高維:巨大數據集為挖掘出模型提供了空間,但也增加了數據挖掘算法挖掘到無效模型的幾率;評估統計的重要性:挖掘的數據一般是巨大的且對分配資源是有效的,所以規劃和調查對于模型設計是非常重要的;理解模型:發現人類所不能理解的模型是很重要的,解決方法是規則結構化、數據和知識可視化等。隨著數據挖掘理論研究的不斷深入,數據挖掘的工程應用領域將會更加廣泛。
參考文獻
1.L. A. Zadeh. Fuzzy logic, neural networks, and soft computing, Commun. ACM, Vol. 37, pp. 77-84, 1999.
2. W. Pedrycz, Fuzzy set technology in knowledge discovery, Fuzzy Sets Syst, Vol. 98, pp. 279-290, 2001.
3. W. Pedrycx, Conditional fuzzy c-means, Pattern Recognition Lett. Vol. 17, pp. 625-632, 2000.
4. L. J. Mazlack, Softly focusing on data, in Proc. NAFIPS99, New York, June 1999, pp. 700-704.
5. Q. Wei and G. Chen, Mining generalized association rules with fuzzy taxonomic structures, in Proc.
NAFIPS99, New York, June 1999, pp. 477-481.
6. Au and Chan, An effective algorithm for discovering fuzzy rules in relational databases, in Proc. IEEE Int. Conf. Fuzzy Syst. FUZZ IEEE 98, pp.1314-1319, May 1998.
7. J. Kacprzyk and S. Zadrozny, Data mining via linguistic summaries of data: An interactive approach, in Proc IIZUKA 99, Fukuoka, Japan, Oct. 1999, pp. 668-671.
8. D. A. Chiang, L. R. Chow, and Y. E.Wang, Mining time series data by a fuzzy linguistic summary system, Fuzzy Sets Syst. Vol. 112, pp. 419-432, 2002.
9. T. Kohonen, S. Kaski, etal, Self organization of a massive document clkkection, IEEE Trans. Naural Networks, Vol. 11, pp. 574-585, 2002.
10. V. Ciesielski and G. Palstra, Using a hybrid neural/expert system for database mining in market survey data, in Proc. Second International Conference on Knowledge Discovery and Data mining. Portland, Aug. 2-4, 1996.
11. S. Mitra and S. Pal, Fuzzy multi-layer perceptron, inferencing and rule generation, IEEE Trans. Neural Networks, Vol. 6, pp. 51-63, 1999.
12. S. Mitra and S. Pal, Fuzzy self organization, inferencing and rule generation, IEEE Trans. Syst. Man. Cybern. A , Vol. 2, pp. 608-620, 2000.
13. Y. Zhang and A. Kandel, Granular neural networks for numerical-linguistic data fusion and knowledge discovery, IEEE Trans. Neural Networks, Vol. 11, pp. 658-667, 2002.
14. E. Noda and H. Lopes, Discovering interesting prediction rules with a genetic algorithm, Proc. IEEE Cong. Evolutionary Comput. pp. 1332-1329, 2001.
15. 韓中華,吳成東,劉海濤,數據挖掘技術研究進展,工控智能化,2003(10), pp. 18-23.
16. 李仁璞,基于粗集理論和神經網絡結合的數據挖掘新方法,情報學報,2002(12), pp. 674-679.
17. M. Banerjee and K. Pal, Rough fuzzy MLP: knowledge encoding and classification, IEEE Trans. Neural Networks, Vol. 9, pp. 1203-1216, 2000.
18. R. George and R. Srikanth, Data summarization using genetic algorithms and fuzzy logic, in Genetic Algorithms and Soft Computing, Eds. Heidelberg, Germany: Physicaverlag, 1999, pp. 599-611.
19. H. Kiem and D. Phuc, Using rough genetic and Kohonen's neual network for conceptual cluster discovery in data mining, in Proc.RSFDGRC99, Yamaguchi, Japan, Nov. 1999, pp. 448-452.