1998年,“大數據”概念首次出現在美國《科學》雜志中。近20年來,大數據浪潮一波波向世人撲面而來。有人形容,大數據就像一片無邊無際的大海,海面一浪高過一浪,而浪潮之下深不見底。
大數據的核心口號是量化世界,量化世界為創構世界奠定了基礎。在大數據的基礎上,物數據化和數據物化構成循環。這是因為,物數據化事實上就是物信息化,數據物化實質上就是信息物化。隨著現代信息技術的發展,創構活動及其產物與人的存在方式越來越密切地聯系在一起。
這里涉及一個新的重要概念:信息。在控制論創始人維納看來,“信息就是信息,既不是物質也不是能量”。這個定義看上去像是同義反復,卻富有深意。比如,物能復制成本呈正比增加,而信息復制的邊際成本遞減;物能越分享越少,而信息越共享越多。信息的這些重要性質,在作為樣本數據的小數據時,顯示不出重要性;而在大數據基礎上,則變得非同尋常。在大數據的基礎上,信息會對人類的文明發展產生極為重要的影響。
面對大數據打開的這扇大門,我們不能不深入思考:這將是怎樣的一扇門,又會把我們帶進一個怎樣的新世界?
面對一張拍好的平面照片,再要換個角度去觀察已不太可能。大數據則幾乎保留了全緯度。面對大數據,我們可以從不同的角度進行考察。作為樣本數據,小數據是“殘缺”的。就像尼采說抽象的概念是“干枯的標本”,樣本數據和抽象概念的共同特點都是已經“失活”了。而大數據意味著活數據(動態數據)、全數據
對于大數據來說,信息是活的,是隨著時間而流動的。高速的數據流更能在時間上與現實過程同步,因而跟人類的生存密切聯系在一起。不僅如此,只有高速流動的數據,才能提供無限的可能性。以往受速率限制,人們獲得的數據和所要反映的內容往往脫節,而數據流的高速率使我們把握對象的手段越來越完善
有人提出,大數據的價值密度低,數據挖掘相當于“沙里淘金”。其實,對于同一個結構開放的大數據,一些人可能視其為一堆垃圾,毫無意義;而在另一些人看來則會是一座寶庫,價值連城。大數據的價值和意義,很大程度上取決于人們的理解,取決于人們的眼光。歸根結底,取決于對人的需要及其發展的理解和把握
信息文明的發展,是一個在大數據基礎上的公共信息對稱化過程。這就要求,為推動信息文明的發展,必須在公共領域盡可能消除信息不對稱。同時,為保持信息文明發展的動力,必須盡可能保護創新專利。這很可能是時代發展的必然趨勢。對此,人類社會應當提前進行思考,即如何避免新的社會不公平的出現
關于大數據的具體特征,可以用4個“V”來描述
在技術定義上,大數據最主要的一個著眼點是規模大。但是,大數據的關鍵性質不主要是規模大,而是完全不同于作為樣本數據的小數據。通常,樣本數據的獲取總是會先設定明確甚至單一的目的。這種取樣,一方面可以更好地實現采樣前預設的目標,另一方面也抹去了其他的可能性。
大數據的另一個重要性質是維度全。通常,我們拍照會選取一個角度。角度一取,數據就固定了。面對一張拍好的平面照片,再要換個角度去觀察已不太可能。大數據則幾乎保留了全緯度。面對大數據,我們可以從不同的角度進行考察。作為樣本數據,小數據是“殘缺”的。就像尼采說抽象的概念是“干枯的標本”,樣本數據和抽象概念的共同特點都是已經“失活”了。而大數據意味著活數據(動態數據)、全數據。
關于大數據的特征,最早是用3個V來概括的。幾年前,人們認為“3V”不足以描述大數據的特征,又提出了“4V”的描述,即volume、variety、velocity和value。
“volume”一般理解為大量。大數據首先意味著數據量巨大。小數據時代主要由人工創建數據,大數據時代則由機器、網絡和人類相互作用生成。大量是大數據的基本特征,但往往被誤以為大數據就是大。事實上,這個特征所表達的是大數據規模的整全性。大數據的“大”不是純粹量的概念,關鍵是全,是一個質的概念。
“variety”一般理解為多樣。這包括大數據來源的多樣性和類型的多樣性,也包括數據結構的多樣性。由于數據結構的多樣性和復雜性,大數據的這一特征還意味著數據結構的開放性。舉例來說,大自然可以滿足人類的生存需要,但我們面對大自然時的作為很有限。而大數據不一樣,在以人類需要為出發點的大數據挖掘中,人類可以在這一個無限空間中進行滿足自己需要的創構。
“velocity”一般理解為高速。它不僅僅是指技術設備的數據處理速度,更重要的是指實時數據流。樣本數據在取樣后就是凍結的,而大數據可以實時獲取所需信息。對于大數據來說,信息是活的,是隨著時間而流動的。正因為如此,對于實時數據流來說,速率就特別重要。高速的數據流更能在時間上與現實過程同步,因而跟人類的生存更密切地聯系在一起。不僅如此,只有高速流動的數據,才能提供無限的可能性。以往受速率限制,人們獲得的數據和所要反映的內容往往是脫節的,而數據流的高速率使我們把握對象的手段越來越完善。
“value”用以描述大數據的價值。大數據價值特征的重要性不言自明,但大數據也十分復雜。據此有人提出,大數據的價值密度低,數據挖掘相當于“沙里淘金”。其實,對于同一個結構開放的大數據,一些人可能視其為一堆垃圾,毫無意義;而在另一些人看來則會是一座寶庫,價值連城。大數據的價值和意義,很大程度上取決于人們的理解,取決于人們的眼光。歸根結底,取決于對人的需要及其發展的理解和把握。
顯然,這是一個典型的哲學課題。隨著大數據的發展,不僅哲學等各學科會越來越相互融合,而且將迎來哲學與科學、社會和生活一體化發展的時代。
沃爾瑪的兩個案例,開啟大數據應用廣闊前景
大數據究竟是垃圾還是寶庫,涉及的是大數據的應用問題。換句話說,既然大家都認為大數據是個好東西,是個有用的東西,那它到底該怎么使用呢?
就目前而言,大數據應用仍然是一個重要而前沿的話題。其中,大數據中的相關關系和因果關系,是大數據應用和分析研究中的重要問題。大數據凸顯了相關關系的巨大魅力,同時也構成了對傳統因果觀念的沖擊。
跨國零售企業沃爾瑪“啤酒和尿布”的故事,就是人們津津樂道的大數據應用的一個經典案例。沃爾瑪在大數據基礎上,用“購物籃方法”分析消費者購物行為時發現,一些男性顧客在購買嬰兒尿布時,常常會同時買幾瓶啤酒。原來,美國家庭生了小孩,一般是母親在家照顧孩子、父親外出采購。而年輕父親在購買尿布時,常常會順便給自己買上幾瓶啤酒,既解乏又喜慶。由此,沃爾瑪推出啤酒和尿布擺在一起的促銷方式,吸引了更多有這種需要的顧客前來購物,尿布和啤酒的銷量都得到大幅增加。
大數據相關關系在類似行業的成功應用,使一些人提出還要不要深究因果關系的問題。一些極端的觀點甚至認為,大數據是關于“是什么”而不是“為什么”的;大數據會自己說話,因而只要相關關系不要因果關系。這種觀點顯然是興奮于大數據令人驚嘆的實用性。但理性來看,大數據不僅把握相關關系,而且把握作為其根基的因果關系。
“蛋撻和手電筒”就是一個典型的例子。與“啤酒和尿布”案例一樣,沃爾瑪的大數據表明,很多人在買手電筒的同時還會購買蛋撻。因而,根據這一消費相關性,沃爾瑪決定在貨架上把這兩種產品擺放在一起。但是,如果知道其背后的因果關系,相關銷售效果顯然會更好。有人發現,人們同時購買手電筒和蛋撻的因果關系涉及北美颶風。原來,颶風來臨前人們既需要準備手電筒,又需要準備食物。不過,北美颶風是季節性風暴,如果只知道相關關系而不知道因果關系,就可能一直把手電筒和蛋撻這兩類不同商品放在同一貨架上。而知道背后的因果關系后,就可以在颶風來臨前把蛋撻和手電筒放在一起,而且還可專設颶風用品區域。這樣一來,銷量顯然會大為增加。
可見,只要相關關系、不要因果關系的觀點,很容易駁倒。其實,真正關鍵的問題不在于是相關關系還是因果關系哪個更加重要,而在于怎么理解相關性和因果性之間的關系。
一般來說,傳統因果觀僅反映日常生活和經典物理學中因果關系的表觀現象。這樣的因果模型,不僅不能理解大數據的相關關系,而且不能建立起大數據相關關系和因果關系的關聯。只有把原因看作因素相互作用的過程,把結果看作因素相互作用過程的效應,才能擴展對因果關系的理解,從而適用于大數據相關關系和因果關系問題的認識。由此建立起來的新因果模型具有內容豐富的結構,呈現出因果模型的過去時態、進行時態和未來時態。它不僅有利于人們理解凝固的因果關系,而且在人們面前敞開了創構未來的廣闊空間。顯然,這種新的因果關系與現實社會更加接近。
人類將更多與信息打交道,而不是傳統的物能
如果把以往的文明形態都看作物能文明的話,那人類社會發展到大數據時代所迎來的,則是一種不同于物能文明的信息文明。作為一種與物能文明相平行的文明形態,信息文明是一種基于信息本性的共享文明。在大數據的基礎上,信息的共享本性可以充分展開。
而且,信息文明的發展,是一個在大數據基礎上的公共信息對稱化過程。這就要求,為推動信息文明的發展,必須在公共領域盡可能消除信息不對稱。同時,為保持信息文明發展的動力,必須盡可能保護創新專利。
作為一種人類文明,信息文明是一種基于信息機制的役物文明。在信息文明時代,人類通過信息控制物能,進而使物質通過結構的調整,由一種對人類不那么有價值的材料變成價值更大的材料,從一種不太能滿足人的需要的形態變成一種更能滿足人的需要的形態,使能量從難以利用的形態變成更容易獲得和利用的形態。由此,人類活動更多是直接與信息打交道,而不是傳統的與物能打交道。
作為人類文明發展的更高階段,信息文明還是一種基于信息創構的人性文明。不僅對物能的控制達到全社會甚至全人類實現“物為人役”的水平,使人類活動從以描述認識為主進入到以創構認識為主,而且也意味著全面解放創造力,即人性獲得越來越高水平的解放。
大數據打開了信息文明大門,也將釋放一系列新的重要問題。這些重大的問題,既涉及個人生活,也涉及社會發展。
一是信息生態問題。由于人越來越以信息方式存在,信息生態理所當然成為一個越來越重要的基礎性問題。對人類來說,自然生態或者說物能生態具有切身性,而信息生態不僅具有切身性還更具“切心性”,更切近人的心靈。因此,在自然生態的基礎上,信息生態將日益為人所密切關注,成為信息文明時代關乎人類發展的問題。
二是人的存在意義問題。沒有物能就沒有信息的存在,物能存在是基礎。但在信息文明時代,如果一個人仍然主要以物能方式存在,仍然以基于物能的感官享受作為生活意義的主要來源,仍然主要滯留于物能存在方式,那很可能將成為無意義的人群。
在信息文明時代,人類的活動主要是信息活動。只有主要以信息方式存在,并且以創構活動作為自己主要活動方式的人,才能進入意義生產的領域。在這個意義上,信息文明的確意味著一種分化:相對無意義的人群和生產意義的人群。這很可能是信息文明時代發展的必然趨勢。對此,人類社會應當提前進行思考,即如何避免新的社會不公平的出現。
三是國家的發展問題。從人類社會發展史可以看到這樣一個重要事實:一個大國的真正崛起,通常要引領一種新的文明。信息文明時代的到來,必定伴隨著大國的新崛起,不管是現實的還是潛在的大國。在21世紀,中國要和平發展、成為真正的世界大國,有必要在引領信息文明上發力。
總之,如果不能夠引領信息文明發展,一個國家就不可能真正實現大國崛起。在這個過程中,國家的興衰與個人的生存發展不僅聯系在一起,而且構成相互依存、協同發展的循環。
摘自 解放日報