大數(shù)據(jù),已經(jīng)為人類創(chuàng)造出一個嶄新的環(huán)境。信息技術(shù)使人類置身于一個嶄新的數(shù)字化的數(shù)據(jù)環(huán)境,這個環(huán)境一方面擴大了人類的理解,另一方面,作為個體則必須在這個特定的環(huán)境中對自己的目的、價值和意圖進行重建,從而達到強調(diào)自己個性和分享他人個性的理解。
各行各業(yè),當下是言必稱數(shù)據(jù)。那么究竟何為大數(shù)據(jù)呢?根據(jù)我的理解,如果說互聯(lián)網(wǎng)是關(guān)于“物”的,那么大數(shù)據(jù)就是關(guān)于“人”的,所以說只有關(guān)于人的數(shù)據(jù)才能稱之為大數(shù)據(jù)。大數(shù)據(jù)并非數(shù)據(jù)大。純粹從量上看,大數(shù)據(jù)在互聯(lián)網(wǎng)上早就存在了,在其基礎(chǔ)之上,催生了整個搜索產(chǎn)業(yè)。可當下時髦的“大數(shù)據(jù)”一詞卻有所不同,它所展示的是以網(wǎng)絡(luò)為依托的新型社會媒體的一個方面。由于直接與人相關(guān),大數(shù)據(jù)成了金礦,有待人們進行數(shù)據(jù)挖掘,并從中尋求各種機會。數(shù)據(jù)挖掘已是相當成熟的領(lǐng)域,它把人的行為的結(jié)構(gòu)化數(shù)據(jù)與其背景和人口統(tǒng)計學(xué)的信息相結(jié)合,已經(jīng)產(chǎn)生出很多成果和應(yīng)用,如有的放矢的廣告和營銷等。人們可以把社會媒體大數(shù)據(jù)中提取出的自然語言文本的情感挖掘視為一種數(shù)據(jù)挖掘的自然延伸。由于大數(shù)據(jù)的無限開放性,未來的潛力甚至更大。
人的行為維度具有無限的可能性,但人的資源卻又是有限的。那么如何協(xié)調(diào)無限和有限的關(guān)系?由于有了海量的數(shù)據(jù)和強大的計算處理能力,有了人與人、人與物的互聯(lián)互通,就是可以成就人的行為的無限可能性。舉個例子來說,電子商務(wù)把這一點體現(xiàn)得淋漓盡致。但傳統(tǒng)的數(shù)據(jù)由于屬性有限,個體參與度較低,其價值預(yù)期比例大,即數(shù)據(jù)處于壓縮狀態(tài),而無法協(xié)調(diào)無限和有限的關(guān)系。大數(shù)據(jù)體現(xiàn)的結(jié)果就是將傳統(tǒng)的數(shù)據(jù)“解壓縮”,使其數(shù)據(jù)密度大大減小,從而放大個體數(shù)據(jù)的效應(yīng)。由于大數(shù)據(jù)是關(guān)于人的,那么它就不單是一個技術(shù)問題,而且也是一個管理問題。認識到這一點就要破除傳統(tǒng)的管理辦法,將數(shù)據(jù)打通,使其不斷更新,避免產(chǎn)生“數(shù)據(jù)孤島”現(xiàn)象。那么,首先就要給出“全量數(shù)據(jù)”,也就是說,關(guān)鍵的數(shù)據(jù)不能缺失;其次,那些關(guān)鍵信息是不能靠專家規(guī)定。
大數(shù)據(jù)是關(guān)于人的,可是它們卻都要被計算機處理。因此關(guān)于人的數(shù)據(jù)一定要有關(guān)于原始大數(shù)據(jù)的“元數(shù)據(jù)”,它們是為機器服務(wù)的。必須通過元數(shù)據(jù)的語義標示并賦予其意義,才能被機器處理。因此,若想從數(shù)據(jù)中發(fā)現(xiàn)知識,就必需大量的元數(shù)據(jù)。元數(shù)據(jù)就好比影視劇中的“橋段”,將機器中的原始數(shù)據(jù)與人的行為連接起來。而大數(shù)據(jù)挖掘技術(shù)恰恰就是針對元數(shù)據(jù)的。盡管如此,大數(shù)據(jù)還是有其無法企及的地方。大致可以歸納為以下幾點:不能沒有有效的商業(yè)模式,不能替代管理的決策力,不能保證消除噪音,不能進行無目的的知識發(fā)現(xiàn),不能一次建模終身受益,不能替代領(lǐng)域?qū)<遥荒芎雎詳?shù)據(jù)標注,等等。同時也要看到,大數(shù)據(jù)并非一個終極階段,它的出現(xiàn)不過是人類歷史進程的一個環(huán)節(jié),其重要意義在于是計算機技術(shù)為整個人類帶來變革中的一步。回顧歷史,計算機從上個世紀50年代起就在人類歷史上開始了潛移默化的革命,其根本標志就是“數(shù)字化”,以及物理世界和虛擬世界的無縫接合。
既然是歷史的一個發(fā)展環(huán)節(jié),那么也就可以對未來趨勢做出一定的預(yù)測。與以往歷史上其他重要變革都是一樣的,要通過資源——大數(shù)據(jù)——的原始積累,再過渡到商業(yè)和社會服務(wù)的差異化(即因人而異),直到人類對虛擬世界的行業(yè)和社會服務(wù)加以規(guī)范以實現(xiàn)公平合理的數(shù)據(jù)資源分配。始于18世紀的工業(yè)革命經(jīng)歷了一百多年,但這次數(shù)字的革命將以更快的形式發(fā)生。由大數(shù)據(jù)引發(fā)的下一代技術(shù)很可能是更大規(guī)模的、面向數(shù)字化行業(yè)的轉(zhuǎn)變。因而,使得現(xiàn)在物理世界的眾多傳統(tǒng)行業(yè)將向數(shù)字世界全面或部分轉(zhuǎn)換和融合。這種轉(zhuǎn)變也讓許多現(xiàn)在需要眾多專家的領(lǐng)域以另一種形式出現(xiàn)。具體可以體現(xiàn)在很多行業(yè)的在整體的“食物鏈”的上下游的改變。醫(yī)生、科學(xué)家和教師等,到了那一天或許變成為大數(shù)據(jù)輸送原料的數(shù)據(jù)采集者和分析結(jié)果的“工人”。
在工業(yè)社會,通過利用人們?nèi)粘I钏粝碌母鞣N數(shù)據(jù),便可以掌控人的生活方式、習(xí)慣、下落以及社會關(guān)系等。而到了信息社會,這些數(shù)據(jù)必然會被數(shù)字化,因而人們的各種道德行為、倫理準則和社會生活也會隨之產(chǎn)生相應(yīng)的改變。信息技術(shù)使人類置身于一個嶄新的數(shù)字化的數(shù)據(jù)環(huán)境,這個環(huán)境一方面擴大了人類的理解,另一方面,作為個體則必須在這個特定的環(huán)境中對自己的目的、價值和意圖進行重建,從而達到強調(diào)自己個性和分享他人個性的理解。任何技術(shù)都傾向于創(chuàng)造一個新的人類環(huán)境。而信息技術(shù)、電腦網(wǎng)絡(luò)乃至最近問世的大數(shù)據(jù),已經(jīng)為人類創(chuàng)造出一個嶄新的環(huán)境。
摘自 學(xué)習(xí)時報