當前,由于大數據在社會實踐與理論研究上的巨大影響,有關大數據的討論已經滲透到每一個行業和領域之中,帶來了各行各業對大數據的熱捧。大數據顯然具有重要價值,這一點毋庸置疑。正如有學者指出的,大數據開啟了一次重大的時代轉型,它正在改變我們的生活以及理解世界的方式,成為新發明和新服務的源泉。因此,我們要大力實施國家大數據戰略。但在大數據熱中也應該有冷思考,因為大數據可能帶來的風險與挑戰是不容忽視的。只有正視各種風險與挑戰,才能更好推動大數據發展。
防止大數據的“去人性化”忽視人的主體價值和數據的社會文化意義。大數據的一個根本缺陷就是它只關注“客觀數據”的呈現,而缺少對“主觀數據”的反映。從社會學角度看,所有數據說到底都是有關“人”的符號,因此,符號所蘊含的社會文化意義是我們真正需要了解和掌握的內容。如果脫離了人及其所在社會的價值本性,無限放大大數據的效應及其影響力,就可能本末倒置,最終產生許多難以預期的后果。數據來源于社會又作用于社會。無論是可以數字化的數據還是不可數字化的數據,其比較、分析和歸納其實反映的都是人在符號層面上的一種互動。大數據是匯集了行為主體、時間、地點三個維度的“數據宇宙”。在大數據時代,個人的信息更多的是以數據為載體來進行互動的。如果人及其各類社會行為都僅僅被看作一個個數據符號,我們就很難從數據中解讀出充滿朝氣、富有激情的人,也就很難從數據塑造出來的沒有個性特征的人去推導群體樣態和社會構成。
防止大數據的“巨量化”掩蓋數據個性特征、強化數據霸權。猶如網絡一樣,大數據也是一把雙刃劍。巨量化的大數據在給我們研究和分析社會現象帶來便利的同時,實際上也掩蓋了許多具有個性特征的數據的意義。在連續的巨量數據海洋中,許多本身具有個性特征的數據已經變得無足輕重了,它們在大數據霸權面前會成為微不足道的犧牲品,大數據簡化了人們對數據差異性的認知。大數據的復雜性不僅在于其數據樣本巨量,更在于其多源異構、多實體和多空間之間的交互動態性。當前,只有少數人掌握處理這種復雜的巨量化大數據的技術,這很容易導致“數據暴力”。從這個意義上說,防止大數據滋生出“數據暴力”是大數據發展中需要注意的問題。
防止大數據的“碎片化”導致人們難以系統認知復雜事物。從某種意義上說,大數據的價值只有在其能夠被規范成為可供分析的形式之后才能最大程度地被挖掘出來。然而,在巨量的大數據面前,實際上可供規范分析的數據只是極少數,許多數據都停留在“碎片化”階段而難以被真正挖掘和分析。對這些碎片化的數據進行清理,形成規整的結構,是大數據能夠得到充分利用的根本所在。在大數據中,其研究范式重在發現而不是推論,運用大數據進行各種分析不應像傳統的社會調查方法那樣通過假設檢驗來進行推論,而應通過數據的總體歸納來達成對社會現象的總體分析。這不僅要求我們在數據清理技術、存儲結構上進行優化,而且要在數據采集環節盡可能地做到規范,否則就很難獲得對復雜事物的系統認知。
防止大數據的“模糊化”產生大量信息垃圾、為數據造假與不當傳播打開方便之門。在大數據時代,我們真正需要的并不僅僅是大數據本身,而是大數據背后所隱藏的我們想要獲取的各種信息資源,而這些信息資源可能只占數據總體的萬分之一甚至更少。從這個角度說,大量的信息其實都是垃圾。不僅如此,許多大數據本身就是模糊的,其中含有大量虛假和有害的內容。如果我們純粹憑借數據來判斷和分析人類行為,甚至不假思索地去利用和傳播某種數據,就會導致許多誤判。因此,未經前期調研論證和規范分析所獲取的信息,其數據量越大可能越模糊,其得到的垃圾信息也就可能越多,這也為各種數據造假和不當傳播打開了方便之門。對此,我們必須學會辨識和判斷數據的真實性,避免因盲目的數據崇拜造成誤判,甚至迷失在大數據的洪流之中。
摘自《人民日報》