大數(shù)據(jù)的誕生,引爆了這個時代一場深刻的互聯(lián)網(wǎng)革命,其對傳統(tǒng)的互聯(lián)網(wǎng)的格局帶來的影響也將是顛覆性的。中培偉業(yè)《大數(shù)據(jù)分析及可視化技術(shù)應用實戰(zhàn)》專家鐘老師指出,大數(shù)據(jù)之所以能夠產(chǎn)生如此深遠的影響,其中的一個重要原因就是它與傳統(tǒng)數(shù)據(jù)在價值上存在著明顯的差異。
大數(shù)據(jù)包括交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集,具體由海量交易數(shù)據(jù)、海量交互數(shù)據(jù)和海量處理數(shù)據(jù)三種主要技術(shù)匯聚組成。
海量交易數(shù)據(jù)指企業(yè)內(nèi)部的經(jīng)營交易信息數(shù)據(jù),主要包括聯(lián)機交易數(shù)據(jù)和聯(lián)機分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫進行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。
海量交互數(shù)據(jù)來自社交平臺和門戶網(wǎng)站及其他來源的社交媒體數(shù)據(jù)。它包括呼叫詳細記錄CDR、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸Manage File Transfer協(xié)議傳送的海量圖像文件、Web文本和點擊流數(shù)據(jù)、科學信息、電子郵件等。這些數(shù)據(jù)可以告訴我們未來會發(fā)生什么。
海量數(shù)據(jù)處理是一種應對復雜、海量數(shù)據(jù)的能力,大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開放源碼、在商品硬件群中運行的Apache Hadoop,難題在于以具備成本效益的方式快速可靠地從Hadoop中存取數(shù)據(jù)。
有人說,大數(shù)據(jù)是對傳統(tǒng)數(shù)據(jù)的終結(jié)和替代。這種觀點并不被學者們普遍接受。但大數(shù)據(jù)的價值和處理方式的確與傳統(tǒng)數(shù)據(jù)有很大程度的不同。
在宗旨上,傳統(tǒng)數(shù)據(jù)處理遵循的是固化業(yè)務優(yōu)于高效,高效優(yōu)于發(fā)現(xiàn)業(yè)務。整體上講這是一種求穩(wěn)策略。而大數(shù)據(jù)處理卻將傳統(tǒng)方法的順序整體顛倒過來,首先是發(fā)現(xiàn)業(yè)務,其次是高效,最后是固化業(yè)務。
在數(shù)據(jù)特點上,傳統(tǒng)數(shù)據(jù)面對的一般是企業(yè)內(nèi)部數(shù)據(jù),數(shù)據(jù)量一般不會超過10億量級。大數(shù)據(jù)處理的卻是多樣化的數(shù)據(jù),從數(shù)據(jù)來源上有內(nèi)部和外部,數(shù)據(jù)結(jié)構(gòu)上有結(jié)構(gòu)化和非結(jié)構(gòu)化,數(shù)據(jù)量可處理xPB級。
在技術(shù)手段上,傳統(tǒng)數(shù)據(jù)處理方法使用商務智能的開源RDBMS,昂貴的分析挖掘工具,甚至是商用集群。大數(shù)據(jù)處理方法則更多的是使用開源技術(shù),更注重數(shù)據(jù)本身,使用多種技術(shù)解決業(yè)務問題。
在場景上,傳統(tǒng)數(shù)據(jù)主要處理實時、事務性、在線業(yè)務,而大數(shù)據(jù)則會處理大量的批量數(shù)據(jù)和少量的在線實時型數(shù)據(jù)。總而言之,傳統(tǒng)數(shù)據(jù)是以業(yè)務為中心,大數(shù)據(jù)則是以數(shù)據(jù)為中心,數(shù)據(jù)為業(yè)務服務。