一.Hadoop
1.Hadoop的源起——Lucene,從lucene到nutch,從nutch到hadoop
· 2003-2004年,Google公開了部分GFS和Mapreduce思想的細節(jié),以此為基礎(chǔ)Doug Cutting等人用了2年業(yè)余時間實現(xiàn)了DFS和Mapreduce機制,使Nutch性能飆升
· Yahoo招安Doug Cutting及其項目
· Hadoop于2005年秋天作為Lucene的子項目Nutch的一部分正式引入Apache基金會。2006年3月份,Map-Reduce和Nutch Distributed File System(NDFS)分別被納入稱為Hadoop的項目中
· 名字來源于Doug Cutting兒子的玩具大象
2.Hadoop能解決的問題
hadoop作為大數(shù)據(jù)系統(tǒng)可以做的事情有很多的,最為常見的像日志分析,搜索,圖片分析,物聯(lián)網(wǎng)傳感數(shù)據(jù)分析,數(shù)據(jù)的長期存儲。我們選擇hadoop是因為hadoop具有這些優(yōu)點。可以存儲結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)
性價比高
容錯率高,當服務(wù)當中的一臺服務(wù)的軟硬件出錯后系統(tǒng)都能繼續(xù)運行
能夠?qū)A繑?shù)據(jù)快速存儲
對海量數(shù)據(jù)做快速計算
能夠通過添加節(jié)點的方式快速擴展系統(tǒng)
hadoop對系統(tǒng)數(shù)據(jù)安全性是有保障的
看多hadoop的朋友都知道,存儲在hadoop平臺中的數(shù)據(jù),通過統(tǒng)一的分布式存儲HDFS,可以將數(shù)據(jù)的訪問和存儲分布在大量服務(wù)器之中,在可靠的多備份存儲的同時,還能將訪問分布到集群的各個服務(wù)器之上。
hadoop架構(gòu)可以很好的解決數(shù)據(jù)庫擴展的瓶頸,它把數(shù)據(jù)庫的設(shè)計部署在經(jīng)濟實惠的硬件上,通過橫向擴展,便可無限的提升數(shù)據(jù)庫的數(shù)據(jù)處理能力。
二.Spark
1.Spark的定義
Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的并行計算框架,Spark基于map reduce算法實現(xiàn)的分布式計算,擁有Hadoop MapReduce所具有的優(yōu)點;但不同于MapReduce的是Job中間輸出和結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的map reduce的算法。其架構(gòu)如下圖所示:
2.如何使用Spark
Spark可以直接對HDFS進行數(shù)據(jù)的讀寫,同樣支持Spark on YARN。Spark可以與MapReduce運行于同集群中,共享存儲資源與計算,數(shù)據(jù)倉庫Shark實現(xiàn)上借用Hive,幾乎與Hive完全兼容。
由于RDD的特性,Spark不適用那種異步細粒度更新狀態(tài)的應(yīng)用,例如web服務(wù)的存儲或者是增量的web爬蟲和索引。就是對于那種增量修改的應(yīng)用模型不適合。
總的來說Spark的適用面比較廣泛且比較通用。
有人說:“Spark就像一個高性能引擎; 它支持您想要對數(shù)據(jù)執(zhí)行的工作。Hadoop可以提供一個可能的存儲層,為Spark引擎提供數(shù)據(jù)”。
在大數(shù)據(jù)技術(shù)領(lǐng)域當中,應(yīng)用Hadoop和Spark技術(shù)體系,能強化大數(shù)據(jù)平臺的分布式集群架構(gòu)和核心關(guān)鍵技術(shù)實現(xiàn)、大數(shù)據(jù)應(yīng)用項目開發(fā)和大數(shù)據(jù)集群運維實踐、以及Hadoop與Spark大數(shù)據(jù)項目應(yīng)用開發(fā)與調(diào)優(yōu)的全過程沙盤模擬實戰(zhàn)。而這些在培訓中就能就能全盤掌握。另外,通過一個完整的大數(shù)據(jù)開發(fā)項目及一組實際項目訓練案例,完全覆蓋Hadoop與Spark生態(tài)系統(tǒng)平臺的應(yīng)用開發(fā)與運維實踐。課堂實踐項目以項目小組的形式進行沙盤實操練習,重點強化理解Hadoop與Spark大數(shù)據(jù)項目各個階段的工作重點,同時掌握作為大數(shù)據(jù)項目管理者的基本技術(shù)與業(yè)務(wù)素養(yǎng)。
據(jù)了解,中培偉業(yè)(http://www.dtpc120.cn/)成立十年來,一直致力于我國范圍內(nèi)高端IT咨詢與培訓服務(wù)。始終秉持“顧客滿意度第一、利潤第二”的理念。為了切實貫徹顧客滿意度第一的原則,中培邀請了一批國內(nèi)外知名企業(yè)的高層經(jīng)理和資深專家指導加盟。
其大數(shù)據(jù)授課師資都是有著多年在一線從事Hadoop與Spark大數(shù)據(jù)項目的資深講師,采用原理技術(shù)剖析和實戰(zhàn)案例相結(jié)合的方式開展互動教學、強化以建立大數(shù)據(jù)項目解決方案為主體的應(yīng)用開發(fā)、技術(shù)討論與交流咨詢,在學習的同時促進講師學員之間的交流,讓每個學員都能在課程培訓過程中學到實實在在的大數(shù)據(jù)技術(shù)知識體系,以及大數(shù)據(jù)技術(shù)應(yīng)用實戰(zhàn)技能,具備實際大數(shù)據(jù)應(yīng)用項目的動手開發(fā)實踐與運維管理部署能力。
想了解更多IT資訊,請訪問中培偉業(yè)官網(wǎng):中培偉業(yè)