您現在的位置：首頁 > IT資訊 > 大數據 > 分布式存儲引擎采用MapReduce模型

分布式存儲引擎采用MapReduce模型

2018-05-07 11:56:08　|　來源：中培企業IT培訓網

9-2所示為數據分布式存儲與并行處理框架。

分布式存儲引擎采用MapReduce模型，并基于Hadoop的HBase和HDFS實現。它的主要功能是基于四面體數據模型提取非結構化數據的基本屬性、語義特征和底層特征信息，并將這些信息連同原始數據存儲在HDFS和HBase中。

存儲引擎由Namenode和Datanode構成。Namenode通過Map操作將存儲數據分成若干子塊，并將這些子塊分配給各個Datanode進行特征提取和數據永久保存的操作。同時，Namenode會開啟一項任務來追蹤處理過程，并在各子塊存儲完成后執行Reduce操作對結果進行合并。Namenode和Datanode的這種協同工作方式，實現了大量數據的并行與分布式存儲。

并行化檢索引擎主要負責數據的快速查詢，是基于.MapReduce模型建立的Master-Slave并行化框架。Master負責管理所有Slave可分解和分配具體檢索任務，并對檢索結果進行有效整合；Slave模塊負責對本地數據實行具體的檢索任務并將結果返回給Master。通過Master的有效調度，多個Slave可并行化執行檢索任務，從而實現檢索并行化的處理架構。

由于Master可以實現任務的靈活分發和結果的有效整合，多個Slave可以并行化執行任務且可靈活擴展，因此該引擎具有很好的可擴展性和高效性。

標簽：分布式存儲