9-2所示為數(shù)據(jù)分布式存儲與并行處理框架。
分布式存儲引擎采用MapReduce模型,并基于Hadoop的HBase和HDFS實現(xiàn)。它的主要功能是基于四面體數(shù)據(jù)模型提取非結(jié)構化數(shù)據(jù)的基本屬性、語義特征和底層特征信息,并將這些信息連同原始數(shù)據(jù)存儲在HDFS和HBase中。
存儲引擎由Namenode和Datanode構成。Namenode通過Map操作將存儲數(shù)據(jù)分成若干子塊,并將這些子塊分配給各個Datanode進行特征提取和數(shù)據(jù)永久保存的操作。同時,Namenode會開啟一項任務來追蹤處理過程,并在各子塊存儲完成后執(zhí)行Reduce操作對結(jié)果進行合并。Namenode和Datanode的這種協(xié)同工作方式,實現(xiàn)了大量數(shù)據(jù)的并行與分布式存儲。
并行化檢索引擎主要負責數(shù)據(jù)的快速查詢,是基于.MapReduce模型建立的Master-Slave并行化框架。Master負責管理所有Slave可分解和分配具體檢索任務,并對檢索結(jié)果進行有效整合;Slave模塊負責對本地數(shù)據(jù)實行具體的檢索任務并將結(jié)果返回給Master。通過Master的有效調(diào)度,多個Slave可并行化執(zhí)行檢索任務,從而實現(xiàn)檢索并行化的處理架構。
由于Master可以實現(xiàn)任務的靈活分發(fā)和結(jié)果的有效整合,多個Slave可以并行化執(zhí)行任務且可靈活擴展,因此該引擎具有很好的可擴展性和高效性。