摘要:近年來,隨著大數據場景的興起,RDBMS由于其自身的擴展性和可用性限制無法滿足企業需求。No SQL數據庫的出現彌補了傳統關系型數據庫在大數據領域的不足。No SQL數據庫本身具有良好的擴展性、容錯性以及實時訪問、存儲TB級別數據的特點。HBase就是以HDFS和MapReduce為基礎的開源No SQL型分布式數據庫,它不支持二級索引、事務和批量數據處理時延長等[1]。本文以HBase和Spark為基礎,增加插件使HBase支持SQL語句和二級索引,通過修改Spark源碼,提升對HBase數據的本地化計算級別。插件對HBase無侵入、低耦合,支持用戶輸入SQL語句,把輸入字段轉化為HBase的列族和列限定符,根據不同的場景選取不同的執行方案。MapReduce計算框架具有計算效率低,無法利用HBase的讀寫緩存的缺陷[1],原始Spark框架不能感知HBase數據分片。本文改進Spark能感知HBase數據分片,對HBase中數據進行高級別本地化計算。最終,將本文設計的系統與業內常用的Hive+HBase方案對比常用SQL消耗的時延[3]。通過實驗得出,本文構建的優化方案在沒有缺失HBase的優良特性的基礎上加強了部分應用場景的實時性。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社。
數據通信雜志, 雙月刊,本刊重視學術導向,堅持科學性、學術性、先進性、創新性,刊載內容涉及的欄目:新技術、專題、技術交流、技術講座、百頁窗等。于1980年經新聞總署批準的正規刊物。