摘要:針對傳統基于鏈表結構的Top-K高效用挖掘算法在大數據環境下不能滿足挖掘需求的問題,提出一種基于Spark的并行化高效用項集挖掘算法(STKO)。首先從閾值提升、搜索空間縮小等方面對TKO算法進行改進;然后選擇Spark平臺,改變原有數據存儲結構,利用廣播變量優化迭代過程,在避免大量重新計算的同時使用負載均衡思想實現Top-K高效用項集的并行挖掘。實驗結果表明,該并行算法能有效地挖掘出大數據集中的高效用項集。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社。
計算機工程與科學雜志, 月刊,本刊重視學術導向,堅持科學性、學術性、先進性、創新性,刊載內容涉及的欄目:算法研究、圖形與圖象、計算機網絡、神經網絡、仿真技術研究、人工智能、研究與實現、試題選載與博士論文摘要等。于1973年經新聞總署批準的正規刊物。