摘要:挖掘微博文本中的信息對自動問答、輿情分析等應用研究具有重要意義。文本數據的分類研究是文本數據挖掘的基礎。本文提出將Word2vec和LDA(Latent Dirichlet Allocation)的文本表示同時輸入卷積神經網絡模型進行高層語義特征抽象和分類學習,使得輸入的詞向量既能表現詞語之間的語義信息又能體現文本的主題思想。首先用Word2vec和LDA模型分別在語料庫中學習產生詞向量,然后詞向量分別級聯得到各自的文本矩陣表示,最后將文本矩陣作為2個通道同時輸入到卷積神經網絡做分類訓練,并通過微博數據實驗驗證了該方法的有效性。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社。
計算機與現代化雜志, 月刊,本刊重視學術導向,堅持科學性、學術性、先進性、創新性,刊載內容涉及的欄目:算法設計與分析、數據庫與數據挖掘、軟件工程、操作系統、人工智能、圖像處理、計算機仿真、計算機控制、網絡與通信、信息安全、電子商務、計算機輔助設計、計算機輔助教學、信息系統與ERP、中文信息技術、多媒體技術、農村信息化技術、應用與開發等等。于1985年經新聞總署批準的正規刊物。