摘要:對由多個指標(biāo)組成的多元數(shù)據(jù)進行聚類分析時,數(shù)據(jù)維度的增加、各指標(biāo)與總體聚類的相關(guān)性程度不一致以及各指標(biāo)服從的分布不同會增加聚類的復(fù)雜性,影響聚類結(jié)果的準(zhǔn)確性,因此需要通過合適的方法來對多元數(shù)據(jù)進行聚類分析。針對這一問題,提出改進的帶粘性的層次Dirichlet過程(sticky Hierarchical Dirichlet Process)方法來實現(xiàn)對多元數(shù)據(jù)的降維聚類,以解決各指標(biāo)服從不同分布的問題,并用粘性參數(shù)反映各指標(biāo)與總體聚類之間的相關(guān)性。用MCMC方法來估計模型參數(shù)。通過對仿真模擬數(shù)據(jù)和IRIS數(shù)據(jù)集的聚類分析,證實了該方法的有效性,同時發(fā)現(xiàn)單個指標(biāo)與總體聚類的相關(guān)性越大,則相應(yīng)的粘性參數(shù)越大,從而反映該指標(biāo)在總體聚類中的重要性程度越高;并且當(dāng)各指標(biāo)數(shù)據(jù)中有粘性較大的指標(biāo)時,帶粘性的層次Dirichlet過程方法明顯優(yōu)于其他聚類方法,能夠顯著提高分類的準(zhǔn)確性。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社。
統(tǒng)計與信息論壇雜志, 月刊,本刊重視學(xué)術(shù)導(dǎo)向,堅持科學(xué)性、學(xué)術(shù)性、先進性、創(chuàng)新性,刊載內(nèi)容涉及的欄目:統(tǒng)計理論與方法、經(jīng)濟統(tǒng)計、財政與金融統(tǒng)計、資源與環(huán)境統(tǒng)計、社會與管理統(tǒng)計等。于1986年經(jīng)新聞總署批準(zhǔn)的正規(guī)刊物。