• 计算机科学 , 2013,Vol.40(12)
  • 基于LDA主题模型的文本相似度计算
  • 王振振    何明    杜永萍   
  • 北京工业大学计算机学院 北京100124;北京工业大学计算机学院 北京100124;北京工业大学计算机学院 北京100124
下载: PDF     导出: TXT EndNote (RIS)

摘要:

LDA(Latent Dirichlet Allocation)模型是近年来提出的一种具有文本表示能力的非监督学习模型。提出了一种基于LDA主题模型的文本相似度计算方法,该方法利用LDA为语料库建模,利用MCMC中的Gibbs抽样进行推理,间接计算模型参数,挖掘隐藏在文本内的不同主题与词之间的关系,得到文本的主题分布,并以此分布来计算文本之间的相似度,最后对文本相似度矩阵进行聚类实验来评估聚类效果。实验结果表明,该方法能够明显提高文本相似度计算的准确率和文本聚类效果。

关键词: LDA   Gibbs抽样   主题模型   文本相似度   中图法分类号TP301文献标识码A  

基金:

本文受国家自然科学基金(60803086),北京市自然科学基金(4123091),北京市教委科研计划(KM20110005013, KM200910005009)资助

 

 

Text Similarity Computing Based on Topic Model LDA

WANG Zhen-zhen   HE Ming   DU Yong-ping  

  

Abstract:

Keywords: Gibbs sampling   Topic model   Latent Dirichlet Allocation(LDA)   Text similarity