登陆
fanzehua's space
范翼凌云襟胸阔,泽瑞纳详阅古今。华章骏骨骥千里,鸿鹄直上冠群英。
首页
博客
相册
留言
文件
短信
理财
位置
联系人
201010档案列表
文本向量表示及TFIDF词汇权值
十月
3
22:10
文本相似计算是进行文本聚类的基础,和传统结构化数值数据的聚类方法类似,文本聚类是通过计算文本之间"距离"来表示文本之间的相似度并产生聚类。文本相似度的常用计算方法有余弦定理和Jaccard系数。但是文本数据与普通的数值数据或类属数据不同,文本数据是一种半结构化数据,在进行文本挖掘之前必须要对文本数据源进行处理,如分词、向量化表示等,其目的就是使用量化的数值来表达这些半结构化的文本数据。使其适用于分......
博客档案
2018年8月(1)
2017年11月(2)
2017年6月(3)
2017年5月(1)
2016年6月(1)
2016年4月(1)
2016年3月(2)
2016年2月(1)
2015年11月(5)
2015年9月(1)
2015年8月(1)
2015年7月(1)
2015年6月(5)
2015年5月(1)
2015年4月(3)
2014年5月(1)
2014年4月(2)
2014年3月(4)
2014年1月(1)
2013年12月(1)
2013年9月(6)
2013年8月(10)
2013年7月(2)
2013年5月(1)
2013年4月(3)
2012年12月(4)
2012年11月(3)
2012年10月(2)
2012年9月(1)
2012年8月(1)
2012年7月(3)
2012年6月(3)
2012年5月(7)
2012年4月(3)
2012年3月(1)
2012年1月(1)
2011年12月(2)
2011年11月(10)
2011年10月(1)
2011年8月(1)
2011年7月(1)
2011年5月(1)
2011年4月(1)
2011年3月(11)
2011年2月(6)
2011年1月(6)
2010年12月(1)
2010年11月(3)
2010年10月(1)
2010年9月(1)
2010年8月(1)
2010年7月(1)
2010年6月(2)
2010年5月(5)
2010年4月(2)
2010年3月(4)
2010年2月(16)