专注收集记录技术开发学习笔记、技术难点、解决方案
网站信息搜索 >> 请输入关键词:
您当前的位置: 首页 > Google技术

怎么计算出一篇文章中出现频率最高的字符或词组

发布时间:2011-07-03 07:08:11 文章来源:www.iduyao.cn 采编人员:星星草
如何计算出一篇文章中出现频率最高的字符或词组?
比如有一篇文章:

"请您对您的言行负责,遵守中华人民共和国有关法律、法规,尊重网上道德,发表问题前,建议搜索已有问题,社区发表新贴子.   发帖咨询问题前,建议你搜索,看是不是已经有人解决了这个问题。 "

要如何才能计算出里面出现频率最高的词组和单字呢????
散分啊,,,超级难的   问题呀

------解决方案--------------------
首先要分词阿,不分词怎么统计。去搞一个中科院开源的分词工具先。然后根据你的分词去分析字符串就可以了
------解决方案--------------------
好像lucene中有一个统计词个数的方法。自己可以去研究一下

------解决方案--------------------
先进行多元分词,然后对分词进行编码化,最后按编码进行统计
------解决方案--------------------
然后对分词进行编码化,最后按编码进行统计
------解决方案--------------------
好像lucene中有一个统计词个数的方法。自己可以去研究一下 

------解决方案--------------------
找个词库,然后用后向最大匹配的分词把里面的词组都解析出来。接下来就是统计咯。

现成的工具不知道有没有,好久没碰这个东西了。。。。

友情提示:
信息收集于互联网,如果您发现错误或造成侵权,请及时通知本站更正或删除,具体联系方式见页面底部联系我们,谢谢。

其他相似内容:

热门推荐: