问题重述:有一个内含有大约40万条常用词汇的词库。现给定一篇文章,使用这个词库分析出常用词汇的出现次数,并按出现次数由高到低排序这些词语。
改进算法的思路:
1. 通常一篇文章所包含的词语远少于词库中40万的数量;
2. 数据库建立索引之后,可采用“二分法”对词语进行快速定位;
3. 逐字缩小查询范围,如果查询到某个字符时范围已经为0,那么可以预测其后的词一定也不存在,(例如查询到forest时已经没有匹配的词了,就可以到此结束)。
标签:
词汇
上传时间:
2017-02-25
上传用户:busterman