一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Query Spell Checking)、兴趣短语检测(Interseting Phrase Detection)、聚类(Clustering)、字符语言建模(Character Language Modeling)、医学文献下载/解析/索引(MEDLINE Download, Parsing and Indexing)、数据库文本挖掘(Database Text Mining)、中文分词(Chinese Word Segmentation)、情感分析(Sentiment Analysis)、语言辨别(Language Identification)等API。
上传时间: 2013-12-04
上传用户:15071087253
编译器中词法分析部分,是基于正则表达式的词法分析,包括了代码,演示PPT,要分析的代码和分词结果
上传时间: 2013-12-30
上传用户:13160677563
停用词表,可以和词表结合用于分词,适用于任何开发环境。
标签:
上传时间: 2013-12-28
上传用户:Yukiseop
中文自动分类。使用spider抓取网络信息,利用lucene的分词及KNN方法。
上传时间: 2017-02-28
上传用户:yyq123456789
该源码用c++编写,实现了中文分词的功能。
上传时间: 2014-01-21
上传用户:wang0123456789
汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58 (973专家组评测),未登录词识别召回率均高于90 ,其中中国人名的识别召回率接近98 处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。该系统得到了专家的好评,并有多篇论文在国内外发表。
标签: Technology Computing Institute Analysis
上传时间: 2013-12-24
上传用户:ANRAN
汉化CLucene今天,把CLucene的程序改了一下,可以支持汉字了·1·在vc6编译2·还不支持分词,但支持汉字,
上传时间: 2014-11-26
上传用户:qq21508895
关于中文中词语搭配的三篇论文,利用语义间的信息消解分词中的歧义问题,希望能给研究分词消歧的人一些帮助,谢谢!
标签: 论文
上传时间: 2017-05-11
上传用户:笨小孩
用java语言实现文本聚类,包括聚类前的数据预处理:分词、降维、建立向量空间模型等
上传时间: 2014-11-18
上传用户:zhoujunzhen
自己下载一个语料库,根据程序,计算权重,然后对语料库进行分词
标签:
上传时间: 2014-01-25
上传用户:zhangliming420