计算所汉语词法分析系统ictclas.分词正确率高达97.58%(973专家组评测),未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。ictclas的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。
上传时间: 2014-01-09
上传用户:1079836864
计算所汉语词法分析系统ictclas介绍 词是最小的能够独立活动的有意义的语言成分。 但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统ictclas(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97%以上,未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。ictclas的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。该系统得到了专家的好评,并有多篇论文在国内外发表。 计算所汉语词法分析系统ictclas同时还提供一套完整的动态连接库ictclas.dll和相应的概率词典,开发者可以完全忽略汉语词法分析,直接在自己的系统中调用ictclas,ictclas可以根据需要输出多个高概率的结果,输出格式也可以定制,开发者在分词和词性标注的基础上继续上层开发。
上传时间: 2014-01-02
上传用户:15736969615
ictclas的JNI调用接口文件: Title:ictclas Caller * <p>Description:do chinese word segmentation.don t change the pakage and CLASS name, orelse you can t use it. * 请不要改变包名、类名以及native的方法名,否则调用将失效。 * 由于ictclas本身存在很多鲁棒性问题,调用segSentence时,string参数请保证不要过长或带有乱码。调用次数过多(如处理几十G的数据)会有可能造成内存溢出。 * 故基本只能用于较小规模数据(相对几十G来说)。 * 请运行时设置jvm足够的堆栈空间。
标签: ictclas segmentation Description chinese
上传时间: 2014-01-25
上传用户:it男一枚
基于中科院的ictclas实现中文分词系统 开发工具是JAVA.经测试,效果很好.
上传时间: 2015-06-12
上传用户:stvnash
Sharp ictclas分词系统,对ictclas分词系统进行了详尽的分析,并将代码移植到C#。
上传时间: 2015-09-17
上传用户:z754970244
对ictclas源码进行了详尽的分析,对系统的理解相当有帮助。
上传时间: 2015-09-17
上传用户:wang5829
汉语词法分析系统ictclas windows版本,我将FreeictclasLinux移植到windows下,开发环境VS2005
标签: windows FreeictclasLinux ictclas 汉语
上传时间: 2015-10-05
上传用户:虫虫虫虫虫虫
中文分词, N-最短路径算法 ictclas研究学习组 http://groups.google.com/group/ictclas?msg=subscribe
标签: subscribe ictclas ictclas groups
上传时间: 2014-08-24
上传用户:heart520beat
k Shortest Paths David Eppstein s method ictclas研究学习组 http://groups.google.com/group/ictclas?msg=subscribe
标签: Shortest Eppstein ictclas ictclas
上传时间: 2013-12-30
上传用户:youmo81
ictclas java实现 很不错的 包含全部所需的文件包 能对句子进行详细的词法分析.
上传时间: 2013-12-04
上传用户:三人用菜