计算所汉语词法分析系统Ictclas.分词正确率高达97.58%(973专家组评测),未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。Ictclas的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。
上传时间: 2014-01-09
上传用户:1079836864
计算所汉语词法分析系统Ictclas介绍 词是最小的能够独立活动的有意义的语言成分。 但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。为此,我们中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了汉语词法分析系统Ictclas(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97%以上,未登录词识别召回率均高于90%,其中中国人名的识别召回率接近98%处理速度为31.5Kbytes/s。Ictclas的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。该系统得到了专家的好评,并有多篇论文在国内外发表。 计算所汉语词法分析系统Ictclas同时还提供一套完整的动态连接库Ictclas.dll和相应的概率词典,开发者可以完全忽略汉语词法分析,直接在自己的系统中调用Ictclas,Ictclas可以根据需要输出多个高概率的结果,输出格式也可以定制,开发者在分词和词性标注的基础上继续上层开发。
上传时间: 2014-01-02
上传用户:15736969615
Ictclas的JNI调用接口文件: Title:Ictclas Caller * <p>Description:do chinese word segmentation.don t change the pakage and CLASS name, orelse you can t use it. * 请不要改变包名、类名以及native的方法名,否则调用将失效。 * 由于Ictclas本身存在很多鲁棒性问题,调用segSentence时,string参数请保证不要过长或带有乱码。调用次数过多(如处理几十G的数据)会有可能造成内存溢出。 * 故基本只能用于较小规模数据(相对几十G来说)。 * 请运行时设置jvm足够的堆栈空间。
标签: Ictclas segmentation Description chinese
上传时间: 2014-01-25
上传用户:it男一枚
基于中科院的Ictclas实现中文分词系统 开发工具是JAVA.经测试,效果很好.
上传时间: 2015-06-12
上传用户:stvnash
Sharp Ictclas分词系统,对Ictclas分词系统进行了详尽的分析,并将代码移植到C#。
上传时间: 2015-09-17
上传用户:z754970244
对Ictclas源码进行了详尽的分析,对系统的理解相当有帮助。
上传时间: 2015-09-17
上传用户:wang5829
汉语词法分析系统Ictclas windows版本,我将FreeIctclasLinux移植到windows下,开发环境VS2005
标签: windows FreeIctclasLinux Ictclas 汉语
上传时间: 2015-10-05
上传用户:虫虫虫虫虫虫
中文分词, N-最短路径算法 Ictclas研究学习组 http://groups.google.com/group/Ictclas?msg=subscribe
标签: subscribe Ictclas Ictclas groups
上传时间: 2014-08-24
上传用户:heart520beat
k Shortest Paths David Eppstein s method Ictclas研究学习组 http://groups.google.com/group/Ictclas?msg=subscribe
标签: Shortest Eppstein Ictclas Ictclas
上传时间: 2013-12-30
上传用户:youmo81
Ictclas java实现 很不错的 包含全部所需的文件包 能对句子进行详细的词法分析.
上传时间: 2013-12-04
上传用户:三人用菜