虫虫首页| 资源下载| 资源专辑| 精品软件
登录| 注册

分词软件

  • 一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能

    一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能,包括主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Query Spell Checking)、兴趣短语检测(Interseting Phrase Detection)、聚类(Clustering)、字符语言建模(Character Language Modeling)、医学文献下载/解析/索引(MEDLINE Download, Parsing and Indexing)、数据库文本挖掘(Database Text Mining)、中文分词(Chinese Word Segmentation)、情感分析(Sentiment Analysis)、语言辨别(Language Identification)等API。

    标签: LingPipe Java 自然语言处理 开源

    上传时间: 2013-12-04

    上传用户:15071087253

  • 编译器中词法分析部分

    编译器中词法分析部分,是基于正则表达式的词法分析,包括了代码,演示PPT,要分析的代码和分词结果

    标签: 编译器

    上传时间: 2013-12-30

    上传用户:13160677563

  • 停用词表

    停用词表,可以和词表结合用于分词,适用于任何开发环境。

    标签:

    上传时间: 2013-12-28

    上传用户:Yukiseop

  • 中文自动分类。使用spider抓取网络信息

    中文自动分类。使用spider抓取网络信息,利用lucene的分词及KNN方法。

    标签: spider 自动 分类 网络信息

    上传时间: 2017-02-28

    上传用户:yyq123456789

  • 该源码用c++编写

    该源码用c++编写,实现了中文分词的功能。

    标签: 源码 编写

    上传时间: 2014-01-21

    上传用户:wang0123456789

  • 汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)

    汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58 (973专家组评测),未登录词识别召回率均高于90 ,其中中国人名的识别召回率接近98 处理速度为31.5Kbytes/s。ICTCLAS的特色还在于:可以根据需要输出多个高概率结果,有多种输出格式,支持北大词性标注集,973专家组给出的词性标注集合。该系统得到了专家的好评,并有多篇论文在国内外发表。

    标签: Technology Computing Institute Analysis

    上传时间: 2013-12-24

    上传用户:ANRAN

  • 汉化CLucene今天

    汉化CLucene今天,把CLucene的程序改了一下,可以支持汉字了·1·在vc6编译2·还不支持分词,但支持汉字,

    标签: CLucene 汉化

    上传时间: 2014-11-26

    上传用户:qq21508895

  • 关于中文中词语搭配的三篇论文

    关于中文中词语搭配的三篇论文,利用语义间的信息消解分词中的歧义问题,希望能给研究分词消歧的人一些帮助,谢谢!

    标签: 论文

    上传时间: 2017-05-11

    上传用户:笨小孩

  • 用java语言实现文本聚类

    用java语言实现文本聚类,包括聚类前的数据预处理:分词、降维、建立向量空间模型等

    标签: java 语言 文本聚类

    上传时间: 2014-11-18

    上传用户:zhoujunzhen

  • 自己下载一个语料库

    自己下载一个语料库,根据程序,计算权重,然后对语料库进行分词

    标签:

    上传时间: 2014-01-25

    上传用户:zhangliming420