一份很重要的语料库,为你的分词程序是一个很好用的资料库文件
标签:
上传时间: 2015-04-22
上传用户:changeboy
基于朴素贝叶斯算法实现的中文文本分类程序。可以对中文文本进行分类识别,使用时先对分类器进行训练,然后进行识别。该Beta版本仅支持对3类文本进行分类,使用简单的中文分词方法,本程序尚不具备实用性,用于算法研究和改进。
上传时间: 2013-12-22
上传用户:huql11633
挺不错的东西,分词库要自己去添加,我没有乱写啊。
标签:
上传时间: 2015-08-10
上传用户:thesk123
前几天因为好久没发blog了,就拿我毕设中的一段算法凑数,没想到引起很多人的兴趣。因此就把我的分词算法单独拎出来做了一个项目叫作DartSplitter。暂时把分词算法的名称叫做树状词库分词法。
标签: blog
上传时间: 2014-01-13
上传用户:q123321
这个是我们的中文信息处理的作业,我是用mfc结合sqlserver写的,可以自己一步一步的进行分词,并且可以对文本进行分词,还可以自己的找到其中的歧义字段,并自动保存到文件
标签: 信息处理
上传时间: 2015-11-22
上传用户:hn891122
svm(支持向量机)分类算法本质上是二类分类器,实现多类分类的方法一般是将多类分类看作是多个一对多的二类分类器。本程序就是基于svmlight的svm多类分类器实现。对分类感兴趣的用户请参照。配合中文分词(参见我上传的程序),可实现中文多类分本分类。
上传时间: 2014-01-06
上传用户:anng
编译原理课程实验,在VC平台实现了java语言的分词程序
上传时间: 2014-12-06
上传用户:jcljkh
整个实验是在Windows环境下使用delphi完成的。选取了600篇文档,数据集共分教育,商业与经济,计算机与因特网,娱乐与休闲,自然科学5个类别, 教育类包括31篇文档, 商业与经济类有93篇文档, 计算机与因特网102篇文档, 娱乐与休闲166篇文档, 自然科学有208篇文档。 目录“DataSet”:RawText中的文本分词后保存在DataSet目录。 数据表“WordsTable”:保存DataSet中所有文本的倒排文档。 其中“目录DataSet”和“DataBase.mdb”为实验测试所必须
上传时间: 2014-01-11
上传用户:gdgzhym
中文信息处理的源程序,用于分词过程中的歧义鉴别与排除,vc++编写,.cpp文件
上传时间: 2016-05-22
上传用户:wangzhen1990
整个实验是在Windows环境下使用delphi完成的。选取了600篇文档,数据集共分教育,商业与经济,计算机与因特网,娱乐与休闲,自然科学5个类别, 教育类包括31篇文档, 商业与经济类有93篇文档, 计算机与因特网102篇文档, 娱乐与休闲166篇文档, 自然科学有208篇文档。 目录“DataSet”:RawText中的文本分词后保存在DataSet目录。 数据表“WordsTable”:保存DataSet中所有文本的倒排文档。 其中“目录DataSet”和“DataBase.mdb”为实验测试所必须
上传时间: 2014-01-22
上传用户:llandlu