1.基于luncene倒排索引格式的高性能索引数据访问接口。 2. 实现若干中文分词的的分词算法。
上传时间: 2013-12-29
上传用户:ruixue198909
首先对中文文档建立倒排文档,然后根据建立的倒排文档,按照此检索算法对文档进行检索
标签: 文档
上传时间: 2015-12-11
上传用户:change0329
首先对英文文档建立倒排文档,然后根据建立的倒排文档,按照此检索算法对文档进行检索
上传时间: 2014-07-27
上传用户:l254587896
以行为单位对行中以空格或标点符号为分隔的所有单词进行倒排,同时去 除标点符号,之后把已处理的字符串(应不含标点符号)仍按行重新存入字符串数组xx中
上传时间: 2016-06-23
上传用户:13160677563
本系统实现了分词和倒排索引,分词采用正向最大匹配,
上传时间: 2013-12-17
上传用户:luke5347
中文信息处理,建立文件的倒排表,形成词频链表
标签: 信息处理
上传时间: 2015-10-23
上传用户:123456wh
对文件进行操作,对索引倒排表中的文件进行相应的操作
标签: 操作
上传时间: 2015-10-23
上传用户:caozhizhi
整个实验是在Windows环境下使用delphi完成的。选取了600篇文档,数据集共分教育,商业与经济,计算机与因特网,娱乐与休闲,自然科学5个类别, 教育类包括31篇文档, 商业与经济类有93篇文档, 计算机与因特网102篇文档, 娱乐与休闲166篇文档, 自然科学有208篇文档。 目录“DataSet”:RawText中的文本分词后保存在DataSet目录。 数据表“WordsTable”:保存DataSet中所有文本的倒排文档。 其中“目录DataSet”和“DataBase.mdb”为实验测试所必须
上传时间: 2014-01-11
上传用户:gdgzhym
整个实验是在Windows环境下使用delphi完成的。选取了600篇文档,数据集共分教育,商业与经济,计算机与因特网,娱乐与休闲,自然科学5个类别, 教育类包括31篇文档, 商业与经济类有93篇文档, 计算机与因特网102篇文档, 娱乐与休闲166篇文档, 自然科学有208篇文档。 目录“DataSet”:RawText中的文本分词后保存在DataSet目录。 数据表“WordsTable”:保存DataSet中所有文本的倒排文档。 其中“目录DataSet”和“DataBase.mdb”为实验测试所必须
上传时间: 2014-01-22
上传用户:llandlu
向量空间模型算法,给定一个经过分词的文档集,可以输出向量空间模型、特征词典、倒排索引表等功能,很经典的VSM算法源代码
上传时间: 2014-01-14
上传用户:小眼睛LSL