虫虫首页| 资源下载| 资源专辑| 精品软件
登录| 注册

您现在的位置是:虫虫下载站 > 资源下载 > 多国语言处理 > 「我是中國人」

「我是中國人」

  • 资源大小:1634 K
  • 上传时间: 2015-12-18
  • 上传用户:m472333662
  • 资源积分:2 下载积分
  • 标      签:

资 源 简 介

「我是中國人」,ChineseTokenizer會將之分割為五個中文字:「我、是、中、國、人」,CJKTokenizer則會將之分割為「我是、是中、中國、國人」四個二節的詞。前者的問題是沒有考慮中文詞語的問題,如搜尋「國中」一樣搜尋到「我是中國人」。後者的問題則是制做了大量沒意義的詞如「是中」「國人」,讓索引沒必要地增大、降低搜尋效率。

相 关 资 源

您 可 能 感 兴 趣 的