虫虫首页| 资源下载| 资源专辑| 精品软件
登录| 注册

您现在的位置是:虫虫下载站 > 资源下载 > 技术资料 > 基于FFT的网页正文提取算法研究与实现

基于FFT的网页正文提取算法研究与实现

  • 资源大小:235 K
  • 上传时间: 2024-10-23
  • 上传用户:kingwide
  • 资源积分:2 下载积分
  • 标      签: nbsp 信息

资 源 简 介

· 摘要:  主要研究正文式网页的有效信息提取算法.该种底层网页真正含有Web页面所表达的主题信息,通常包含一大段的正文信息,正文信息的前后是一些格式信息(例如导航信息、交互信息、JavaScript脚本等).分析了此种网页的页面结构特征,将问题转化为--给定一个底层网页的HTML源文件,求解最佳的正文区间;从而提出了一种基于快速傅立叶变换的网页正文内容提取算法.采用窗口分段的方

相 关 资 源