1、锁定某个主题抓取; 2、能够产生日志文本文件,格式为:时间戳(timestamp)、URL; 3、抓取某一URL时最多允许建立2个连接(注意:本地作网页解析的线程数则不限) 4、遵守文明蜘蛛规则:必须分析robots.txt文件和meta tag有无限制;一个线程抓完一个网页后要sleep 2秒钟; 5、能对HTML网页进行解析,提取出链接URL,能判别提取的URL是否已处理过,不重复解析已crawl过的网页; 6、能够对spider/crawler程序的一些基本参数进行设置,包括:抓取深度(depth)、种子URL等; 7、使用User-agent向服务器表明自己的身份; 8、产生抓取统计信息:包括抓取速度、抓取完成所需时间、抓取网页总数;重要变量和所有类、方法加注释; 9、请遵守编程规范,如类、方法、文件等的命名规范, 10、可选:GUI图形用户界面、web界面,通过界面管理spider/crawler,包括启停、URL增删等
标签: 日志
上传时间: 2013-12-22
上传用户:wang5829
记录工作日志方面的信息,一个很好的信息管理系统
上传时间: 2015-11-03
上传用户:zhouchang199
提醒簿采用java语言和xml数据库结合开发.通过读写xml文件动态写入读取备忘录.,通过线程机制及时提醒您.提供多种提醒方式.操作方便,使用简单.是个很不错的提醒簿. 运行平台: Windows
上传时间: 2015-11-05
上传用户:jcljkh
该提醒簿采用java语言和xml数据库结合开发.通过读写xml文件动态写入读取备忘录.,通过线程机制及时提醒您.提供多种提醒方式.操作方便,使用简单.是个很不错的提醒簿.
上传时间: 2015-11-05
上传用户:franktu
blog日志部分详细设计,包括写日志,管理日志,上传文件等等。
上传时间: 2015-11-09
上传用户:qilin
分析APACHE访问日志。并按IP或者访问的页面进行统计。
上传时间: 2015-11-11
上传用户:maizezhen
平时写程序时经常要记录下日志,C++的cout类很好用吧,呵呵, 以前写了个类似的类 来记录下程序的运行日志
上传时间: 2015-11-11
上传用户:GHF
vb编程器界面,实现基本的编程,写入,擦除,校验,芯片选择等功能
上传时间: 2015-11-13
上传用户:一诺88
词法分析器。 要求:1.读出所给文件的所有词 2.将所有词输出写入一个txt文档中。 3.每个词用特殊符号‘^’隔开 源程序为自己所编译的cpp文件,即“text2.cpp”,Compile——〉Build——〉BuildExiecute,将结果写入另一个文件“after_execute.txt”中。
上传时间: 2014-01-15
上传用户:13517191407
写入文本可以保存在本地硬盘上,再可以从刚保存的文件中打开文件
标签: 硬盘
上传时间: 2015-11-14
上传用户:498732662