1、锁定某个主题抓取; 2、能够产生日志文本文件,格式为:时间戳(timestamp)、URL; 3、抓取某一URL时最多允许建立2个连接(注意:本地作网页解析的线程数则不限) 4、遵守文明蜘蛛规则:必须分析robots.txt文件和meta tag有无限制;一个线程抓完一个网页后要sleep 2秒钟; 5、能对HTML网页进行解析,提取出链接URL,能判别提取的URL是否已处理过,不重复解析已crawl过的网页; 6、能够对spider/crawler程序的一些基本参数进行设置,包括:抓取深度(depth)、种子URL等; 7、使用User-agent向服务器表明自己的身份; 8、产生抓取统计信息:包括抓取速度、抓取完成所需时间、抓取网页总数;重要变量和所有类、方法加注释; 9、请遵守编程规范,如类、方法、文件等的命名规范, 10、可选:GUI图形用户界面、web界面,通过界面管理spider/crawler,包括启停、URL增删等
标签: 日志
上传时间: 2013-12-22
上传用户:wang5829
第8章 Java安全控制编程 实例87 控制访问权限 实例88 产生密钥 实例89 单钥加解密 实例90 双钥加解密 实例91 数字签名 实例92 实现SSL协议 实例93 简单的HTTPS服务
上传时间: 2015-11-01
上传用户:lunshaomo
村杏水量哩苛加厚协是右硕果累累吊胃口厅另咕械在经济开发另加勸吕
标签: 经济
上传时间: 2015-11-02
上传用户:xiaoyunyun
这是一个流水灯加汽灯控制程序。采用四位的拨码开关,低电平有效。
上传时间: 2015-11-13
上传用户:zhengzg
Visual C++编程技巧之 1.如何获取应用程序的实例句柄? 2.如何通过代码获得应用程序主窗口的指针? 3.如何在程序中获得其他程序的 图标? 4.如何编程结束应用程序?如何编程控制windows的重新引导? 5.怎样加栽其他的应用程序? 6.确定应用程序的 路径 7.获得各种目录信息 8.如何自定义消息
上传时间: 2014-01-19
上传用户:爱死爱死
1、手持设备的机器人--服务器端; 2、通过蓝牙通讯;
上传时间: 2014-01-19
上传用户:yyq123456789
1设计题目及要求 一、程序设计题目:学生成绩管理程序设计 二、 程序设计功能及要求: 1.显示学生各门成绩,总分,和平均分. 2.按总分由高到的进行排列. 3.要求输入一个学号.要求能找出一个学生的.姓名.各门功课的成绩. 3 算法分析 1. 学生成绩管理软件的数据结构 2. 排序 3. 查找 4. 其它 4 主要流程图 1写程序结构及各模块(输入,显示等等)结构图 本程序用了c++语言里面的思想,比如用了cin 和 cout 函数.分了俩个类.一个是File类.一个是Link类. File类里面主要的是用于保存和导入数据. Link类主要是用于链表的操作…. 本程序分为几个文件编写有.file.cpp文件和file.h文件 Link.cpp文件和Link.h文件 manager..cpp文件和manager.h文件. 本程序的主体结构是链表.用链表操作.实现动态创建和销毁. 主函数main().是在Manger.cpp 里面.是程序的入口处 File.cpp 和 link.cpp 是存放file类.和 link类的源函数变量代码. File.h 和Link.h 是存放file 类 和link 类的声明
上传时间: 2014-01-17
上传用户:古谷仁美
一、 一元三次回归方程 CubicMultinomialRegress.cs 方程模型为Y=a*X(3)+b*X(2)+c*X(1)+d public override double[] buildFormula() 得到系数数组,存放顺序与模型系数相反,即该数组中系数的值依次是d,c,b,a。 以后所述所有模型的系数存放均与此相同(多元线性回归方程除外)。 public override double forecast(double x) 预测函数,根据模型得到预测结果 public override double computeR2() 计算相关系数(决定系数),系数越接近1,数据越满足该模型。
标签: CubicMultinomialRegress override public double
上传时间: 2015-11-25
上传用户:13215175592
20*2液晶驱动程序,可以以总线方式或间接控制方式,注释清楚明了
上传时间: 2014-01-06
上传用户:skfreeman
16*2液晶显示1602驱动程序,内附与单片机的简单接口电路
上传时间: 2015-11-27
上传用户:佳期如梦