虫虫首页| 资源下载| 资源专辑| 精品软件
登录| 注册

spider

  • matlab的数据挖掘工具箱spider

    matlab的数据挖掘工具箱spider

    标签: matlab spider 数据挖掘 工具箱

    上传时间: 2017-05-05

    上传用户:franktu

  • spider Java 实现的简单网络爬虫

    spider Java 实现的简单网络爬虫,可以抓取网页和其中的URL

    标签: spider Java 网络爬虫

    上传时间: 2017-05-08

    上传用户:wendy15

  • 用java实现一个简单的spider程序.

    用java实现一个简单的spider程序.

    标签: spider java 程序

    上传时间: 2014-01-15

    上传用户:wweqas

  • spider

    spider,多线程,epoll,可拓展

    标签: spider

    上传时间: 2016-04-22

    上传用户:haohaor

  • < 网络机器人java编程指南>>的配套源程序

    < 网络机器人java编程指南>>的配套源程序,研究如何实现具有Web访问能力的网络机器人的书。从Internet编程的基本原理出发,深入浅出、循序渐进地阐述了网络机器人程序spider、Bot、Aggregator的实现技术,并分析了每种程序的优点及适用场合。本书提供了大量的有效源代码,并对这些代码进行了详细的分析。通过本书的介绍,你可以很方便地利用这些技术,设计并实现网络蜘蛛或网络信息搜索器等机器人程序。

    标签: java gt lt 网络

    上传时间: 2014-01-06

    上传用户:waitingfy

  • 1、锁定某个主题抓取; 2、能够产生日志文本文件

    1、锁定某个主题抓取; 2、能够产生日志文本文件,格式为:时间戳(timestamp)、URL; 3、抓取某一URL时最多允许建立2个连接(注意:本地作网页解析的线程数则不限) 4、遵守文明蜘蛛规则:必须分析robots.txt文件和meta tag有无限制;一个线程抓完一个网页后要sleep 2秒钟; 5、能对HTML网页进行解析,提取出链接URL,能判别提取的URL是否已处理过,不重复解析已crawl过的网页; 6、能够对spider/crawler程序的一些基本参数进行设置,包括:抓取深度(depth)、种子URL等; 7、使用User-agent向服务器表明自己的身份; 8、产生抓取统计信息:包括抓取速度、抓取完成所需时间、抓取网页总数;重要变量和所有类、方法加注释; 9、请遵守编程规范,如类、方法、文件等的命名规范, 10、可选:GUI图形用户界面、web界面,通过界面管理spider/crawler,包括启停、URL增删等

    标签: 日志

    上传时间: 2013-12-22

    上传用户:wang5829

  • zlib压缩源码函数库

    zlib压缩源码函数库,好多时候需要此函数库来自己实现压缩算法,比如自己解压用spider获取的http数据

    标签: zlib 源码 函数库

    上传时间: 2013-12-16

    上传用户:wyc199288

  • 网络蜘蛛

    网络蜘蛛,对于基于独立搜索引擎的元搜索引擎的研究是实现搜索引擎优化的重要途径,而其中最为主要的是对于URL的产生和spider的网页提交功能的研究。

    标签: 网络

    上传时间: 2013-12-17

    上传用户:邶刖