网络爬虫
网络爬虫在CPP中爬行链接到你想要的深度。控制台应用程序
Ubuntu 14.04 LTS上编译的程序
用g+编译器编译
相依性
卷曲
Boost图书馆
用于编译的命令
G+爬虫.cpp-lcurl-lost_regex-o爬虫
输入
URL:您想要抓取示例“dirghbuch.com”的URL
链接数:要从爬行中提取的每页链接数
深度:我们想爬多深,在哪里深度可以定义为树的深度。
输出量
crawler.txt
限制
链接数最多可达100。
Does not work for website which has blocked curl crawling for example google.com yahoo.com
由于缺乏并行性,所以速度很慢。
没有完整URL的链接被追加到用户在大容量中插入的URLwww.xyz.com有/conatct-us的网址将是www.xyz.com/contact-us
唯一的单词也包含html标记。
可能的改进,但尚未落实
限制共享变量的使用
改进使其易于并行化
比卷曲更有效的爬行方式