多线程日采集几十万(去重后)
最近在研究网站群的课程的问题,正发愁呢。
听到有同事在哪里讨论,我赶紧凑过去听了听。
我发现这不是我正在研究的吗。
然后我告诉他们我也正在做这个,他们让我帮帮忙说是做一款采集百度搜索的网站域名软件,来做数据筛选。
刚刚我也在做这个,就同意了,不做不知道啊。
我发现,百度的防爬虫机制是真严格,层层加密,早知道我就不过去凑热闹了。
程序员的生活就是充满了各种挑战和陷阱呀... 于是我上网找解决办法。
好在网上有很多有用的信息,我东拼西凑终于找到了解决办法..... 经过我两天两夜的辛苦努力,终于成功了! 后面我又相继加入了搜狗、360、神马、必应等搜索引擎并发启动,多线程去采集。
速度这方面也是优化了很多次。