爬虫八爪鱼

五大门户:新浪新闻,网易,腾讯,搜狐,凤凰

中国青年网:http://news.youth.cn/gn/

数据字段要求:新闻标题,发布时间,数据插入数据库的时间

首次采集:因为新闻数量巨大,机器和宽带限制,只采集前5页即可,并存储到mysql数据库中

增量采集:当首次采集的5页完成后,定时周期每隔一分钟增量采集一次,将新出现的新闻条目采集下来,并存储到mysql数据库中

采集日志输出要求:日志当中要能 一直输出当前共采集多少条新闻,当前总共采集了多少页,

五个层级

主要包括:用户接口层,任务调度层,网络爬取层,数据解析层,数据持久化层,共5层,再循环至任务调度层,

8爪鱼采集笔记

8爪鱼能采集的是视频里面有url的才能采集,有的网站视频是经过加密的,没有url这种的采集不到

对于视频的采集:首选需要采集他的html,然后用正则小工具提取url

例如:环球视频:打开网页之后,先做一个循环翻页,要采集更多的信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值