五大门户:新浪新闻,网易,腾讯,搜狐,凤凰
中国青年网:http://news.youth.cn/gn/
数据字段要求:新闻标题,发布时间,数据插入数据库的时间
首次采集:因为新闻数量巨大,机器和宽带限制,只采集前5页即可,并存储到mysql数据库中
增量采集:当首次采集的5页完成后,定时周期每隔一分钟增量采集一次,将新出现的新闻条目采集下来,并存储到mysql数据库中
采集日志输出要求:日志当中要能 一直输出当前共采集多少条新闻,当前总共采集了多少页,
五个层级
主要包括:用户接口层,任务调度层,网络爬取层,数据解析层,数据持久化层,共5层,再循环至任务调度层,
8爪鱼采集笔记
8爪鱼能采集的是视频里面有url的才能采集,有的网站视频是经过加密的,没有url这种的采集不到
对于视频的采集:首选需要采集他的html,然后用正则小工具提取url
例如:环球视频:打开网页之后,先做一个循环翻页,要采集更多的信息。