python爬虫
天道*酬勤
这个作者很懒,什么都没留下…
展开
-
如何判断一个页面是否是动态页面
1.通过父页面判断子页面:查看href属性,如果href = IP地址,这个子页面就是一个静态网页,如果href = 属性,这个子页面是一个动态网页(href = 属性,这个属性需要通过js加载,js可以动态的修改页面数据,所以通过js加载的页面就是动态页面)2.通过本页面判断:复制我们想要爬取的数据,在网页源代码中查找,如果在html中,这个页面就是静态页面,如果查找不到,说明我们想要的...原创 2019-11-30 17:01:05 · 5826 阅读 · 1 评论 -
需求分析
1.明确抓取的内容1.帖子2.回答3.用户信息2.制定抓取策略抓取网站的数据构成整个爬虫的抓取策略跟人为的的模拟方式很像3.查看页面是否是动态页面4.提取...原创 2019-11-30 18:54:14 · 190 阅读 · 0 评论