![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
wuyusen123456
这个作者很懒,什么都没留下…
展开
-
爬虫入门--task04
一.爬取tx新闻了解ajax加载通过chrome的开发者工具,监控网络请求,并分析用selenium完成爬虫具体流程如下:用selenium爬取https://news.qq.com/ 的热点精选import timefrom selenium import webdriverdriver=webdriver.Chrome(executable_path="D:\chrome...原创 2020-04-27 20:17:12 · 131 阅读 · 0 评论 -
爬虫入门-ip代理-task03
爬虫入门-ip代理-task03为什么会出现IP被封网站为了防止被爬取,会有反爬机制,对于同一个IP地址的大量同类型的访问,会封锁IP,过一段时间后,才能继续访问如何应对IP被封的问题有几种套路:1.修改请求头,模拟浏览器(而不是代码去直接访问)去访问2.采用代理IP并轮换3.设置访问时间间隔如何获取代理IP地址从该网站获取:https://www.xicidaili.c...原创 2020-04-25 20:00:40 · 9524 阅读 · 1 评论 -
爬虫入门-bs4 xpath 正则表达式-task02
爬虫入门-bs4 xpath 正则表达式-task02一.xpath练习爬取丁香园-用户名和回复内容爬取思路:获取url的htmllxml解析html利用Xpath表达式获取user和content保存爬取的内容#导入库from lxml import etreeimport requestsurl = "http://www.dxy.cn/bbs/thread/626...原创 2020-04-23 20:45:31 · 200 阅读 · 0 评论 -
爬虫入门-爬取豆瓣top250电影-task01
刚刚接触Python,简单地学习了一下基础后,利用xpath爬取一下豆瓣top250电影作为练习。一.先来到豆瓣top250电影界面二.F12打开开发者工具,提取影片的xpath信息电影名的xpath为://*[@id=“content”]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]电影评分的xpath为://*[@id=“...原创 2020-04-21 16:32:25 · 1045 阅读 · 0 评论