![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫学习
learner-xz
这个作者很懒,什么都没留下…
展开
-
python爬虫编程实践4-大作业:用selenium爬取腾讯新闻的热点精选
1、任务目标(1)了解ajax加载(2)通过chrome的开发者工具,监控网络请求,并分析(3)用selenium完成爬虫(4)任务: 用selenium爬取https://news.qq.com/ 的热点精选(5)目标:热点精选至少爬50个出来,存储成csv 每一行如下 标号(从1开始),标题,链接,…2、爬取腾讯新闻的热点精选(自己实现的代码)import timefrom ...原创 2020-04-27 09:49:39 · 1195 阅读 · 1 评论 -
python爬虫编程实践task3-ip代理、session和cookie、selenuim
1、IP代理如何应对IP被封的问题:1、修改请求头,模拟浏览器(而不是代码去直接访问)去访问2、设置访问时间间3、采用代理IP并轮换前两个之前已经使用过,这里贴一个建立IP代理池的代码:from bs4 import BeautifulSoupimport requestsimport reimport jsondef open_proxy_url(url): u...原创 2020-04-25 23:31:43 · 170 阅读 · 0 评论 -
python爬虫编程实战task2-bs4、xpath、re学习与相关实战
1、bs4学习与实战我感觉bs4虽然可以解析和提取 HTML/XML 数据,但是匹配效率还是远远不如正则以及xpath的,一般不推荐使用,在这里不作为重点学习。实战之中国大学排名定向爬取:# 导入库import requestsfrom bs4 import BeautifulSoupimport bs4# 1. 从网络上获取大学排名网页内容def getHTMLText(url)...原创 2020-04-23 22:01:02 · 378 阅读 · 0 评论 -
python爬虫编程实践task1
0 前期准备知识目标:了解http基础,html基础,尝试使用request-get爬取豆瓣电影信息,了解api的使用0-1 Window 下安装配置ChromeDriver(1)点击浏览器最右上角图标的查看浏览器版本依次:最右上角home图标-帮助-关于GoogleChrome可以看出我的浏览器版本是75.0.3770.100(2) 下载对应的ChromeDriver(是个.exe...原创 2020-04-21 17:27:41 · 262 阅读 · 0 评论