python爬虫学习
ChinaGeographer
GIS菜鸟
展开
-
爬虫学习第五天
爬虫学习第五天requests的使用:直接上代码吧,因为没有遇到啥问题,都是很简单的代码get:from fake_useragent import UserAgentimport requestsurl="https://www.baidu.com/s"headers = { "User-Agent":UserAgent().chrome}params= { ...原创 2019-08-25 11:49:09 · 84 阅读 · 0 评论 -
爬虫学习第二天ajax请求
爬虫学习第二天ajax请求目标抓取豆瓣网动态页面的电影目录代码如下from urllib.request import Request,urlopenfrom fake_useragent import UserAgentbase_url = "https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A9...原创 2019-08-21 15:39:50 · 134 阅读 · 0 评论 -
爬虫学习第二天proxy的使用
爬虫学习第二天proxy的使用用proxy代理材料测试访问网站:http://httpbin.org/get提供免费的代理ip网站:https://www.xicidaili.com先说遇到的问题吧:网上找了一些免费的代理ip,但是每次运行的时候都是反馈的自己的ip,刚开始以为是代理的ip不可用就默认用自己的ip,尝试了无数个,但是还是自己的ip,都想去买ip了,最后有查阅了资料,网上...原创 2019-08-21 19:00:30 · 139 阅读 · 0 评论 -
爬虫学习第四天
爬虫学习第三天第一个模块cookie的使用1cookie:指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。定义于 RFC2109 和 2965 中的都已废弃,最新取代的规范是 RFC6265...原创 2019-08-23 11:57:32 · 90 阅读 · 0 评论 -
爬虫学习第六天
爬虫学习第六天re的使用:一篇关于re语法使用说明在学习的时候没有什么问题,刚开始不懂什么意思,后来看了好几遍才理解到表达式的意思。学习代码如下:import restr1 = "I love China52.0 love!"m1 = re.match(r'.',str1)m2 = re.match(r'\w',str1)m3 = re.match(r'\D',str1)m4...原创 2019-08-27 16:25:57 · 95 阅读 · 0 评论 -
爬虫学习第七天
爬虫学习第七天糗事百科案例用到的模块:re requests fake_UserAgent思路:先找到网页然后进行匹配需要的东西,关键点在于:找到所需要的东西的位置代码如下:infos = re.findall(r'<div class="content">\s*<span>\s*(.+)\s*</span>',info)注:\s、\n\n...原创 2019-08-28 16:26:26 · 138 阅读 · 0 评论