ChinaGeographer-CSDN博客

原创爬虫学习第七天

爬虫学习第七天糗事百科案例用到的模块： re requests fake_UserAgent 思路：先找到网页然后进行匹配需要的东西，关键点在于：找到所需要的东西的位置代码如下： infos = re.findall(r'<div class="content">\s*<span>\s*(.+)\s*</span>',info) 注： \s、\n\n...

2019-08-28 16:26:26 131

原创爬虫学习第六天

爬虫学习第六天 re的使用：一篇关于re语法使用说明在学习的时候没有什么问题，刚开始不懂什么意思，后来看了好几遍才理解到表达式的意思。学习代码如下： import re str1 = "I love China52.0 love！" m1 = re.match(r'.',str1) m2 = re.match(r'\w',str1) m3 = re.match(r'\D',str1) m4...

2019-08-27 16:25:57 93

原创爬虫学习第五天

爬虫学习第五天 requests的使用：直接上代码吧，因为没有遇到啥问题，都是很简单的代码 get: from fake_useragent import UserAgent import requests url="https://www.baidu.com/s" headers = { "User-Agent":UserAgent().chrome } params= { ...

2019-08-25 11:49:09 80

原创爬虫学习第四天

爬虫学习第三天第一个模块 cookie的使用1 cookie：指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据（通常经过加密）。定义于 RFC2109 和 2965 中的都已废弃，最新取代的规范是 RFC6265 ...

2019-08-23 11:57:32 85

原创爬虫学习第二天proxy的使用

爬虫学习第二天proxy的使用用proxy代理材料测试访问网站：http://httpbin.org/get 提供免费的代理ip网站：https://www.xicidaili.com 先说遇到的问题吧：网上找了一些免费的代理ip，但是每次运行的时候都是反馈的自己的ip，刚开始以为是代理的ip不可用就默认用自己的ip，尝试了无数个，但是还是自己的ip，都想去买ip了，最后有查阅了资料，网上...

2019-08-21 19:00:30 135

原创爬虫学习第二天ajax请求

爬虫学习第二天ajax请求目标抓取豆瓣网动态页面的电影目录代码如下 from urllib.request import Request,urlopen from fake_useragent import UserAgent base_url = "https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A9...

2019-08-21 15:39:50 131

weixin_45547832的博客

原创爬虫学习第七天

原创爬虫学习第六天

原创爬虫学习第五天

原创爬虫学习第四天

原创爬虫学习第二天proxy的使用

原创爬虫学习第二天ajax请求

空空如也

空空如也

原创 爬虫学习第七天

原创 爬虫学习第六天

原创 爬虫学习第五天

原创 爬虫学习第四天

原创 爬虫学习第二天proxy的使用

原创 爬虫学习第二天ajax请求

空空如也

空空如也

原创爬虫学习第七天

原创爬虫学习第六天

原创爬虫学习第五天

原创爬虫学习第四天

原创爬虫学习第二天proxy的使用

原创爬虫学习第二天ajax请求