- 博客(6)
- 收藏
- 关注
原创 爬虫学习第七天
爬虫学习第七天 糗事百科案例 用到的模块: re requests fake_UserAgent 思路:先找到网页然后进行匹配需要的东西, 关键点在于:找到所需要的东西的位置代码如下: infos = re.findall(r'<div class="content">\s*<span>\s*(.+)\s*</span>',info) 注: \s、\n\n...
2019-08-28 16:26:26 131
原创 爬虫学习第六天
爬虫学习第六天 re的使用: 一篇关于re语法使用说明 在学习的时候没有什么问题,刚开始不懂什么意思,后来看了好几遍才理解到表达式的意思。 学习代码如下: import re str1 = "I love China52.0 love!" m1 = re.match(r'.',str1) m2 = re.match(r'\w',str1) m3 = re.match(r'\D',str1) m4...
2019-08-27 16:25:57 93
原创 爬虫学习第五天
爬虫学习第五天 requests的使用: 直接上代码吧,因为没有遇到啥问题,都是很简单的代码 get: from fake_useragent import UserAgent import requests url="https://www.baidu.com/s" headers = { "User-Agent":UserAgent().chrome } params= { ...
2019-08-25 11:49:09 80
原创 爬虫学习第四天
爬虫学习第三天 第一个模块 cookie的使用1 cookie:指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。定义于 RFC2109 和 2965 中的都已废弃,最新取代的规范是 RFC6265 ...
2019-08-23 11:57:32 85
原创 爬虫学习第二天proxy的使用
爬虫学习第二天proxy的使用 用proxy代理 材料 测试访问网站:http://httpbin.org/get 提供免费的代理ip网站:https://www.xicidaili.com 先说遇到的问题吧: 网上找了一些免费的代理ip,但是每次运行的时候都是反馈的自己的ip,刚开始以为是代理的ip不可用就默认用自己的ip,尝试了无数个,但是还是自己的ip,都想去买ip了,最后有查阅了资料,网上...
2019-08-21 19:00:30 135
原创 爬虫学习第二天ajax请求
爬虫学习第二天ajax请求 目标抓取豆瓣网动态页面的电影目录 代码如下 from urllib.request import Request,urlopen from fake_useragent import UserAgent base_url = "https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A9...
2019-08-21 15:39:50 131
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人