自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 爬虫学习第七天

爬虫学习第七天 糗事百科案例 用到的模块: re requests fake_UserAgent 思路:先找到网页然后进行匹配需要的东西, 关键点在于:找到所需要的东西的位置代码如下: infos = re.findall(r'<div class="content">\s*<span>\s*(.+)\s*</span>',info) 注: \s、\n\n...

2019-08-28 16:26:26 95

原创 爬虫学习第六天

爬虫学习第六天 re的使用: 一篇关于re语法使用说明 在学习的时候没有什么问题,刚开始不懂什么意思,后来看了好几遍才理解到表达式的意思。 学习代码如下: import re str1 = "I love China52.0 love!" m1 = re.match(r'.',str1) m2 = re.match(r'\w',str1) m3 = re.match(r'\D',str1) m4...

2019-08-27 16:25:57 78

原创 爬虫学习第五天

爬虫学习第五天 requests的使用: 直接上代码吧,因为没有遇到啥问题,都是很简单的代码 get: from fake_useragent import UserAgent import requests url="https://www.baidu.com/s" headers = { "User-Agent":UserAgent().chrome } params= { ...

2019-08-25 11:49:09 59

原创 爬虫学习第四天

爬虫学习第三天 第一个模块 cookie的使用1 cookie:指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。定义于 RFC2109 和 2965 中的都已废弃,最新取代的规范是 RFC6265 ...

2019-08-23 11:57:32 68

原创 爬虫学习第二天proxy的使用

爬虫学习第二天proxy的使用 用proxy代理 材料 测试访问网站:http://httpbin.org/get 提供免费的代理ip网站:https://www.xicidaili.com 先说遇到的问题吧: 网上找了一些免费的代理ip,但是每次运行的时候都是反馈的自己的ip,刚开始以为是代理的ip不可用就默认用自己的ip,尝试了无数个,但是还是自己的ip,都想去买ip了,最后有查阅了资料,网上...

2019-08-21 19:00:30 101

原创 爬虫学习第二天ajax请求

爬虫学习第二天ajax请求 目标抓取豆瓣网动态页面的电影目录 代码如下 from urllib.request import Request,urlopen from fake_useragent import UserAgent base_url = "https://movie.douban.com/j/chart/top_list?type=5&interval_id=100%3A9...

2019-08-21 15:39:50 111

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除