![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫学习
文章平均质量分 60
Zero_Adam
这个作者很懒,什么都没留下…
展开
-
爬虫学习 ----- 第二章 爬取静态网站 ---------- 04 带着cookie去爬取东西
目录:1. 带着cookie去爬取东西1. 登陆:1. 拿cookie呀,2. 拿书架上的数据。学习自:https://www.bilibili.com/video/BV1b64y117X6?p=43&spm_id_from=pageDriver1. 带着cookie去爬取东西任务:登陆->得到cookie带着cookie 去请求到书架的 url ->爬取书架上的内容。将 上面的两个操作 连接起来,可以用session 进行请求 ,session,可原创 2021-05-06 20:39:45 · 286 阅读 · 0 评论 -
爬虫学习 ----- 第二章 爬取静态网站 ---------- 03 . re 模块学习 ---- re屠戮电影天堂
目录:1. 【案例】re屠戮电影天堂1.目的:1. 定位到2021新片精品1. 出现错误???2. 网页乱码???2.从2021新片精品中提取到子页面的链接地址3.请求子页面的链接地址,拿到我们想要的下载地址...1. 【案例】re屠戮电影天堂1.目的:定位到2021新片精品从2021新片精品中提取到子页面的链接地址请求子页面的链接地址,拿到我们想要的下载地址…1. 定位到2021新片精品我想得到这里的电影的下载地址。1. 出现错误???2. 网页乱码???python抓包原创 2021-05-05 22:23:22 · 837 阅读 · 2 评论 -
爬虫学习 ----- 第二章 爬取静态网站 ---------- 02 . re 模块学习 ---- 爬取豆瓣top250
目录:1. 【案例】re来爬取 豆瓣top2501. 【案例】re来爬取 豆瓣top250信息在 页面源代码中,直接用 re 拿 就行了。拿着四了数据。建议找到关键作为起始位置。。之后,往前找一下根目录,然后再找年份# -*- coding: utf-8 -*-# @Time: 2021/5/5 14:05# @Author: adam# @File: demo2.pyimport reimport requestsheader = { 'User原创 2021-05-05 22:23:14 · 233 阅读 · 0 评论 -
爬虫学习 ----- 第二章 爬取静态网站 ---------- 01 . re 模块学习 ---- python的re库
目录:1. 写入文件的时候要encoding一下。1. re1. 正则的基础知识2. python的re模块。2. re.finditer ( r"\d+", "********") 最常用!!!!3. 预加载正则表达式:4. 从正则中取出数据来。1. 写入文件的时候要encoding一下。window默认的编码是 gbk 编码,1. re1. 正则的基础知识字符组,数字,字母: [a-zA-Z0-9][^***]。除了这里面的都行,.*?非贪婪匹配2. python的re模块。原创 2021-05-05 22:22:57 · 3086 阅读 · 10 评论