Python爬虫
记录python爬虫学习进度
大大打打
这个作者很懒,什么都没留下…
展开
-
Selenium抓取百度首页TOP6新闻标题链接
注意点:1. 安装chromedriver在淘宝镜像上下载一个和自己Google浏览器版本一样的Chromedriver, 随便找个地方放着就行2.提取标签中的属性内容 -- .get_attribute('标签属性')3.提取标签中的text内容 -- text4.使用 unquote() 对URL进行解码 -- link= unquote(link)from selenium import webdriverimport timefrom...原创 2021-01-08 16:44:25 · 973 阅读 · 0 评论 -
用Python爬虫的方式查看B站视频实时的观看人数
练习from selenium import webdriverimport time# 计算机中chromedriver.exe的绝对位置# "C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe"driver = webdriver.Chrome("C:\chromedriver.exe")# 请求网站driver.get("https://www.bilibili.com/video/BV13A411M7原创 2021-02-15 11:09:21 · 1631 阅读 · 1 评论 -
Python爬虫16--哔哩哔哩追番热度信息
看看哔哩哔哩追番热度信息,做个小练习。import requestsimport jsonfrom queue import Queueimport threadingfrom lxml import etreeimport reclass Drama: def __init__(self): self.start_url = 'https://api.bilibili.com/pgc/season/index/result?season_version=-1.原创 2021-01-04 19:07:27 · 243 阅读 · 1 评论 -
Python爬虫15--爬虫遇上多线程,速度更上一层楼,爬取1000张图片连一分钟也不要!
将多线程和爬虫结合,能将爬取速度更上一层楼,爬取1000张图片连一分钟也不要!百度图片对于爬虫相当的友好,基本不需要做反反爬虫的设置,点赞 :)1.分析百度图片网址:从百度进去搜索图片,例如搜索 “拳皇” ,很大可能会看到地址栏出现一大坨东西,就像这样:https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result原创 2021-01-03 16:49:48 · 768 阅读 · 4 评论 -
Python爬虫14--response.txt和response.content的区别
response.txt:类型:str 解码类型:系统自身推测 如何修改解码方式:response.encoding='gbk'response.content:类型:bytes 解码类型:没有指定 如何修改解码方式:response.decode('utf8')更加推荐使用response.content的方法获取页面信息!...原创 2020-11-14 14:20:26 · 393 阅读 · 0 评论 -
Python爬虫13--cookie和session的区别
相同点:cookie和session都是用来记录用户特征的一些数据,比如需要用户登录时才能访问的页面,此时就需要带上cookie发起请求不通点:cookie:存储在本地浏览器上,最大不超过4k,每个站点被允许存储的cookie有上限。由于存储在本地,较为不安全。session:存储在服务器上,但不会一直存储在上面。存储过多会对服务器的性能造成影响。...原创 2020-11-12 22:21:38 · 188 阅读 · 0 评论 -
Python爬虫12--用爬虫做一个简单翻译程序
爬取有道词典的翻译内容:#!/usr/bin/python3import requestsimport recontent = str(input('输入要翻译的内容:'))headers = { "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 " "Sa原创 2020-11-12 21:43:38 · 181 阅读 · 0 评论 -
Python爬虫11--自己写一个贴吧网站内容的爬虫
import requests # 导入requests库class TiebaSpider: def __init__(self, tieba_name): # 调用初始化函数,将一些需要初始化的信息写在里面 self.tieba_name = tieba_name # 实例化贴吧的名字,让它之后能被调用 self.url_temp = "https://tieba.baidu.com/f?kw= " + tieba_name + "&ie.原创 2020-07-14 21:19:22 · 276 阅读 · 0 评论 -
Python爬虫10--发送带Header的请求与带参数的请求
在别的地方看见的很好的理解图:练习代码:import requests # 导入request库headers = { "User-Agent": "User-Agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36"} # 自定义一个headersurl = "https://www.baidu..原创 2020-07-09 23:49:15 · 891 阅读 · 0 评论 -
Python爬虫09--requests库
一、导入request库import requests二、获取网页响应,request.getresponse = request.get("http://www.baidu.com")# reqponse可以任意取名三、是否访问成功,XXX.status_coderesponse.status_code# 如成功会返回200四、assert断言(假设)assert response.status_code==200# 断言成功,假设响应成功,assert后..原创 2020-07-09 23:30:41 · 107 阅读 · 0 评论 -
Python爬虫08--浏览器检查中的注意点
一、Elements 与 Network中的Response响应内容不同:Eelments:1.包含CSS,JS,图片,当前url对应的响应Response:1.只响应当前url地址,不会主动请求CSS,JS,图片2.爬虫要以Response中响应的内容为准3.如果根据当前url对应的地址拿不到数据,说明数据可能在其他url对象的响应中二、页面数据在那里呢1.当前url地址对应的响应中2.其他url地址对应的响应中(比如ajax中)3.由js生成的(部分数据再响应中原创 2020-07-09 22:05:18 · 370 阅读 · 0 评论 -
Python爬虫07--浏览器发送HTTP请求的过程
1.客户机(电脑)发送域名到DNS服务器,DNS服务器解析域名变成IP地址,将IP地址返回给客户机2.客户机拿着DNS服务器返回的IP地址向服务器发送请求,服务再将被请求的页面返回给客户机3.DNS服务器的作用:解析域名地址,因为IP地址很难记,所有诞生了DNS服务器...原创 2020-07-09 21:48:16 · 152 阅读 · 0 评论 -
Python爬虫06--爬虫类型与工作流程
通用爬虫1.在整个互联网中进行爬取的爬虫2.又称搜索引擎爬虫聚焦爬虫1.针对特定网站进行爬取的爬虫原创 2020-07-08 22:43:14 · 101 阅读 · 0 评论 -
Python爬虫05--常见的请求方式与响应状态码
GET 与 POST请求方式GET:1.可在url地址中显示出来2.一般请求均可用GET,大部分时候都用GETPOST:1.无法在url中显示2.传输表单等要加密的文件3.提交大文件的时候常见状态码200:成功302:临时转移到新的url307:临时转移到新的url404:not found500:服务器内部错误...原创 2020-07-08 22:29:52 · 131 阅读 · 0 评论 -
Python爬虫04--Request Headers 中的内容代表啥
GET HTTP/1.1 # 请求方法Host: event.csdn.net # IP地址或者域名Connection: keep-alive # 使用长链接 / 想要复用上层链接 为了不用频繁的请求链接,加快响应速度Accept: */* # 能够接收的数据格式类型Origin: https://blog.csdn.net User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/...原创 2020-07-08 22:20:45 · 660 阅读 · 0 评论 -
Python爬虫04--url的形式(组成)
简易理解:一个网址/链接的组成部分形式:scheme:// host[:port#] / patch / ... [?query-string] [#anchor]scheme: 协议(例如:http,https,ftp)重要host:服务器的IP地址或者域名(例如:192.168.1.1 / www.baidu.com)port:服务器端口(协议默认端口:80 / 443)patch:被访问资源的路径query-string:参数,发送给HTTP服务器的数据(在url中一般以问号开原创 2020-07-08 21:56:03 · 221 阅读 · 0 评论 -
Python爬虫03--HTTP与HTTPS简介
HTTP:1.超文本传输协议:一种协议、约定2.默认端口号:80HTTPS:1. HTTP + SSL(安全套接字协议)2.默认端口号:4433.相比HTTP增加了加密等确保数据安全的功能注:HTTPS比HTTP更安全,但性能更低...原创 2020-07-05 23:44:15 · 101 阅读 · 0 评论 -
Python爬虫02--str与bytes之间的转换
str可以用encode的方法转化为bytes形式的字符串:注意:编码方式与解码方式必须一致,否则会出现乱码,encode()默认使用UTF-81.str可以使用encode()转化为bytes:2.bytes可以通过decode()转化为str:decode()中可以修改解码方式,如decode(gbk),可以将gbk的编码内容解码出来。3.如果编码解码形式不一样会出现乱码...原创 2020-07-05 23:23:12 · 569 阅读 · 0 评论 -
Python爬虫01字符串相关知识
ASCLL:使用1个字节表示1个字符,占用内存小,但是无法完全表示所有国家的字符,各个国家都有不同的编解码方式,使用困难Unicode:一律使用2个字节表示1个字符,占用内存大,几乎可以表示所有的字符,但内存占用大难以推广UTF-8:1.是Unicode的一种实现方式,可以理解为升级版Unicode,2.自动识别字符个数,可以用任意字节表示1个字符,并选取最小的字节3.使内存使用最优切能够表示所有字符...原创 2020-07-05 22:54:59 · 166 阅读 · 0 评论