![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫笔记
Fo*(Bi)
正在学习编程的“小学生”,啥也不会的技术渣。
展开
-
Python爬虫笔记——logging日志函数的使用
logging官网介绍python logging 日志使用原创 2020-08-28 09:20:06 · 1296 阅读 · 0 评论 -
Python爬虫笔记——记录一个python大佬的网站
猿人学Python教你挣钱的Python教程网站原创 2020-08-26 17:27:45 · 190 阅读 · 0 评论 -
Python爬虫笔记——多线程(threading)传参
参考文章:Python多线程3 多线程的传参与返回值BBJG_001的博客——多线程学习网站:莫烦Python学习别人的经验:在主线程用一个变量或者直接输出就能获取或使用函数中return的值。但是在多线程中,可以这么理解,多线程之间的变量空间是互相隔绝的,所以return是不能把值返回到主进程的,只能在所在的线程使用,线程结束,值所在空间也就被释放了。所以,多线程之间需要一个更加全局性的存储器来保存所有线程之间的值,这里使用queue(队列)来完成这项工作。什么是队列?简单介绍一下队列,队原创 2020-08-21 19:49:16 · 3979 阅读 · 0 评论 -
Python——随机生成16位整数
import randomstr = ''a=str.join(random.choice("0123456789") for i in range(16))print(a)运行结果:3467280847375182原创 2020-08-20 14:53:33 · 4269 阅读 · 0 评论 -
Python爬虫笔记——python3.7安装Scrapy
python3.7安装Scrapy----2019史上最牛逼的scrapy的安装教程转载 2020-08-18 11:48:45 · 149 阅读 · 0 评论 -
Python爬虫笔记——分析AJAX传递的JSON获取数据-初步分析动态网页
转载文章链接:Python爬虫:分析AJAX传递的JSON获取数据-初步分析动态网页(1)【4】实战:爬取动态网页的两种思路爬取新浪趣图(1)【5】实战:爬取动态网页的两种思路爬取新浪趣图(2)原创 2020-08-11 10:00:52 · 365 阅读 · 0 评论 -
Python爬虫笔记——Url解码时,如何将汉字转化为以 %开头的 gb2312 编码 和 将以%号开头的编码转化为汉字 的示例
参考的链接:Url解码时,如何将汉字转化为以 %开头的 gb2312 编码Python标准库urllib中parse.quote()Python之quote()使用python之urlencode(),quote()及unquote()将汉字转化为以 %开头的 gb2312 编码我的代码如下:将以%号开头的编码转化为汉字(python3)import urllib.parsecity_li = ['北京','上海']citys = []for city in city_li: ci原创 2020-08-10 15:06:17 · 1708 阅读 · 0 评论 -
爬虫常useragents(记录一下以备后用)
爬虫常useragents(记录一下以备后用)转载 2020-08-05 09:12:46 · 189 阅读 · 0 评论 -
Python爬虫笔记——多协程gevent()
1. 同步爬取时光网Top100利用requests和bs4模块就行了import requests from bs4 import BeautifulSoupimport timestart=time.time()headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.3原创 2020-08-04 19:12:52 · 495 阅读 · 2 评论 -
Python爬虫笔记——自动化操作pyautogui
转载文章链接:PyAutoGUI 简介【转】pyautogui (一)原创 2020-07-29 08:23:54 · 393 阅读 · 0 评论 -
Python爬虫笔记——def()自定义函数的几种参数
Python自定义函数是以def开头,空一格之后是这个自定义函数的名称,名称后面是一对括号,括号里放置形参列表,结束括号后面一定要有冒号“:”,函数的执行体程序代码也要有适当的缩排。Python自定义函数的通用语法是:def function_name(parameters): function_expression return(result)1、使用lambda匿名函数的自定义函数:Python提供了一种非常有趣、精简好用的一行自定义函数的方法lambda,这是一种可以实现一行语原创 2020-07-26 11:05:25 · 2774 阅读 · 0 评论 -
Python爬虫笔记——字符串的常用方法
字符串的常用方法:方法使用说明string[start : end : step]字符串的切片string.replace(oldstr, newstr)字符串的替换strinf.split字符串的分割sep.join将可迭代对象按sep分隔符拼接为字符串string.strip删除首尾空白string.lstrip删除字符串左边空白string.rstrip删除字符串右边空白string.count对字符串的子串计数st原创 2020-07-25 13:04:02 · 551 阅读 · 0 评论 -
Python爬虫笔记——关于【时间】的模块
python初步学习-import和datetime模块python 每天在指定【时间段】运行程序及关闭程序python每天固定时间运行某程序代码原创 2020-07-24 09:06:58 · 221 阅读 · 0 评论 -
Python爬虫笔记——python3之Splash
python3之Splash转载 2020-07-23 13:48:38 · 360 阅读 · 0 评论 -
Python爬虫笔记——Ajax简介
有时候我们在用requests抓取页面的时候,得到的结果可能和在浏览器中看到的不一样,在浏览器中可以看到正常显示的页面数据,但是使用requests得到的结果并没有。这是因为requests获取的都是原始的HTML文档,而浏览器中的页面则是经过JavaScript处理数据后生成的结果,这些数据的来源有多种,可能是通过ajax加载的,可能是包含在HTML文档中的,也可能是经过JavaScript和特定算法计算后生成的。对于第一种情况,数据加载是一种异步加载方式,原始的页面最初不会包含某些数据,原始页面加原创 2020-07-22 08:52:59 · 264 阅读 · 0 评论 -
Python爬虫笔记——PyQuery用法详解
转载链接如下:PyQuery用法详解转载 2020-07-21 19:34:11 · 171 阅读 · 0 评论 -
Python爬虫笔记——python中yield的用法详解——最简单,最清晰的解释
python中yield的用法详解——最简单,最清晰的解释转载 2020-07-21 11:42:50 · 1103 阅读 · 0 评论 -
这可能是你见过的最全的网络爬虫总结
这可能是你见过的最全的网络爬虫总结转载 2020-07-20 14:09:21 · 285 阅读 · 0 评论 -
Python爬虫笔记——随机函数(random,uniform,randint,randrange,shuffle,sample)
python–随机函数(random,uniform,randint,randrange,shuffle,sample)原创 2020-07-17 14:22:04 · 995 阅读 · 0 评论 -
Python爬虫笔记——经典python-selenium浏览器自动化小练习
转载文章:options = webdriver.ChromeOptions()无弹窗经典python-selenium小练习转载 2020-07-14 11:28:28 · 262 阅读 · 0 评论 -
Python爬虫笔记——xpath的contains用法
xpath(’//div[contains(@class,“a”) and contains(@class,“b”)]’) #它会取class含有有a和b的元素xpath(’//div[contains(@class,“a”) or contains(@class,“b”)]’) #它会取class 含有 a 或者 b满足时,或者同时满足时的元素starts-with 顾名思义,匹配一个属性开始位置的关键字contains 匹配一个属性值中包含的字符串text() 匹配的是显示文本信息,此处也可以原创 2020-07-13 16:14:25 · 4889 阅读 · 1 评论 -
Python爬虫笔记——解决python 写入文件中文乱码问题
原链接:python 爬虫写入文件中文乱码问题解决分析过程根据网上的一些建议,将文件的打开编码改为 utf-8 ,结果跟本不起作用奇怪的是用notepad 打开 csv 文件竟然显示正常,看来是excel 默认编码的问题解决思路:修改excel 打开csv 文件的编码(可能会影响其它文件的打开,不作为首选方式)修改python 打开文件的编码 utf-8 -> utf-8-sig修改前的编码f=open(filename,‘w’,encoding=‘utf-8’)修改后的编码f=转载 2020-07-07 10:28:09 · 1002 阅读 · 0 评论 -
Python爬虫笔记——一份详细的asyncio入门教程
一份详细的asyncio入门教程转载 2020-07-06 09:11:52 · 276 阅读 · 0 评论 -
Python爬虫笔记——多协程(gevent and queue)
1、爬取8个网站(包括百度、新浪、搜狐、腾讯、网易、爱奇艺、天猫、凤凰)。用多协程来爬取。from gevent import monkey#从gevent库里导入monkey模块。monkey.patch_all()#monkey.patch_all()能把程序变成协作式运行,就是可以帮助程序实现异步。import gevent,time,requests#导入gevent、time、requests。start = time.time()#记录程序开始时间。url_list = [原创 2020-07-05 09:51:57 · 990 阅读 · 0 评论 -
Python爬虫笔记——多线程,多进程,分布式爬虫,一文说透
多线程,多进程,分布式爬虫,一文说透转载 2020-07-05 00:04:04 · 581 阅读 · 0 评论 -
Python爬虫笔记——Pycharm的官网下载与安装教程
PyCharm 又分为专业版(professional)和社区版(community),社区版更轻量级且免费、开源。初学者下载Community版足矣。下面是两种Pycharm的安装教程链接:JetBrainsPyCharm下载安装教程PyCharm Community安装与配置...转载 2020-07-04 07:50:03 · 982 阅读 · 0 评论 -
记录我的操作——从本地Git仓库传文件到gitee云仓库
一、已有本地仓库原创 2020-07-02 18:21:30 · 420 阅读 · 0 评论 -
github新手使用指南
原文章链接:github新手使用指南转载 2020-07-02 17:31:45 · 203 阅读 · 0 评论 -
Python爬虫笔记——if __name__ == ‘__main__‘ 如何正确理解和__init__和self 的解析
Python中if name == ‘main’:的作用和原理Python中if name == ‘main’,__init__和self 的解析原创 2020-07-02 15:21:21 · 290 阅读 · 0 评论 -
Python爬虫笔记——正则表达式
一、python中的正则——re模块1、简介正则表达式本身是一种小型的、高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序员们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行。2.正则表达式中常用的字符含义2.1 普通字符和11个元字符:这里需要强调一下反斜杠\的作用:反斜杠后边跟元字符去除特殊功能;(即将特殊字符转义成普通字符)反斜杠后边跟普通字符实现特殊功能;(即预定义字符)引用序号对应的字组所匹配的字符串。a=原创 2020-07-01 07:47:53 · 612 阅读 · 1 评论 -
Python爬虫笔记——post请求、cookies及session
一、post请求post和get都可以带着参数请求,不过get请求的参数会在url上显示出来,但post请求的参数就不会直接显示,而是隐藏起来。像账号密码这种私密的信息,就应该用post的请求。如果用get请求的话,账号密码全部会显示在网址上,这显然不科学!你可以这么理解,get是明文显示,post是非明文显示。get请求会应用于获取网页数据,比如我们之前学的requests.get()。post请求则应用于向网页提交数据,比如提交表单类型数据(像账号密码就是网页表单的数据)。requests.post原创 2020-06-30 08:25:15 · 7942 阅读 · 0 评论 -
Python爬虫笔记——存储数据的基础知识(Csv、Excel)
存储成csv格式文件和存储成Excel文件,这两种不同的存储方式需要引用的模块也是不同的。操作csv文件我们需要借助csv模块;操作Excel文件则需要借助openpyxl模块。一、CSVimport csv#引用csv模块。csv_file = open('demo.csv','w',newline='',encoding='utf-8')#创建csv文件,我们要先调用open()函数,传入参数:文件名“demo.csv”、写入模式“w”、newline=''、encoding='utf-8'.原创 2020-06-28 11:37:24 · 975 阅读 · 0 评论 -
Python爬虫笔记——解析json数据(以周杰伦歌单为例)及Headers
一、NetworkNetwork能够记录浏览器的所有请求。我们最常用的是:ALL(查看全部)/XHR(仅查看XHR)/Doc(Document,第0个请求一般在这里),有时候也会看看:Img(仅查看图片)/Media(仅查看媒体文件)/Other(其他)。最后,JS和CSS,则是前端代码,负责发起请求和页面实现;Font是文字的字体;而理解WS和Manifest,需要网络编程的知识,倘若不是专门做这个,则不需要了解。在Network,有非常重要的一类请求是XHR(或Fetch),因为有它的存在,人们不原创 2020-06-27 22:29:26 · 2044 阅读 · 0 评论 -
Python爬虫笔记——BeautifulSoup模块
Target:学会用BeautifulSoup解析和提取网页中的数据。【解析数据】:把服务器返回来的HTML源代码翻译为我们能看懂的样子。【提取数据】:是指把我们需要的数据从众多数据中挑选出来。由于BeautifulSoup不是Python标准库,需要单独安装它:1、win+r2、cmd3、pip install BeautifulSoup4。(Mac电脑需要输入pip3 install BeautifulSoup4)4、安装好就可以使用了。【解析数据】BeautifulSoup解析数据的原创 2020-06-22 22:55:34 · 400 阅读 · 0 评论 -
Python爬虫笔记——HTML基础认识
HTML标签是可以嵌套标签的,而且可以多层嵌套;这就像是在电脑中,一个硬盘可以包含数个文件夹,文件夹中还可以嵌套文件夹。HTML文档的最外层标签一定是,里面嵌套着元素与元素。元素代表了【网页头】,元素代表了【网页体】,这是最基本的网页结构。HTML文档和网页的内容一定是一一对应的。只是,【网页头】的内容不会被直接呈现在浏览器里的网页正文中,而【网页体】的内容是会直接显示在网页正文中的。从HTML文档中,可以看到很多夹在尖括号<>中间的字母,它们叫做【标签】。标签通常是成对出现的:前面.原创 2020-06-22 12:42:50 · 196 阅读 · 0 评论 -
python爬虫笔记——可爬与不可爬
通常情况下,服务器不太会在意小爬虫,但是,服务器会拒绝频率很高的大型爬虫和恶意爬虫,因为这会给服务器带来极大的压力或伤害。服务器在通常情况下,对搜索引擎是欢迎的态度(因为谷歌和百度的核心技术之一就是爬虫)。当然,这是有条件的,而这些条件会写在Robots协议。#Robots协议是互联网爬虫的一项公认的道德规范,它的全称是“网络爬虫排除标准”(Robots exclusion protocol),这个协议用来告诉爬虫,哪些页面是可以抓取的,哪些不可以。如何查看网站的robots协议呢,很简单,在网站的域原创 2020-06-21 12:37:19 · 2397 阅读 · 0 评论 -
Python爬虫笔记——爬虫基础第一课
爬虫的四个步骤0.获取数据——爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据。1.解析数据——爬虫程序会把服务器返回的数据解析成我们能读懂的格式。2.提取数据——爬虫程序再从中提取出我们需要的数据。3.储存数据——爬虫程序把这些有用的数据保存起来。获取数据——requests库requests库可以帮我们下载网页源代码、文本、图片甚至是音频。“下载”本质上是向服务器发送请求并得到响应。函数:requests.get()requests.get(‘URL’)#res = re原创 2020-06-21 12:27:20 · 331 阅读 · 0 评论