![](https://img-blog.csdnimg.cn/20190918140053667.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Python爬虫学习
文章平均质量分 67
一份粗糙的python爬虫入门教程
不会学习的小菜鸡
任何时候都不要放弃自己
展开
-
不要随意更改subprocess.py文件
事情起因,由于写爬虫的时候为了不去花时间仿写js加密,就把js加密相关的代码拷贝过来,使用python执行js,使用了PyExecJS模块,但发现一个问题,编码出现问题了,后来百度了说是把subprocess.py文件里的encoding=None改为encoding=“utf-8”,改了后确实可以正常运行。后来,在使用pyinstaller打包的时候,发现又是编码问题,改回来后就正常了。...原创 2022-03-08 19:02:00 · 876 阅读 · 0 评论 -
提高爬虫效率之python并发编程
python并发编程分为三个方向,分别是 多进程,多线程,多协程 。根据具体情况选择具体的方式,能提高程序的速度。三种类别的对比多进程优点:可以利用多个CPU并行运算(多核计算机)缺点:占用的资源最多,可启动的数目比线程少适用于:CPU密集型计算(使用CPU较多,IO较少)多线程优点:相比进程,更轻量级,占用资源少缺点:相比进程:多线程只能并发执行,不能利用多个CPU (GIL)相比协程:启动数目有限制,占用内存资源,有线程切换的开销适用于:IO密集型计算,同事运行原创 2021-07-19 09:53:08 · 279 阅读 · 0 评论 -
基本的sql语句
数据库的操作创建数据库create database 数据库名;删除数据库drop database 数据库名;表的操作创建数据表create table 表名称(列名称1 数据类型,列名称2 数据类型,列名称3 数据类型,....)数据类型描述integer(size) int(size) smallint(size) tinyint(size)仅容纳整数。在括号内规定数字的最大位数。decimal(size,原创 2021-07-19 09:48:26 · 95 阅读 · 0 评论 -
存储模块之mysql数据库
pymysql的安装 pip install pymysql连接数据库连接需要:数据库地址(本地就是localhost),用户名,密码,数据库名db = pymysql.connect(host="地址", user="用户名", password="密码", database="数据库名", charset='编码'),创建一个数据库连接对象cusor = db.cursor() , 创建一个游标对象cursor.execute('sql语句'), 使用SQL语句对数据库进行原创 2021-07-19 09:46:57 · 156 阅读 · 0 评论 -
提取信息之Xpath模块
XPath (XML Path Language)是一门在 HTML\XML 文档中查找信息的语言,可用来在 HTML\XML 文档中对元素和属性进行遍历。在Python爬虫中,我们可以利用 XPath 快速地定位 HTML\XML 响应中的特定元素以及获取节点的信息,并且通常情况下会比使用正则表达式提取更简单而且更高效。导入xpath我们使用的xpath在模块lxml.etree里面from lxml import etree例子HTML<html> <head>转载 2021-07-19 09:44:23 · 148 阅读 · 0 评论 -
请求方式之二----requests模块
requests是相对于urllib跟简单的请求库,完成请求的步骤简单,能加快开发效率安装模块 pip install requestsGET请求 使用**.get()发送get请求,同理,也有.post()**,.put(),.delete(),.head(),.options()这些请求类型import requestsurl = "http://www.baidu.com"response = requests.get(url)print(response.content.原创 2021-07-19 09:42:00 · 122 阅读 · 0 评论 -
储存模块之JSON
JSON(JavaScript Object Notation, JS 对象简谱) 是一种轻量级的数据交换格式。它基于 ECMAScript (欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。作为当前主流的数据传输格式,在他横空出世之前,网页上的数据传输是使用的XML的方式,而他一出现就广受欢迎。实际上 json的格式和 pyth原创 2021-07-19 09:40:10 · 71 阅读 · 0 评论 -
储存模块之CSV
csv模块也是一个python的内置模块,该模块处理的是csv文件的读取和存档csv模块中的reader类和writer类可用于读写序列化的数据。也可使用DictReader类和DictWriter类以字典的形式读写数据。这个我们仅使用后面两个类csv.rader(fq)该函数读取文件csv文件,fq为csv文件对象,返回的是一个reader对象(迭代器),具体用法如下:import csv# 读取csv文件with open("1.csv", "r") as f: text =原创 2021-07-19 09:39:10 · 155 阅读 · 0 评论 -
使用BeatifulSoup模块提取信息
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.前提准备 需要安装beautifulsoup4和lxml: pip install beautifulsoup4 pip install lxml创建BeautifulSoup对象导入beautifuosoupfrom bs4 import BeautifulSo原创 2021-07-19 09:36:48 · 287 阅读 · 0 评论 -
urllib模块的使用
在python2中有urllib和urllib2两个库来实现发送请求,而在python3中,将这两个库统一为一个urllib库了。主要分为一下四个功能模块:requests (请求)error (异常处理)parse (url解析)robotparser(识别robots.txt文件【告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的】)1. urllib.request请求方法一共有8种,包括: GET, HEAD,原创 2021-07-19 09:33:21 · 236 阅读 · 0 评论 -
爬虫的认识
爬虫简介什么是爬虫?爬虫全称网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。为什么写爬虫?爬虫的目的就是为了方便我们大量的,自动化的获取web页面的信息。比如,我们想要下载百度图库的“爬虫”图片:如果下载几张十几张完全可以直接右键另存为,但当我们想要下载几百甚至几千张时,你的手一定会很痛苦。这个时候就可以写个爬虫,速度快多了,也解放了双手,何乐而不为呢?python写爬虫有哪些优势?很多原创 2021-07-19 09:30:20 · 710 阅读 · 0 评论