Python爬虫
记录关于爬虫用到的知识
APRII2
这个作者很懒,什么都没留下…
展开
-
Python爬虫:XML路径语言(XPath)的使用笔记
如何使用XPathXPath是一门在XML文档中查找信息的语言。最初是用来搜寻XML文档的,但同样适用于HTML文档的搜索。在做爬虫时,可以使用XPath来做相应的信息抽取,几乎所有我们想要定位的节点都可以使用XPath来选择。1、XPath 常用规则XPath 常用规则 表达式 描述 nodeName 选取此节点的所有子节点 / 从...原创 2020-03-18 11:32:16 · 568 阅读 · 0 评论 -
Python爬虫:Python操作MySQL
1、导入PyMySQL数据库模块在导入之前,需要安装PyMySQL。使用pip安装,命令如下:pip3 install PyMySQL安装完成后,导入PyMySQL模块:import pymysql2、打开数据库使用connect方法打开数据库,方法参数可以为ip(host)、用户名(user)、密码(password)、数据库名称(db)、端口(port)和编码。...原创 2020-03-09 21:33:20 · 254 阅读 · 0 评论 -
Python爬虫:浅谈序列化操作
程序运行时,所有的变量都是在内存中的。程序一结束或意外中断,程序中的内存变量都会被操作系统进行回收。把内存中的变量变成可存储或可传输的过程,就是序列化。将内存中的变量序列化之后,可以把序列化后的内容写入磁盘,或者通过网络传输到别的机器上,实现程序状态的保存和共享。反过来,把变量内容从序列化的对象重新读取到内存,称为反序列化。在Python中提供了两个模块:cPickle和pickle来实现...原创 2020-03-07 22:02:59 · 375 阅读 · 0 评论 -
Python爬虫:win10下tesserocr库的安装过程详解
tesserocr是OCR识别库,通过扫描字符,将其形状翻译成文本。实质是tesseract的封装,用于识别各种各样的验证码。tesserocr库的安装步骤如下:【第一步】先下载tesseracttesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract///本人下载的是tesseract-ocr-setup-3.05.01-2...原创 2020-02-10 13:45:01 · 2049 阅读 · 2 评论 -
Python爬虫:获取网络图片并将其保存到本地的常用方法
爬取网络图片其实与爬取文本信息实质上没有太大的区别,在抓取网络图片的过程中主要需要确定网络图片的地址,图片的格式,图片的保存路径。假定某网络图片的网络地址是http://img.xshuma.com/201309/161539130907740379.jpg首先要对图片保存的命名方式进行设定,假设我要保存为161539130907740379.jpg,结合我之前分享过的关于字符串分割的博文...原创 2019-12-12 17:23:55 · 2657 阅读 · 1 评论 -
Python爬虫:urlopen中的url含有中文问题
问题描述:在使用urllib.request中的urlopen()函数的时候,url链接中含有中文字符,无法正常执行。配置详情:python3.x解决方法:使用urllib.parse中的quote()函数,将中文字符通过该函数进行url编码。示例:from urllib.parse import quotefrom urllib.request import ur...原创 2019-11-01 16:36:37 · 857 阅读 · 1 评论 -
Python爬虫:使用post请求方式发送JSON格式数据
问题描述:由于是python语言书写代码,数据类型与JSON的数据类型表示有一定的区别,其中需要进行数据类型的转换。配置详情:python3.x解决方法:假设要以POST的请求方式发送{ "imageUrl":o_data, "rowKey":"test"}这样的JSON数据给post_url地址:图1 post...原创 2019-09-29 15:53:30 · 4674 阅读 · 0 评论 -
Python IO编程:如何在指定目录创建文件夹与文本
在日常爬取数据的过程中,经常会碰到要保存信息的情况,如保存为txt文本,有时大量文件的保存还需要统一目录到某个文件夹,使用的频率很高,在此做点小总结。创建文件推荐使用open方法:#写法一:f = open('result.txt','w+',encoding='utf-8')with f: f.write(data)f.close()#写法二:with open...原创 2019-12-11 11:10:42 · 5641 阅读 · 0 评论 -
Python IO编程:对字典列表进行csv读写转换
在介绍如何进行csv读写的操作之前,务必先来了解一下csv是什么文件,以下是wikipedia关于csv的定义与应用:逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以...原创 2019-12-13 16:00:06 · 670 阅读 · 1 评论 -
Python IO编程:读取excel数据及读取示例
一、安装xlrd模块pip3 install xlrd二、模块方法介绍1、导入模块import xlrd2、打开excel文件excelFile = xlrd.open_workbook('fileName.xlsx')3、获取所有的工作表信息①获取所有工作表名称(字符串列表):excelFile.sheet_names()②获取工作表...原创 2020-02-20 23:11:05 · 702 阅读 · 0 评论