自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(8)
  • 收藏
  • 关注

原创 《Python3网络爬虫开发实战》-第4章 数据的存储之TXT文本文件存储/JSON文件存储/CSV存储

它比Excel文件更加简洁,XLS文本是电子表格,包含文本、数值、公式和格式等内容,CSV中则不包含这些,就是以特定字符作为分隔符的纯文本,结构简单清晰。在面向对象的语言中,key表示对象的属性、value表示属性对应的值,前者可以使用整数和字符串表示,后者可以是任意类型。同样,它的值可以是任意类型。这里首先打开data.csv文件,然后指定打开的模式为w(即写入),获得文件句柄,随后调用csv库的writer方法初始化写入对象,传入该句柄,然后调用writerow方法传入每行的数据,这样便完成了写入。

2024-05-15 21:55:31 1005

原创 《Python3网络爬虫开发实战》-第3章 网页数据的解析提取之pyquery的使用

解释说明:这里我们初始化PyQuery对象之后,传入了一个CSS选择器#container .list li,它的意思是先选取id为container的节点,再选取其内部class为list的节点内部的所有li节点,然后打印输出。这里的父节点是指直接父节点,也就是说,parent方法不会继续查找父节点的父节点,即祖先节点。解释说明:结果返回html方法返回的是第一个1i节点内部的HTML文本,而text返回了所有的1i节点内部的纯文本,各节点内容中间用一个空格分割开,即返回结果是一个字符串。

2024-05-06 21:14:20 965 1

原创 《Python3网络爬虫开发实战》第3章 网页数据的解析获取之Beautiful Soup的使用

例如,要查询id为list-1的节点,就可以传人attrs={'id':'list-1'}作为查询条件,得到的结果是列表形式,列表中的内容就是符合id为list-1这一条件的所有节点。除了find_all方法,还有find方法也可以查询符合条件的元素,只不过find方法返回的是单个元素,也就是第一个匹配的元素,而find_all会返回由所有匹配的元素组成的列表。在做选择的过程中,有时不能一步就选到想要的节点,需要先选中某一个节点,再以它为基准选子节点、父节点、兄弟节点等,下面就介绍一下如何选择这些节点。

2024-04-27 22:46:17 979 1

原创 《Python3网络爬虫开发实战》第3章 网页数据的解析提取之XPath的使用

因此要确定li节点,需要同时考察class和name属性,一个条件是class属性里面包含li字符串,另一个条件是name属性为item字符串,这二者同时得到满足,才是li节点。这里我们使用*匹配,所以获取了所有的后续同级节点。第三次选择时,调用了attribute轴,可以获取所有属性值,其后跟的选择器还是*,代表获取节点的所有属性,返回值就是li节点的所有属性值。如果想获取某些特定子孙节点下的所有文本,则可以先选取特定的子孙节点,再调用text方法获取其内部的文本,这样可以保证获取的结果的整洁性。

2024-04-25 22:29:36 1091 1

原创 《python3网络爬虫开发实战》第2章 基本库的使用之正则表达式的基本用法

注明:group(1)与group()有所不同,后者会输出完整的匹配结果,前者会输出第一个被()包围的匹配结果.假如正则表达式后面还有用()包围的内容,那么可以依次用group(2)、group(3)等获取.该方法的第一个参数是正则表达式,但是这里没有必要重复写3个同样的正则表达式,此时就可以借助compile方法将正则表达式编译成一个正则表达式对象,以便复用。sub方法的第一个参数中传入\d+以匹配所有的数字,往第二个参数中传入把数字替换成的字符串(如果去掉该参数,可以赋值为空),第三个参数是原字符串。

2024-02-27 22:58:49 854

原创 《Python3网络爬虫开发开发实战》学习笔记-第2章 基本库的使用之requests库的基本使用

response =requests.get('https://ssr2.Scrape.center/',cert=('/path/server.crt','/path/server.key'))#可以是单个文件(包含密钥和证书)或一个包含两个文件路径的元组。为了防止服务器不能及时响应,可设置一个超时时间,如果超过这个时间还没有得到响应,就报错。'http':'http://10.10.10.10:1080','https':'http://10.10.10.10:1080',}#需要找有效的代理替换。

2024-02-21 21:40:32 893

原创 《python3网络爬虫开发实战》学习笔记-第2章 基本库的使用之urllib库的request、error、parse、robotparser模块的基本用法

(1)urlopen的使用#示例print(response.read().decode('utf-8'))#输出网页源代码print(type(response))#返回响应的类型print(response.status)#获取状态信息print(response.getheaders())#获取请求头print(response.getheader('Server'))#获取调用getheader方法,并获取了响应头中Server的值1)urlopen的使用方法。

2024-02-19 23:04:32 637 1

原创 《python3网络爬虫开发实战》学习笔记(一)-第1章 爬虫基础

爬虫就是获取网页并提取和保存信息的自动化程序。实现原理如下:第一步,获取网页。关键在于构造请求并发送给服务器。利用urlliib、request库实现。解析数据结构中的body部分获取网页源代码。第二步,提取信息。分析源代码,提取数据。通常用正则表达式或者利用Beautiful Soup、pyquery、lxml库实现。第三步,保存数据。可保存为TXT文本或JSON文本’也可以保存到数据库’如MySQL和MongoDB等。

2024-02-18 22:51:57 1417 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除