Wudqoe-CSDN博客

原创《Python3网络爬虫开发实战》-第4章数据的存储之TXT文本文件存储/JSON文件存储/CSV存储

它比Excel文件更加简洁，XLS文本是电子表格，包含文本、数值、公式和格式等内容，CSV中则不包含这些，就是以特定字符作为分隔符的纯文本，结构简单清晰。在面向对象的语言中，key表示对象的属性、value表示属性对应的值，前者可以使用整数和字符串表示，后者可以是任意类型。同样，它的值可以是任意类型。这里首先打开data.csv文件，然后指定打开的模式为w(即写入),获得文件句柄，随后调用csv库的writer方法初始化写入对象，传入该句柄，然后调用writerow方法传入每行的数据，这样便完成了写入。

2024-05-15 21:55:31 1041

原创《Python3网络爬虫开发实战》-第3章网页数据的解析提取之pyquery的使用

解释说明：这里我们初始化PyQuery对象之后，传入了一个CSS选择器#container .list li,它的意思是先选取id为container的节点，再选取其内部class为list的节点内部的所有li节点，然后打印输出。这里的父节点是指直接父节点，也就是说，parent方法不会继续查找父节点的父节点，即祖先节点。解释说明：结果返回html方法返回的是第一个1i节点内部的HTML文本，而text返回了所有的1i节点内部的纯文本，各节点内容中间用一个空格分割开，即返回结果是一个字符串。

2024-05-06 21:14:20 983 1

原创《Python3网络爬虫开发实战》第3章网页数据的解析获取之Beautiful Soup的使用

例如，要查询id为list-1的节点，就可以传人attrs={'id':'list-1'}作为查询条件，得到的结果是列表形式，列表中的内容就是符合id为list-1这一条件的所有节点。除了find_all方法，还有find方法也可以查询符合条件的元素，只不过find方法返回的是单个元素，也就是第一个匹配的元素，而find_all会返回由所有匹配的元素组成的列表。在做选择的过程中，有时不能一步就选到想要的节点，需要先选中某一个节点，再以它为基准选子节点、父节点、兄弟节点等，下面就介绍一下如何选择这些节点。

2024-04-27 22:46:17 1012 1

原创《Python3网络爬虫开发实战》第3章网页数据的解析提取之XPath的使用

因此要确定li节点，需要同时考察class和name属性，一个条件是class属性里面包含li字符串，另一个条件是name属性为item字符串，这二者同时得到满足，才是li节点。这里我们使用*匹配，所以获取了所有的后续同级节点。第三次选择时，调用了attribute轴，可以获取所有属性值，其后跟的选择器还是*,代表获取节点的所有属性，返回值就是li节点的所有属性值。如果想获取某些特定子孙节点下的所有文本，则可以先选取特定的子孙节点，再调用text方法获取其内部的文本，这样可以保证获取的结果的整洁性。

2024-04-25 22:29:36 1121 1

原创《python3网络爬虫开发实战》第2章基本库的使用之正则表达式的基本用法

注明：group（1）与group（）有所不同,后者会输出完整的匹配结果,前者会输出第一个被（）包围的匹配结果.假如正则表达式后面还有用（）包围的内容,那么可以依次用group（2）、group（3）等获取.该方法的第一个参数是正则表达式，但是这里没有必要重复写3个同样的正则表达式，此时就可以借助compile方法将正则表达式编译成一个正则表达式对象，以便复用。sub方法的第一个参数中传入\d+以匹配所有的数字，往第二个参数中传入把数字替换成的字符串(如果去掉该参数，可以赋值为空),第三个参数是原字符串。

2024-02-27 22:58:49 862

原创《Python3网络爬虫开发开发实战》学习笔记-第2章基本库的使用之requests库的基本使用

response =requests.get('https://ssr2.Scrape.center/',cert=('/path/server.crt','/path/server.key'))#可以是单个文件(包含密钥和证书)或一个包含两个文件路径的元组。为了防止服务器不能及时响应，可设置一个超时时间，如果超过这个时间还没有得到响应，就报错。'http':'http://10.10.10.10:1080','https':'http://10.10.10.10:1080',}#需要找有效的代理替换。

2024-02-21 21:40:32 916

原创《python3网络爬虫开发实战》学习笔记-第2章基本库的使用之urllib库的request、error、parse、robotparser模块的基本用法

（1）urlopen的使用#示例print（response.read().decode('utf-8'))#输出网页源代码print(type(response))#返回响应的类型print(response.status)#获取状态信息print(response.getheaders())#获取请求头print(response.getheader('Server'))#获取调用getheader方法，并获取了响应头中Server的值1）urlopen的使用方法。

2024-02-19 23:04:32 652 1

原创《python3网络爬虫开发实战》学习笔记（一）-第1章爬虫基础

爬虫就是获取网页并提取和保存信息的自动化程序。实现原理如下：第一步，获取网页。关键在于构造请求并发送给服务器。利用urlliib、request库实现。解析数据结构中的body部分获取网页源代码。第二步，提取信息。分析源代码，提取数据。通常用正则表达式或者利用Beautiful Soup、pyquery、lxml库实现。第三步，保存数据。可保存为TXT文本或JSON文本’也可以保存到数据库’如MySQL和MongoDB等。

2024-02-18 22:51:57 1424 1

略