yuehua268-CSDN博客

原创 Python爬虫学习记录（4）

5.1 文件存储文件存储包括txt, json, csv 等形式。 TXT操作十分简单，兼容所有平台，但是有一个缺点那就是不利于检索。常用写法是with as语法。 JSON是通过对象和数组的形式表示数据，构造简单但是结构化程度非常高。对象：它在JavaScript中是使用花括号{}包裹起来的内容，数据结构是键值对形式。键名可以使用整数和字符串形式。值的类型可以是任意形式。数组：数组使用方括号包裹起来的内容。主要使用索引形式，值的类型可以是任

2022-06-01 13:21:02 82

原创 Python爬虫学习记录（3）

继续进行书的第四章上一章中，作者在实现抓取页面爬取时使用的是正则表达式，但是比较复杂。本章介绍就是一些解析库可以更简单的实现抓取页面。 4.1 使用Xpath 常用方法 etree.HTML etree.tostring () 输出修正后的HTML代码，但是结果是bytes形式 html.xpath()获取响应的路径子节点父节点属性获取都比较简单不再赘述文本获取：如果想要获取子孙节点内部的所有文本，可以直接用//加text()的方式。这样可以保证获取得到最全面的文本信息。但是可..

2022-05-30 18:42:55 58

原创 Python爬虫学习记录（2）

《Python3 网络爬虫实践》第三章学习笔记

2022-05-18 16:14:29 129

原创 Python爬虫学习记录（1）

《Python3 网络爬虫实践》读书笔记第二章

2022-05-15 21:15:41 265

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人