Python爬虫数据存储之TXT文本

本文介绍了Python爬虫如何将数据存储为TXT文本,包括TXT文本的兼容性和局限性,以及open()方法的不同打开模式,如追加、读写等。通过实例展示了如何保存和写入数据到TXT文件。
摘要由CSDN通过智能技术生成

前言:获取数据后可以选择多种存储方式,可以是TXT纯文本形式,也可以为JSON格式、CSV格式等。TXT文本几乎兼容任何平台,但不利于检索的缺点也暴露无遗。若是对检索和数据结构的要求不高,追求方便的情况下可以采用TXT文本存储。

参考:《Python3网络爬虫开发实战-崔庆才》

一,实例

保存知乎上“法线页面的‘热门话题”部分,将其问题和答案统一保存成文本形式。

思路:

1. 使用requests将网页源代码获取下来
2. 使用pyquery解析库解析
3. 提取标题、回答者、回答保存为文本

code:

'''
 以知乎为例
    1. 使用requests将网页源代码获取下来
    2. 使用pyquery解析库解析
    3. 提取标题、回答者、回答保存为文本
'''

import requests
from pyquery import PyQuery as pq

url = 'https://www.zhihu.com/explore'
headers = {
    'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
}
html = requests.get(url,headers=headers).text
doc = pq(html)
items = doc('.explore-tab .feed-item').items()   # 遍历
for item in items:
    question = item.find('h2').text()
    a
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值