requests模块爬取糗事百科用xpath解析

本文介绍了使用Python的requests模块结合xpath解析爬取糗事百科的流程,包括定义URL、设置headers、请求数据、解析数据、提取信息及持久化保存。在爬取过程中,作者遇到并解决了中文乱码和CSV文件空行的问题,提供了相应的解决策略。
摘要由CSDN通过智能技术生成

爬虫流程

  1. 定义url,伪造headers
  2. 请求数据
  3. 解析数据
  4. 提取数据
  5. 持久化保存

实例

import requests
from lxml import etree
import time
import csv

# 1,定义url,伪造headers
url = "https://fm.qq.com/category/39087_38979"
headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36"
}

# 2,请求数据
response = requests.get(url=url,headers=headers).text
# 3,解析数据
tree = etree.HTML(response)
html_li = tree.xpath('//*[@id="j-album-list"]/li')

with open('糗百.csv', 'w', encoding='gbk', newline='') as f:         # 创建文件对象(指定文件名,模式,编码方式)
    csv_writer = csv.writer(f)                      # 基于文件对象构建 csv写入对象
    csv_writer.writerow(["标题", &#
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值