python 使用xpath/lxml爬取网页表格并存CSV

最新推荐文章于 2024-08-18 22:49:52 发布

偷一个月亮

最新推荐文章于 2024-08-18 22:49:52 发布

阅读量3.8k

点赞数 2

分类专栏： Python 文章标签： python lxml xpath

本文为博主原创文章，未经博主允许不得转载，否则追究法律责任。

本文链接：https://blog.csdn.net/yiqiushi4748/article/details/104775316

版权

本文介绍了如何利用Python的lxml库和xpath语法爬取网页表格数据，并成功保存为CSV文件。在爬取过程中，遇到了因用户名包含emoji导致的错误，但通过查阅资料解决了问题。

摘要由CSDN通过智能技术生成

0x01 网页表格样式

在这里插入图片描述

0x02 爬取代码

# -*- coding: utf-8 -*-#

#-------------------------------------------------------------------------------
# Name:         test
# Author:       Negoowen
# Date:         2020/3/9
__Author__ = 'Negoo_wen'
#-------------------------------------------------------------------------------
import requests
import csv
from lxml import etree
from fake_useragent import UserAgent


ua = UserAgent().random
headers = {
   
    'User-Agent':ua
}
def main():
    try:
        for page