Python爬取晋江文学城积分总榜的小说标题、作者及标签

因为数据库作业需要爬取晋江的数据,本着不写白不写的原则分享一下爬取过程

1.import需要用到的库

import requests
import pandas as pd
from lxml import etree
import openpyxl

这里的requests用于获取网页的内容,返回值为html格式,etree用于对requests获得的数据进行处理,pandas库在后面格式化保存数据要用到

2.使用requests.get()获取网页数据

这里我爬取的是积分总榜,网页为https://www.jjwxc.net/topten.php?orderstr=7&t=2

url='https://www.jjwxc.net/topten.php?orderstr=7&t=2'
r=requests.get(url)
print(r.status_code)
#r.status_code=200说明服务器成功返回网页
#由于默认html编码格式为‘utf-8’,而晋江的编码为‘gb18030’,故要对爬取的数据进行解码
rt=r.content.decode('gb18030')
et=etree.HTML(rt)#这里使用etree

3.在爬取的数据中选择我们所需要的内容

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值