糗事百科爬虫

最新推荐文章于 2024-11-02 12:07:54 发布

段渣渣

最新推荐文章于 2024-11-02 12:07:54 发布

阅读量187

点赞数

分类专栏：爬虫文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoduan_/article/details/80835238

版权

爬虫专栏收录该内容

5 篇文章 0 订阅

订阅专栏

版权声明：未经允许，随意转载，请附上本文链接谢谢（づ￣3￣）づ╭❤～
https://blog.csdn.net/xiaoduan_/article/details/80835238

糗事百科爬虫

不怎么看糗事百科，用来试一下PyQuery选择器还是好的

import requests
from lxml import etree
import time
from pyquery import PyQuery
import pandas as pd

def get_data(page):
    text_data = []
    for i in range(1, page + 1):
        url = 'https://www.qiushibaike.com/text/page/{}/'.format(i)
        print("正在爬去第{}页\n".format(i))
        print(time.strftime("%Y-%m-%d %H:%M:%S", time.localtime()))
        r = requests.get(url)
        s = etree.HTML(r.text)
        jpy = PyQuery(s)
        data = jpy('#content-left > div > a >div > span').text()
        text_data.append(data)
        time.sleep(1)
    df = pd.DataFrame(text_data)
    df.to_csv('糗事百科.csv', encoding='utf-8-sig')


if __name__ == '__main__':
    get_data(2)
    print("爬去完成")
    print(time.strftime("%Y-%m-%d %H:%M:%S",time.localtime()))

这个样子的结果

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。