3.用Python爬虫，2003-2021的双色球数据

最新推荐文章于 2025-03-17 23:43:23 发布

环境海龟

最新推荐文章于 2025-03-17 23:43:23 发布

阅读量1.3k

点赞数 1

分类专栏： Python 文章标签： python

本文链接：https://blog.csdn.net/weixin_56703136/article/details/118548415

版权

本文讲述了使用Python爬虫抓取2003年至2021年双色球历史数据的过程。在参考了两个博客后，针对代码存在的问题进行了调整，成功获取了完整数据，为后续的双色球概率分析奠定了基础。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近突然想研究下双色球，想用Python爬虫抓取2003-2021的双色球数据。
借鉴博客
1.《十行代码用pandas的read_html爬取中彩网双色球历年全部数据》
https://blog.csdn.net/wwivywwivy/article/details/81810067
2.《双色球网页历史数据爬取》
https://blog.csdn.net/coberup/article/details/82871660?utm_medium=distribute.pc_relevant.none-task-blog-2_defaultBlogCommendFromMachineLearnPai2_{default-18.baidujs&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2}default_{BlogCommendFromMachineLearnPai2}default-18.baidujs

不知道为什么，他们的代码都调试不通，不知道是不是导入的第三方库更新导致，现将修改过的代码贴出来。

第一位的代码，确实很简单，但是数据不全，每页少两行，也行是pandas库有变更吧，标题并没有进数据表。

import pandas as pd
import csv

def get_one_page(page):
    url = 'http://kaijiang.zhcw.com/zhcw/html/ssq/list_%s.html' % (str(page))
    #tb = pd.read_html(url, skiprows=[0,1])[0] # 写的是跳过前两行，但实际并不需要跳过前两行，数据正好
    tb = pd.read_html(url)[0]
    return tb.drop(len(tb)-1) # 去掉最后一行

with open(r'E:\ssq1.csv','w',encoding='utf-8-sig',newline='') as f:
    csv.writer(f)

最低0.47元/天解锁文章