爬虫实战之福彩3D

最新推荐文章于 2024-05-13 05:39:28 发布

Cqzmk

最新推荐文章于 2024-05-13 05:39:28 发布

阅读量1.2k

点赞数 1

分类专栏：数据分析文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_44851757/article/details/102651306

版权

本文介绍了如何从网上爬取2004年至2019年的福彩3D数据，并使用PowerBI进行数据清洗。数据包括开奖号码、奖金金额和形态等信息。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一.从网上爬取数据

数据从2004年1月到2019年9月

import json
from lxml import etree
import requests
import time
# 由于之前将网页上需要的连接都爬取保存了,这里就直接读取
with open('test.txt','r') as f:
    url_set=f.read()
# 数据分割
list_url = list(url_set.split('\n'))
# 倒序(之前爬取是从新到旧)
url_list=list_url[::-1]
# 请求头
headers = {
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}

# 计数用
bb=0
# 函数爬取单页
def get_url(url_,headers):


    response = requests.get(url=url_,h