股票数据爬虫

最新推荐文章于 2024-04-24 11:09:01 发布

zhangyu4863

最新推荐文章于 2024-04-24 11:09:01 发布

阅读量3.4w

点赞数 2

分类专栏：爬虫

本文链接：https://blog.csdn.net/zhangyu4863/article/details/80356387

版权

目标：爬取上交所和深交所所有股票的名称和交易信息

输出：保存在文件中

使用库：requests库，beautifulsoup4库，re库

网站：http://finance.sina.com.cn/stock/

https://gupiao.baidu.com/stock/

选取网站的原则：所需信息在HTML中，如果是js生成的话难度大，最好没有robots协议限制

程序结构设计：

1.从东方财富网站爬取股票信息列表

2.根据股票列表逐个到百度股票获取个股信息

3.把结果存储到文件

代码：

# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
import traceback
import re


# 根据获得的网址爬取指定网页信息
def get_html_text(url, code="utf-8"):
    try:
        r = requests.get(url, timeout=30)  # 把爬取后的内容赋给r，等待时间对多30秒

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zhangyu4863

关注关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
股票数据爬虫

目标：爬取上交所和深交所所有股票的名称和交易信息输出：保存在文件中使用库：requests库，beautifulsoup4库，re库网站：http://finance.sina.com.cn/stock/ https://gupiao.baidu.com/stock/选取网站的原则：所需信息在HTML中，如果是js生成的话难度大，最好没有robots协议限制程序结构设计： ...
复制链接

扫一扫