《Python网络爬虫与信息提取》第三周网络爬虫之实战学习笔记（三）“股票数据定向爬虫”实例

最新推荐文章于 2020-11-25 23:09:39 发布

wyatt007

最新推荐文章于 2020-11-25 23:09:39 发布

阅读量726

点赞数 2

分类专栏： Python网络爬虫

本文链接：https://blog.csdn.net/wyatt007/article/details/105438158

版权

本文介绍了使用Python进行股票数据定向爬虫的实践，包括从东方财富网获取股票列表，再到百度股票抓取个股信息，最终将数据保存到文件。优化方面，通过编码识别优化提高了爬取速度，并添加了动态进度显示提升用户体验。

摘要由CSDN通过智能技术生成

三、“股票数据定向爬虫”实例

1、“股票数据定向爬虫”实例介绍

（1）功能描述

目标：获取上交所和深交所所有股票的名称和交易信息。

输出：保存到文件中。

技术路线：requests-bs4-re。

（2）候选数据网站的选择

①新浪股票：http://finance.sina.com.cn/stock/。

②百度股票：https://gupiao.baidu.com/stock/。

备注：原来的百度股票网页链接已失效；故更改为https://so.cfi.cn/so.aspx?txquery=。原来的东方财富网网页链接已无法爬取数据；故更改为http://quote.eastmoney.com/stock_list.html#sh。

选取原则：股票信息静态存在于HTML页面中，非js代码生成，没有Robots协议限制。

选取方法：浏览器F12，源代码查看等。

选取心态：不要纠结于某个网站，多找信息源尝试。

（3）程序的结构设计

步骤1：从东方财富网获取股票列表。

步骤2：根据股票列表逐个到百度股票获取个股信息。

步骤3：将结果存储到文件。

2、“股票数据定向爬虫”实例编写

# “股票数据定向爬虫”实例编写
# 错误
import requests
from bs4 import BeautifulSoup
import traceback
import re

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""


def getStockList(lst, stockURL):
    html = getHTMLText(stockURL)

最低0.47元/天解锁文章

wyatt007

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
《Python网络爬虫与信息提取》第三周网络爬虫之实战学习笔记（三）“股票数据定向爬虫”实例

三、“股票数据定向爬虫”实例1、“股票数据定向爬虫”实例介绍（1）功能描述目标：获取上交所和深交所所有股票的名称和交易信息。输出：保存到文件中。技术路线：requests-bs4-re。（2）候选数据网站的选择①新浪股票：http://finance.sina.com.cn/stock/。②百度股票：https://gupiao.baidu.com/stock/...
复制链接

扫一扫