目标:爬取上交所和深交所所有股票的名称和交易信息
输出:保存在文件中
使用库:requests库,beautifulsoup4库,re库
网站:http://finance.sina.com.cn/stock/
https://gupiao.baidu.com/stock/
选取网站的原则:所需信息在HTML中,如果是js生成的话难度大,最好没有robots协议限制
程序结构设计:
1.从东方财富网站爬取股票信息列表
2.根据股票列表逐个到百度股票获取个股信息
3.把结果存储到文件
代码:
# -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup import traceback import re # 根据获得的网址爬取指定网页信息 def get_html_text(url, code="utf-8"): try: r = requests.get(url, timeout=30) # 把爬取后的内容赋给r,等待时间对多30秒