爬虫案例 --东方财富网股票_东方财富网 robots.txt-CSDN博客

本文链接：https://blog.csdn.net/xiugtt6141121/article/details/137237097

源码在底下 , 直接放源码审核不过 , 所以先啰嗦一点没用的东西

编写一个爬虫的基本实现思路可以概括为以下几个步骤。请注意，由于爬虫可能涉及法律和道德问题，特别是当它们用于未经授权地抓取网站数据时，因此在开始之前，请确保你的爬虫行为符合目标网站的robots.txt规则以及当地的法律法规。

1. 确定目标

明确需求：确定你需要从哪些网站抓取哪些数据。
分析网站结构：了解目标网站的页面结构，包括URL模式、页面元素等。

2. 编写爬虫框架

选择编程语言：Python是编写爬虫的热门选择，因为它拥有强大的库支持，如requests、BeautifulSoup、Scrapy等。
设置基础结构：创建一个基本的Python脚本，导入必要的库。

3. 发送HTTP请求

使用requests库（或其他HTTP客户端库）发送GET或POST请求到目标URL。
处理重定向和Cookies：确保爬虫能够处理重定向和保持会话状态（如登录状态）。
设置请求头：模拟浏览器发送请求，设置合适的User-Agent和其他必要的请求头。

4. 解析HTML内容

使用解析库：如BeautifulSoup、lxml等，解析HTML文档。
提取数据：根据HTML结构，使用CSS选择器、XPath等方法提取所需数据。

5. 存储数据

保存到文件：将抓取的数据保存为CSV、JSON等格式的文件。
使用数据库：对于大量数据，可以考虑使用数据库（如MySQL、MongoDB）来存储。

6. 处理JavaScript渲染的页面

如果目标网站大量使用JavaScript渲染页面内容，可能需要使用Selenium或Puppeteer（Node.js环境）等工具来模拟浏览器行为。

7. 遵守`robots.txt`规则和礼貌爬虫

检查robots.txt：在开始抓取之前，检查目标网站的robots.txt文件，确保你的爬虫行为被允许。
设置合理的请求间隔：避免过于频繁地发送请求，给目标网站服务器带来压力。
处理反爬虫机制：如验证码、IP封锁等，可能需要采取额外的措施来绕过这些机制（但请注意，绕过某些反爬虫机制可能违反法律法规）。

8. 调试和优化

调试：在开发过程中，使用打印语句、断点调试等方法来检查爬虫的行为是否符合预期。
优化性能：对于大型网站或需要抓取大量数据的情况，优化爬虫的性能变得尤为重要。可以通过多线程/多进程、异步IO等方式来提高效率。

import csv  # 用于读写 CSV 文件
import json  # 用于解析 JSON 数据
import requests  # 用于发送 HTTP 请求
from lxml import etree  # 用于解析 HTML 文档


# 定义 DataScraper 类，实现数据抓取功能
class DataScraper:
    # 初始化函数
    def __init__(self):
        # 定义一个字典，用于存储页面名称和页面英文名称的对应关系
        self.pagename_type = {
            "业绩报表": "RPT_LICO_FN_CPD",
            "业绩快报": "RPT_FCI_PERFORMANCEE",
            "业绩预告": "RPT_PUBLIC_OP_NEWPREDICT",
            "预约披露时间": "RPT_PUBLIC_BS_APPOIN",
            "资产负债表": "RPT_DMSK_FN_BALANCE",
            "利润表": "RPT_DMSK_FN_INCOME",
            "现金流量表": "RPT_DMSK_FN_CASHFLOW"
        }

        self.pagename_en = {
            "业绩报表": "yjbb",
            "业绩快报": "yjkb",
            "业绩预告": "yjyg",
            "预约披露时间": "yysj",
            "资产负债表": "zcfz",
            "利润表": "lrb",
            "现金流量表": "xjll"
        }

        # 定义一个列表，用于存储英文列名
        self.en_list = []

        # 定义一个抓取数据的 URL
        self.url = 'https://datacenter-web.eastmoney.com/api/data/v1/get'

        # 定义请求头
        self.headers = {
            'Accept': '*/*',
            'Accept-Language': 'zh-CN,zh;q=0.9',
            'Connection': 'closed',
            'Referer': 'https://data.eastmoney.com/',
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36',
            'sec-ch-ua': '"Google Chrome";v="111", "Not(A:Brand";v="8", "Chromium";v="111"',
            'sec-ch-ua-mobile': '?0',
            'sec-ch-ua-platform': '"Windows"'
        }

    # 定义一个函数，用于获取指定页面的表格数据
    def get_table(self, page):
        # 定义一个参数字典，用于传递抓取参数
        params = {
            'sortTypes': '-1,-1',  # 用于指定排序方式，这里设置为降序
            'reportName': self.table_type,  # 用于指定要抓取的报表类型
            'columns': 'ALL',  # 用于指定要抓取的列名
            'filter': f'(REPORT_DATE=\'{self.timePoint}\')'  # 用于指定查询条件，这里设置为查询指定日期范围的数据
        }

        # 如果要抓取的报表类型为 "RPT_LICO_FN_CPD"，则需要修改查询条件
        if self.table_type in ['RPT_LICO_FN_CPD']:
            params['filter'] = f'(REPORTDATE=\'{self.timePoint}\')'

        # 添加分页参数
        params['pageNumber'] = str(page)

        # 使用 requests 库发送 GET 请求，获取数据
        response = requests.get(url=self.url, params=params, headers=self.headers)

        # 使用 json 模块解析响应数据
        data = json.loads(response.text)

        # 如果数据抓取成功，则返回数据
        if data['result']:
            return data['result']['data']
        else:
            return

    # 定义一个函数，用于获取指定页面的表头信息
    def get_header(self, all_en_list):
        # 创建一个空列表，用于存储中文列名
        ch_list = []

        # 定义一个页面的 URL
        url = f'https://data.eastmoney.com/bbsj/{self.pagename_en[self.pagename]}.html'

        # 使用 requests 库发送 GET 请求，获取页面数据
        response = requests.get(url)

        # 使用 lxml 模块解析 HTML 文档
        res = etree.HTML(response.text)

        # 遍历所有英文列名，获取对应的中文列名
        for en in all_en_list:
            ch = ''.join(
                [i.strip() for i in res.xpath(f'//div[@class="dataview"]//table[1]//th[@data-field="{en}"]//text()')])

            # 如果找到了中文列名，则将其添加到列表中
            if ch:
                ch_list.append(ch)
                # 将英文列名添加到列表中
                self.en_list.append(en)

        # 返回中文列名列表
        return ch_list

    # 定义一个函数，用于将抓取的数据写到 CSV 文件中
    def write_header(self, table_data):
        # 打开一个 CSV 文件，用于写数据
        with open(self.filename, 'w', encoding='utf-8', newline='') as f:
            # 创建一个 CSV 写器
            writer = csv.writer(f)
            # 获取表头信息
            headers = self.get_header(list(table_data[0].keys()))

            # 使用 CSV 写器写表头
            writer.writerow(headers)

    # 定义一个函数，用于将抓取的数据写到 CSV 文件中
    def write_table(self, table_data):
        # 打开一个 CSV 文件，用于追加写数据
        with open(self.filename, 'a', encoding='utf-8', newline='') as csvfile:
            # 创建一个 CSV 写器
            writer = csv.writer(csvfile)
            # 遍历所有数据，并将其写到 CSV 文件中
            for item in table_data:
                # 创建一个空列表，用于存储一行的数据
                row = []
                # 遍历所有列名，获取对应的数据
                for key in item.keys():
                    # 如果列名在英文列名列表中，则将其添加到列表中
                    if key in self.en_list:
                        row.append(str(item[key]))

                # 使用 CSV 写器写一行数据
                print(row)
                writer.writerow(row)

    # 定义一个函数，用于获取时间列表
    def get_timeList(self):
        # 定义一个请求头，用于模拟浏览器请求
        headers = {
            'Referer': 'https://data.eastmoney.com/bbsj/202312.html'
        }
        # 使用 requests 库发送 GET 请求，获取页面数据
        response = requests.get('https://data.eastmoney.com/bbsj/202312.html', headers=headers)

        # 使用 lxml 模块解析 HTML 文档
        res = etree.HTML(response.text)

        # 使用xpath获取时间列表
        return res.xpath('//*[@id="filter_date"]//option/text()')

    # 定义一个运行函数，用于启动数据抓取程序
    def run(self):
        # 使用 get_timeList 函数获取时间列表
        self.timeList = self.get_timeList()
        # 遍历时间列表，打印时间
        for index, value in enumerate(self.timeList):
            if (index + 1) % 5 == 0:
                print(value)
            else:
                print(value, end=' ; ')

        # 输入要抓取的时间点
        self.timePoint = str(input('\n请选择时间（可选项如上）:'))
        # 输入要抓取的报表类型
        self.pagename = str(
            input('请输入报表类型（业绩报表;业绩快报;业绩预告;预约披露时间;资产负债表;利润表；现金流量表）:'))

        # 判断输入的时间点和报表类型是否正确
        assert self.timePoint in self.timeList, '时间输入错误'
        assert self.pagename in list(self.pagename_type.keys()), '报表类型输入错误'

        # 根据输入的报表类型获取对应的表格类型



        self.table_type = self.pagename_type[self.pagename]
        self.filename = f'{self.pagename}_{self.timePoint}.csv'

        self.write_header(self.get_table(1))
        page = 1
        while True:
            table = self.get_table(page)
            if table:
                self.write_table(table)

            else:
                break
            page += 1


if __name__ == '__main__':
    scraper = DataScraper()
    scraper.run()