1. 项目概述
1.1 项目目标
爬取医疗领域的政府招投标项目数据,实现反爬机制处理、数据存储、数据分析及可视化,为招投标市场分析提供数据支持。
1.2 技术栈
- 编程语言:
Python 3.8+
- 异步框架:
Asyncio
(网络请求并发处理) - 数据存储:
MySQL + SQLAlchemy ORM
- 反爬技术:
Selenium
(JS渲染)、代理IP池、User-Agent轮换、验证码识别 - 数据分析:
Scikit-learn
(聚类分析)、Pandas(数据处理)、Matplotlib/WordCloud(可视化) - 通知模块:
SMTP
邮件通知