python爬虫中有哪些常用的数据存储的api库？_调用api接口的数据库有哪些-CSDN博客

本文链接：https://blog.csdn.net/weixin_63304209/article/details/136063009

本文对比了SQLite3、Pandas、Pickle、CSV、JSON、PyMongo和SQLAlchemy等技术的优缺点，指出它们在不同场景下的适用性，以及在数据抓取、处理和存储中的选择策略。

摘要由CSDN通过智能技术生成

SQLite3:

优点:
- 轻量级的数据库，不需要单独的服务器进程。
- 存储在单一磁盘文件中，方便管理。
- 良好的Python内置支持，不需要安装额外的库。
- 支持SQL语言，可以进行复杂的查询操作。
缺点:
- 不适合高并发写操作。
- 对于非常大型的数据集，性能不如专门的数据库服务器。
Pandas:

优点:
- 强大的数据处理能力，适合复杂的数据分析任务。
- 可以导出到多种格式，如CSV, Excel, JSON等。
- 大量的社区支持和文档。
缺点:
- 相对较高的学习曲线。
- 大规模数据操作可能会消耗大量内存。
Pickle:

优点:
- Python内置库，可以快速地保存和加载Python对象。
- 使用简单，仅需几行代码。
缺点:
- 不是所有对象都可以pickle化（比如，含有IO对象的）。
- 存储的对象可能会因Python版本不兼容而无法加载。
- 不安全，不建议加载非信任来源的pickle文件。
CSV:

优点:
- 生成的文件小，易于查看和编辑。
- 文本格式，具有高度的兼容性。
- Python内置支持，通过csv模块操作简单。
缺点:
- 不支持复杂的数据结构，每条记录都是平面的。
- 没有类型信息，所有数据都作为字符串处理。
JSON:

优点:
- 文本格式，可读性好。
- 结构化数据存储方式，易于前后端数据交换。
- Python内置支持，通过json模块操作简单。
缺点:
- 不适合存储大规模数据。
- 没有像数据库那样的查询语言。
PyMongo (MongoDB):

优点:
- 非关系型数据库，适合存储结构化或半结构化数据。
- 高性能，易于水平扩展。
- 支持复杂的查询和数据聚合操作。
缺点:
- 需要安装和运行MongoDB服务。
- 数据一致性和事务处理能力有限。
SQLAlchemy:

优点:
- 提供了SQL工具包和对象关系映射器（ORM）的功能。
- 可以用Python类的形式操作数据库。
- 数据库引擎独立，支持多种数据库后端。
缺点:
- 相对复杂，对初学者不太友好。
- 性能上不如直接使用原生SQL。
Requests-HTML 或 BeautifulSoup + Requests:

优点:
- 强大的网页解析库，结合请求库Requests使用，适合网络爬虫。
- 可以解析和操作HTML/XML文档。
缺点:
- 仅限于解析和抽取数据，不负责数据存储。