Python爬虫数据存哪里|数据存储到文件的几种方式

最新推荐文章于 2024-04-24 22:05:32 发布

「已注销」

最新推荐文章于 2024-04-24 22:05:32 发布

阅读量2.2k

点赞数 1

分类专栏： python 文章标签： python 爬虫开发语言学习 pycharm

本文链接：https://blog.csdn.net/weixin_62853513/article/details/132738186

版权

前言

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章

爬虫请求解析后的数据，需要保存下来，才能进行下一步的处理，一般保存数据的方式有如下几种：

文件：txt、csv、excel、json等，保存数据量小。
关系型数据库：mysql、oracle等，保存数据量大。
非关系型数据库：Mongodb、Redis等键值对形式存储数据，保存数据量大。
二进制文件：保存爬取的图片、视频、音频等格式数据。

首先，获取豆瓣读书《平凡的世界》的3页短评信息，然后保存到文件中。

具体代码如下（忽略异常）：

import requests
from bs4 import BeautifulSoup

urls=['https://**网址不可放**/subject/1200840/comments/?start={}&limit=20&status=P&sort=new_score'.format(str(i)) for i in range(0, 60, 20)] #通过观察的url翻页的规律，使用for循环得到3个链接，保存到urls列表中
print(urls)
dic_h = {
   
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"}
comments_list = [] #初始化用于保存短评的列表

for url in urls: #使用for循环分别获取每个页面的数据，保存到comments_list列表
    r = requests.get(url=url,headers = dic_h).text

    soup = BeautifulSoup(r, 'lxml')
    ul = soup.find('div',id="comments")
    lis= ul.find_all('p')

    list2 =[]
    for li in lis:
        list2.append(li

最低0.47元/天解锁文章

「已注销」

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫数据存哪里|数据存储到文件的几种方式

大家早好、午好、晚好吖 ❤ ~欢迎光临本文章爬虫请求解析后的数据，需要保存下来，才能进行下一步的处理，一般保存数据的方式有如下几种：文件：txt、csv、excel、json等，保存数据量小。关系型数据库：mysql、oracle等，保存数据量大。非关系型数据库：Mongodb、Redis等键值对形式存储数据，保存数据量大。二进制文件：保存爬取的图片、视频、音频等格式数据。
复制链接

扫一扫