爬虫笔记六

最新推荐文章于 2021-12-13 12:00:09 发布

大数据AI铭仔

最新推荐文章于 2021-12-13 12:00:09 发布

阅读量250

点赞数

分类专栏：爬虫文章标签：爬虫 python 大数据

本文链接：https://blog.csdn.net/weixin_51633501/article/details/115336186

版权

爬虫专栏收录该内容

11 篇文章 0 订阅

订阅专栏

爬虫笔记六

来自风变编程
上一关我们以QQ音乐为例，主要学习了如何带参数地请求数据（get请求）和Request Headers的用法，最终爬取到了周杰伦歌曲信息的数据。
那么有一个新的问题来了——爬到的数据要怎么存下来？
可能你会想到这样的方案：把爬到的数据一条条复制黏贴，然后存成Excel文件。这样的方案对于存储十几条数据还好说，可是当我们爬取到的数据超过几百条时，这样的方案显然不可取。
走到这一关卡，获取数据、解析数据以及提取数据，我们都学会了。独独差了存储数据这一步，这也是整个爬虫过程中不可或缺的一步。后面会依旧以QQ音乐为例，把我们上一关爬取到的周杰伦的歌曲信息的数据存储下来。
在这里插入图片描述
存储数据的方式
常用的存储数据的方式有两种——存储成csv格式文件、存储成Excel文件（不是复制黏贴的那种）。
此时你会想问“csv”是什么，和Excel文件有什么区别？
前面，我有讲到json是特殊的字符串。其实，csv也是一种字符串文件的格式，它组织数据的语法就是在字符串之间加分隔符——行与行之间是加换行符，同列之间是加逗号分隔。
它可以用任意的文本编辑器打开（如记事本），也可以用Excel打开，还可以通过Excel把文件另存为csv格式（因为Excel支持csv格式文件）。
运行以下三行代码，你就能直观清晰地知道csv是什么。

file=open('test.csv','a+')
#创建test.csv文件，以追加的读写模式
file.write('美国队长,钢铁侠,蜘蛛侠')
#写入test.csv文件
file.close()
#关闭文件

将我们刚刚写入的csv文件下载到本地电脑，再用记事本打开，你会看到：
在这里插入图片描述
csv文件里的逗号可以充当分隔同列字符串的作用。为什么要加分隔符？因为不加的话，数据都堆在一起，会显得杂乱无章，也不方便我们之后提取和查找。这也是一种让数据变得有规律的组织方式。另外，用csv格式存储数据，读写比较方便，易于实现，文件也会比Excel文件小。但csv文件缺少Excel文件本身的很多功能，比如不能嵌入图像和图表，不能生成公式。至于Excel文件，不用我多说你也知道就是电子表格。它有专门保存文件的格式，即xls和xlsx（Excel2003版本的文件格式是xls，Excel2007及之后的版本的文件格式就是xlsx）。
在这里插入图片描述
存储数据的基础知识
存储成csv格式文件和存储成Excel文件，这两种不同的存储方式需要引用的模块也是不同的。操作csv文件我们需要借助csv模块；操作Excel文件则需要借助openpyxl模块。
基础知识：csv写入与读取
首先，我们要引用csv模块。因为Python自带了csv模块，所以我们不需要安装就能引用它。

import csv
#引用csv模块。
csv_file = open('demo.csv','w',newline='',encoding='utf-8')
#创建csv文件，我们要先调用open()函数，传入参数：文件名“demo.csv”、写入模式“w”、newline=''、encoding='utf-8'。

我们得创建一个新的csv文件，命名为“demo.csv”。
“w”就是writer，即文件写入模式，它会以覆盖原内容的形式写入新添加的内容。
友情附上一张文件读写模式表。你不需要背下来，之后不知道用什么模式时查查表就可以了。
在这里插入图片描述
加newline=’ '参数的原因是，可以避免csv文件出现两倍的行距（就是能避免表格的行与行之间出现空白行）。加encoding=‘utf-8’，可以避免编码问题导致的报错或乱码。创建完csv文件后，我们要借助csv.writer()函数来建立一个writer对象。
那怎么往csv文件里写入新的内容呢？答案是——调用writer对象的writerow()方法。

writer.writerow(['电影','豆瓣评分'])
#借助writerow()函数可以在csv文件里写入一行文字 "电影"和“豆瓣评分”。

提醒：writerow()函数里，需要放入列表参数，所以我们得把要写入的内容写成列表。就像[‘电影’,‘豆瓣评分’]。
我们试着再写入两部电影的名字和其对应的豆瓣评分，最后关闭文件，就完成csv文件的写入了。

import csv
#引用csv模块。
csv_file = open('demo.csv','w',newline='',encoding='utf-8')
#调用open()函数打开csv文件，传入参数：文件名“demo.csv”、写入模式“w”、newline=''、encoding='utf-8'。
writer = csv.writer(csv_file)
# 用csv.writer()函数创建一个writer对象。
writer.writerow(['电影','豆瓣评分'])
#调用writer对象的writerow()方法，可以在csv文件里写入一行文字 “电影”和“豆瓣评分”。
writer.writerow(['银河护卫队','8.0'])
#在csv文件里写入一行文字 “银河护卫队”和“8.0”。
writer.writerow(['复仇者联盟','8.1'])
#在csv文件里写入一行文字 “复仇者联盟”和“8.1”。
csv_file.close()
#写入完成后，关闭文件就大功告成啦！

运行代码后，名为“demo.csv”的文件会被创建。用Excel或记事本打开这个文件，你就能看到——
在这里插入图片描述
接下来我们可以继续学习怎么读取csv文件的数据。

import csv
csv_file = open('demo.csv','r',newline='',encoding='utf-8')
reader = csv.reader(csv_file)
for row in reader:
    print(row)

第1、2行代码：导入csv模块。用open()打开“demo.csv”文件，‘r’是reader读取模式，newline=’'是避免出现两倍行距。encoding='utf-8’能避免编码问题导致的报错或乱码。
第3行代码：用csv.reader()函数创建一个reader对象。
第4、5行代码：用for循环遍历reader对象的每一行。打印row，就能读取出“demo.csv”文件里的内容。
补充一点：csv模块本身还有很多函数和方法，附上csv模块官方文档链接：
https://yiyibooks.cn/xx/python_352/library/csv.html#module-csv
这些函数和方法我们不需要全部都记下来，只要在需要用到的时候，学会查询就行。

基础知识：Excel写入与读取
在这里插入图片描述
一个Excel文档也称为一个工作薄（workbook），每个工作薄里可以有多个工作表（wordsheet），当前打开的工作表又叫活动表。
每个工作表里有行和列，特定的行与列相交的方格称为单元格（cell）。比如上图第A列和第1行相交的方格我们可以直接表示为A1单元格。
清楚了Excel的基础概念
提醒：我们得先提前安装好openpyxl模块。如果你想要在本地操作的话，就需要在本地上安装。（安装方法：window电脑：在终端输入命令：pip install openpyxl，按下enter键；mac电脑：在终端输入命令：pip3 install openpyxl，按下enter键）
装好openpyxl模块后，首先要引用它，然后通过openpyxl.Workbook()函数就可以创建新的工作薄，代码如下：

import openpyxl 
#引用openpyxl 。
wb = openpyxl.Workbook()
#利用openpyxl.Workbook()函数创建新的workbook（工作薄）对象，就是创建新的空的Excel文件。

创建完新的工作薄后，还得获取工作表。

sheet = wb.active
#wb.active就是获取这个工作薄的活动表，通常就是第一个工作表。
sheet.title = 'new title'
#可以用.title给工作表重命名。现在第一个工作表的名称就会由原来默认的“sheet1”改为"new title"。

在这里插入图片描述
添加完工作表，我们就能来操作单元格，往单元格里写入内容。

sheet['A1'] = '漫威宇宙' 
#把'漫威宇宙'赋值给第一个工作表的A1单元格，就是往A1的单元格中写入了'漫威宇宙'。

如果我们想往工作表里写入一行内容的话，就得用到append函数。

row = ['美国队长','钢铁侠','蜘蛛侠']
#把我们想写入的一行内容写成列表，赋值给row。
sheet.append(row)
#用sheet.append()就能往表格里添加这一行文字。

如果我们想要一次性写入的不止一行，而是多行内容，该用for循环。

rows = [['美国队长','钢铁侠','蜘蛛侠'],['是','漫威','宇宙', '经典','人物']]
#先把要写入的多行内容写成列表，再放进大列表里，赋值给rows。
for i in rows:
    sheet.append(i)
#遍历rows，同时把遍历的内容添加到表格里，这样就实现了多行写入。
print(rows)
#打印rows

成功写入后，我们千万要记得保存这个Excel文件，不然就白写啦！

wb.save('Marvel.xlsx')
#保存新建的Excel文件，并命名为“Marvel.xlsx”

总代码如下所示：

import openpyxl 
wb=openpyxl.Workbook() 
sheet=wb.active
sheet.title='new title'
sheet['A1'] = '漫威宇宙'
rows= [['美国队长','钢铁侠','蜘蛛侠'],['是','漫威','宇宙', '经典','人物']]
for i in rows:
    sheet.append(i)
print(rows)
wb.save('Marvel.xlsx')

下面，我们来搞定存储数据最后的一个基础知识点——Excel文件的读取。

import openpyxl 
#写入的代码：
wb = openpyxl.Workbook() 
sheet = wb.active
sheet.title = 'new title'
sheet['A1'] = '漫威宇宙'
rows = [['美国队长','钢铁侠','蜘蛛侠','雷神'],['是','漫威','宇宙', '经典','人物']]
for i in rows:
    sheet.append(i)
print(rows)
wb.save('Marvel.xlsx')

#读取的代码：
wb = openpyxl.load_workbook('Marvel.xlsx')
sheet = wb['new title']
sheetname = wb.sheetnames
print(sheetname)
A1_cell = sheet['A1']
A1_value = A1_cell.value
print(A1_value)

第14行代码：调用openpyxl.load_workbook()函数，打开“Marvel.xlsx”文件。
第15行代码：获取“Marvel.xlsx”工作薄中名为“new title”的工作表。
第16、17行代码：sheetnames是用来获取工作薄所有工作表的名字的。如果你不知道工作薄到底有几个工作表，就可以把工作表的名字都打印出来。
第18-20行代码：把“new title”工作表中A1单元格赋值给A1_cell，再利用单元格value属性，就能打印出A1单元格的值。
如果你对openpyxl模块感兴趣，想要有更深入的了解的话，推荐阅读openpyxl模块的官方文档：
https://openpyxl.readthedocs.io/en/stable/

项目：存储周杰伦的歌曲信息
在这里我们只选取用openpyxl模块存储成Excel文件的方式做演示。
再加入存储数据的代码，【获取数据→解析数据→提取数据→存储数据】这整个爬虫的过程我们就都完成了！
上一关的代码如下：

import requests

url = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'
for x in range(5):

    params = {
        'ct': '24',
        'qqmusic_ver': '1298',
        'new_json': '1',
        'remoteplace': 'sizer.yqq.song_next',
        'searchid': '64405487069162918',
        't': '0',
        'aggr': '1',
        'cr': '1',
        'catZhida': '1',
        'lossless': '0',
        'flag_qc': '0',
        'p': str(x + 1),
        'n': '20',
        'w': '周杰伦',
        'g_tk': '5381',
        'loginUin': '0',
        'hostUin': '0',
        'format': 'json',
        'inCharset': 'utf8',
        'outCharset': 'utf-8',
        'notice': '0',
        'platform': 'yqq.json',
        'needNewCode': '0'
    }
    # 将参数封装为字典
    res_music = requests.get(url, params=params)
    # 调用get方法，下载这个列表
    json_music = res_music.json()
    # 使用json()方法，将response对象，转为列表/字典
    list_music = json_music['data']['song']['list']
    # 一层一层地取字典，获取歌单列表
    for music in list_music:
        # list_music是一个列表，music是它里面的元素
        print(music['name'])
        # 以name为键，查找歌曲名
        print('所属专辑：' + music['album']['name'])
        # 查找专辑名
        print('播放时长：' + str(music['interval']) + '秒')
        # 查找播放时长
        print('播放链接：https://y.qq.com/n/yqq/song/' + music['file']['media_mid'] + '.html\n\n')
        # 查找播放链接

在这里插入图片描述按照Excel文件写入的步骤，我们可以先在上一关的代码上，添加导入openpyxl模块、创建工作薄和获取工作表的代码。

import requests,openpyxl
#在上一关的代码上再导入openpyxl模块。
wb = openpyxl.Workbook()
#创建工作薄
sheet = wb.active
#获取工作薄的活动表
sheet.title = 'song'
#工作表重命名为song。

既然我们要存储成Excel文件的话，我们得先添加表头，比如我们现在想存储歌曲名、所属专辑、播放时长和播放链接，那就可以先分别在A1、B1、C1、D1单元格中写入“歌曲名”、“所属专辑”、“播放时长”和“播放链接”。

sheet['A1'] ='歌曲名'
sheet['B1'] ='所属专辑'
sheet['C1'] ='播放时长'
sheet['D1'] ='播放链接'

接下来，把所有歌曲名、所属专辑、播放时长和播放链接用append()函数，一一写入Excel文件。
最后，保存这个文件，数据就会被我们都存储下来。
完整的代码如下（请重点关注加了注释的代码）：

import requests,openpyxl
wb=openpyxl.Workbook()  
#创建工作薄
sheet=wb.active 
#获取工作薄的活动表
sheet.title='restaurants' 
#工作表重命名

sheet['A1'] ='歌曲名'     #加表头，给A1单元格赋值
sheet['B1'] ='所属专辑'   #加表头，给B1单元格赋值
sheet['C1'] ='播放时长'   #加表头，给C1单元格赋值
sheet['D1'] ='播放链接'   #加表头，给D1单元格赋值

url = 'https://c.y.qq.com/soso/fcgi-bin/client_search_cp'
for x in range(5):
    params = {
        'ct': '24',
        'qqmusic_ver': '1298',
        'new_json': '1',
        'remoteplace': 'sizer.yqq.song_next',
        'searchid': '64405487069162918',
        't': '0',
        'aggr': '1',
        'cr': '1',
        'catZhida': '1',
        'lossless': '0',
        'flag_qc': '0',
        'p': str(x + 1),
        'n': '20',
        'w': '周杰伦',
        'g_tk': '5381',
        'loginUin': '0',
        'hostUin': '0',
        'format': 'json',
        'inCharset': 'utf8',
        'outCharset': 'utf-8',
        'notice': '0',
        'platform': 'yqq.json',
        'needNewCode': '0'
    }

    res_music = requests.get(url, params=params)
    json_music = res_music.json()
    list_music = json_music['data']['song']['list']
    for music in list_music:
        name = music['name']
        # 以name为键，查找歌曲名，把歌曲名赋值给name
        album = music['album']['name']
        # 查找专辑名，把专辑名赋给album
        time = music['interval']
        # 查找播放时长，把时长赋值给time
        link = 'https://y.qq.com/n/yqq/song/' + str(music['file']['media_mid']) + '.html\n\n'
        # 查找播放链接，把链接赋值给link
        sheet.append([name, album, time,url])
        # 把name、album、time和link写成列表，用append函数多行写入Excel
        print('歌曲名：' + name + '\n' + '所属专辑:' + album +'\n' + '播放时长:' + str(time) + '\n' + '播放链接:'+ url)
        
wb.save('Jay.xlsx')            
#最后保存并命名这个Excel文件

运行代码，“Jay.xlsx”文件就会被创建。打开这个文件就可以看到存储的数据。
在这里插入图片描述
接下来是简单的复习

#csv写入的代码：

import csv
csv_file = open('demo.csv','w',newline='')
writer = csv.writer(csv_file)
writer.writerow(['电影','豆瓣评分'])
csv_file.close()

在这里插入图片描述

#csv读取的代码：

import csv
csv_file = open('demo.csv','r',newline='')
reader=csv.reader(csv_file)
for row in reader:
    print(row)

在这里插入图片描述

#Excel写入的代码：

import openpyxl 
wb = openpyxl.Workbook() 
sheet = wb.active
sheet.title ='new title'
sheet['A1'] = '漫威宇宙'
rows = [['美国队长','钢铁侠','蜘蛛侠','雷神'],['是','漫威','宇宙', '经典','人物']]
for i in rows:
    sheet.append(i)
print(rows)
wb.save('Marvel.xlsx')

在这里插入图片描述

#Excel读取的代码：

import openpyxl
wb = openpyxl.load_workbook('Marvel.xlsx')
sheet = wb['new title']
sheetname = wb.sheetnames
print(sheetname)
A1_value = sheet['A1'].value
print(A1_value)

                                                                                                           。。。。

大数据AI铭仔

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
爬虫笔记六

爬虫笔记六来自风变编程上一关我们以QQ音乐为例，主要学习了如何带参数地请求数据（get请求）和Request Headers的用法，最终爬取到了周杰伦歌曲信息的数据。那么有一个新的问题来了——爬到的数据要怎么存下来？可能你会想到这样的方案：把爬到的数据一条条复制黏贴，然后存成Excel文件。这样的方案对于存储十几条数据还好说，可是当我们爬取到的数据超过几百条时，这样的方案显然不可取。走到这一关卡，获取数据、解析数据以及提取数据，我们都学会了。独独差了存储数据这一步，这也是整个爬虫过程中不可或缺的一
复制链接

扫一扫