大数据老师布置作业让我们写一个爬虫程序,爬取喜马拉雅中的音频数据,代码是按照下面的B站视频编写的
视频中的代码没有用到GUI,通过老师给的实例用tkinter写了一个简单的界面
# 创建界面
root=Tk()
# 标题
root.title("喜马拉雅郭德纲相声爬取器")
# 设置窗口大小
root.geometry('450x450')
## 标签控件
#label=Label(root,text='请输入要爬取的歌曲名称:',font=('黑体',15))
## 标签定位
#label.grid()
## 输入框
#entry=Entry(root,font=('黑体',20))
#entry.grid(row=0,column=1)
##滚动条
#sc = tkinter.Scrollbar(root)
#sc.grid(row=1,column=2,sticky=E)
# 列表框
text=Listbox(root,font=('黑体',16),width=45,height=15)
text.grid(row=1,columnspan=2) # 横跨
# 开始按钮
button=Button(root,text='开始抓取音频数据',font=('黑体',15),command=lambda:search())
button.grid(row=2,column=0,sticky=W) #sticky 对齐方式 WENS
# 退出按钮
#button1=Button(root,text='退出程序',font=('黑体',15),command=root.quit)
#button1.grid(row=3,column=0,sticky=W)
# 显示界面
root.mainloop()
代码中有些功能还没实现就注释掉了,想在text框中显示正在爬取的音频数据,需要在爬取音频数据代码中写数据那块代码前后用text.insert(END,title)将所要显示的数据插入到text框中,END代表的是位置,这里的title是我要显示的参数。运行后发现在点击开始按钮后只有所有的数据都爬取完后才能在text框中显示,我想每爬取一个数据显示一次,然而只有一个事件执行完后才能刷新一次界面,最开始使用的after函数延时来显示,代码如下
def get_mp3(mp3_info,mp3_info_len,headers,xs_num):
if xs_num<=29:
mp3_id=mp3_info[xs_num][1]
title = mp3_info[xs_num][0]
index_url = f'https://www.ximalaya.com/revision/play/v1/audio?id={mp3_id}&ptype=1'
response_1=requests.get(url=index_url,headers=headers)#对音频数据包发送请求,获取浏览器返回的数据内容
play_url = response_1.json()['data']['src']#返回的是src地址
text.insert(END,title)
xs_num = xs_num+1
#get_mp3(mp3_info,mp3_info_len,headers,xs_num)
#root.after(1000,get_mp3(mp3_info,mp3_info_len,headers,xs_num))
root.after(5000,get_mp3,mp3_info,mp3_info_len,headers,xs_num)
def search(page_info):#得到当前页面的id和title
if page_info==1:
url =f'https://www.ximalaya.com/xiangsheng/9723091/'
if page_info!=1:
url =f'https://www.ximalaya.com/xiangsheng/9723091/p{page_info}/'
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/98.0.4758.102 Safari/537.36'
}
response = requests.get(url = url,headers = headers)#发送请求,获取服务器返回数据内容
#print(response.text)
mp3_info = re.findall('<div class="text Mi_"><a title="(.*?)" href="/sound/(\d+)">',response.text)#解析数据获得音频ID和标题
#print(mp3_info)
mp3_info_len = len(mp3_info)#获取当前页的音频个数
get_mp3(mp3_info,mp3_info_len,headers,0)
#page_info=page_info+1
if page_info <=page_info_max:
search(page_info+1)
#if page_info ==1:
# tkinter.messagebox.showinfo('提示', '下载已完成,请在d\pcdownload\下查看!')
现在能够一个一个显示了但是显示的循序有问题,原因感觉是每个音频数据的大小不一样下载时间不一样,并且这样还无法知道什么时候程序运行完了,使用after函数只能说拓宽了思路不能得到想要的结果。
最后发现text有一个update()函数可以用来更新(在最开始的时候网上一直每找到),在向text框中插入数据后用update方法就可以实时的显示爬取的内容。