python爬虫:爬取百度热搜pandas存储excel表格

百度热搜链接
本章要点:
pandas存储excel

pandas的使用

pandas的使用方法
安装pandas库:pin3 install pandas

import pandas #导入pandas库
baidu_data = [] #创建个空列表
 baidu_data.append({
 		#要存储的内容以字典的形式追加到列表里
        'title':value, #'title'列名  value 值
        'url':value
    })
# print(baidu_data)
baiduexcel = pandas.DataFrame(baidu_data)#利用列表里的字典创建DataFrame (输出为excel表格样式)
baiduexcel.to_excel('百度热搜.xlsx',index=False)  #index=False 去除excel表格的第一列索引

百度热搜代码

百度热搜代码:

import requests,pandas
from lxml import html
url = 'https://top.baidu.com/board?tab=realtime' #目标网页
res = requests.get(url).text
dom = html.etree.HTML(res)  #解析成能被xpath识别的对象
datas = dom.xpath("//div[@style='margin-bottom:20px']/div/div[2]/a")#获取标题的公共部分(标题+url)
# print(datas)
baidu_data = []
for i in datas:
    # print(i)
    title = i.xpath("div[@class='c-single-text-ellipsis']/text()")[0].strip()#标题
    url = i.xpath("@href")[0]#链接
    # print(title,url)
    baidu_data.append({
        'title':title,
        'url':url
    })
# print(baidu_data)
baiduexcel = pandas.DataFrame(baidu_data) #利用列表里的字典创建DataFrame (输出为excel表格样式)
# print(baiduexcel)
baiduexcel.to_excel('百度热搜.xlsx',index=False)  #index=False 去除excel表格的第一列索引

效果图:
在这里插入图片描述
在这里插入图片描述

  • 3
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值