使用python爬取百度热搜

小h在学习

已于 2024-01-17 18:26:59 修改

阅读量844

点赞数 8

文章标签： python 开发语言

于 2024-01-17 18:17:45 首次发布

本文链接：https://blog.csdn.net/weixin_46882276/article/details/135656786

版权

爬虫第一课！实践爬取百度热搜

吃瓜必备以后给够我上班摸鱼的素材了

1、导入要用的包

from bs4 import BeautifulSoup  # 网页解析，获取数据（需导入）
import re  # 正则表达式，进行文字匹配`
import urllib.request, urllib.error  # 制定URL，获取网页数据
import xlwt  # 进行excel操作
import time

2、使用正则表达式筛选有用数据

# 创建正则表达式对象，标记规则   热搜详情链接的规则
findTitle = re.compile(r'<div class="c-single-text-ellipsis">(.*?)</div>')#热搜名
findIntroduction= re.compile(r'<div class="hot-desc_1m_jR large_nSuFU">(.*)<a')#热搜简介 
findIndex = re.compile(r'<div class="hot-index_1Bl1a">(.*?)</div>')#热搜指数
#findLink = re.compile(r'<div class="hot-desc_1m_jR large_nSuFU">*<a href="(.*?)"></div>') # 热搜地址
#findImgSrc = re.compile(r'<img.*src="(.*?)"', re.S)#热搜图片地址

3、创建get表头

# 得到指定一个URL的网页内容
def askURL(url):
    head = {  # 模拟浏览器头部信息，向baidu服务器发送消息
        "User-Agent": "Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 80.0.3987.122  Safari / 537.36"
    }
    # 用户代理，表示告诉Baidu服务器，我们是什么类型的机器、浏览器（本质上是告诉浏览器，我们可以接收什么水平的文件内容）
    request = urllib.request.Request(url, headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    return html

4、解析爬取到的热搜页面

def getData(url):
    datalist = []  #用来存储爬取的网页信息
    html = askURL(url)  # 保存获取到的网页源码
    # 逐一解析数据
    print("正在解析...")
    soup = BeautifulSoup(html, "html.parser")
    for item in soup.find_all('div', class_="category-wrap_iQLoo horizontal_1eKyQ"):  # 查找符合要求的字符串
        data = []  # 保存一个热搜所有信息
        item = str(item)
        title = re.findall(findTitle, item) # 通过正则表达式查找
        data.append(title)
        introduction = re.findall(findIntroduction, item)
        #introduction=str(introduction).replace(" ","")#去除空格
        data.append(introduction)
        index = re.findall(findIndex, item)
        data.append(index)
        #link = re.findall(findLink, item)
        # data.append(link)
        #imgSrc = re.findall(findImgSrc, item)
        #data.append(imgSrc)
        datalist.append(data)
    return datalist

5、以excel数据形势将数据保存下来，这里也可以使用数据库

# 保存数据到表格
def saveData(datalist,savepath):
    print("正在保存.......")
    book = xlwt.Workbook(encoding="utf-8",style_compression=0) #创建workbook对象
    sheet = book.add_sheet('百度热搜50', cell_overwrite_ok=True) #创建工作表
    col = ("标题","热点信息","热度")#,"链接地址","标题图片地址"
    for i in range(0,3):
        sheet.write(0,i,col[i])  #列名
    for i in range(len(datalist)):
        data = datalist[i]
        for j in range(0,3):
            print(data[j])#测试使用
            sheet.write(i+1,j,data[j])  #数据
    book.save(savepath) #保存

6、主函数以当前时间命名文件

def main():
    baseurl = "https://top.baidu.com/board?tab=realtime"  #要爬取的网页链接
    # 1.爬取网页
    datalist = getData(baseurl)
    timeNow=time.strftime('%Y%m%d-%H-%M', time.localtime())
    savepath = timeNow+"百度热搜.xls"    #当前目录新建XLS，存储进去timeNow+
    print(savepath) 
    # 3.保存数据
    saveData(datalist,savepath)

7、运行

if __name__ == "__main__":  # 当程序执行时
    # 调用函数
     main()
     print("爬取成功！")

展望：正则表达式那里有点问题，还没有处理图片网址和详情页地址；本想将热点绘柱状图，但数据一直转换不成功，还有在去除空格时，数据会自动转化，不得已放弃；不知为啥为jupty中使用函数传参光出问题，所以time放在主函数中，难道与运行顺序有关。下次想学图表绘制、训练模型、展示地图。
总结：第一次用爬虫，不算很难，确实是好用又强大的工具，有很多地方可以使用，大放异彩
2024年01月17日17：06爬取的数据