python爬虫

最新推荐文章于 2023-01-10 16:44:29 发布

weixin_46070575

最新推荐文章于 2023-01-10 16:44:29 发布

阅读量1.6k

点赞数

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/weixin_46070575/article/details/121884940

版权

这段Python代码实现了一个简单的爬虫，用于抓取虎牙网站上多个页面的视频信息，包括视频链接、标题、观看量和上传时间。数据首先被保存到Excel文件，接着创建数据库表并将数据保存到MySQL数据库中。

摘要由CSDN通过智能技术生成

def main():
    for page in range(0,4):
        url=f" https://v.huya.com/g/all?set_id=31&order=hot&page={page}"
        datalist=getDate(url)
    #保存到Excel
    # getSave(datalist)
    # print(datalist)
    #创建数据库表
    # createdatabase()
    #保存数据到数据库
    saveDatabase(datalist)
def getDate(url):
    data=getUrl(url)
    return data

#这里有对两次网页的请求，是因为，第一个是在外面的网页获取参数，第二次是获取每个参数的网页数据
def getUrl(url):
    head={
         "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36"
     }
    datalist=[]
    response=requests.get(url=url,headers=head)
    # 通过正则获取想要的参数
    videos=re.findall('<a href="/.huya.com/play/(\d+)\.html"',response.text)