def main():
for page in range(0,4):
url=f" https://v.huya.com/g/all?set_id=31&order=hot&page={page}"
datalist=getDate(url)
#保存到Excel
# getSave(datalist)
# print(datalist)
#创建数据库表
# createdatabase()
#保存数据到数据库
saveDatabase(datalist)
def getDate(url):
data=getUrl(url)
return data
#这里有对两次网页的请求,是因为,第一个是在外面的网页获取参数,第二次是获取每个参数的网页数据
def getUrl(url):
head={
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36"
}
datalist=[]
response=requests.get(url=url,headers=head)
# 通过正则获取想要的参数
videos=re.findall('<a href="/.huya.com/play/(\d+)\.html"',response.text)
python爬虫
最新推荐文章于 2023-01-10 16:44:29 发布
这段Python代码实现了一个简单的爬虫,用于抓取虎牙网站上多个页面的视频信息,包括视频链接、标题、观看量和上传时间。数据首先被保存到Excel文件,接着创建数据库表并将数据保存到MySQL数据库中。
摘要由CSDN通过智能技术生成