仅三步完成python抓取网页数据到EXCEL

最新推荐文章于 2024-01-18 07:54:56 发布

yeangqing

最新推荐文章于 2024-01-18 07:54:56 发布

阅读量6.4k

点赞数

分类专栏： python学习文章标签：大数据

本文链接：https://blog.csdn.net/yeangqing/article/details/125854487

版权

第一步：爬取网页

def getdata(baseurl):
    datalist = []
    for i in range(0,10):     #调用获取页面信息的函数、10次
        url = baseurl + str(i*25)
        html=askURL(url)   #保存获取到的网页源码
    #2.逐一解析数据
        soup =BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):    #查找符合要的字符串，形成列表
            # print(item)   #测试查看电影item全部信息
            data = []    #保存一部电影的所有信息
            item = str(item)

            #影片详情的链接
            link = re.findall(findlink,item)[0]    #re库用来通过正则表达式查找指定的字符串
            data.append(link)                       #添加链接

            imgsrc = re.findall(findimgsrc,item)[0]
            data.append(imgsrc)      #添加图片
            titles = re.findall(findtitle,item)        #片名可能只有一个中文名，没有外国名
            if(len(titles) == 2):
                ctitle =titles[0]          #添加中文名
                data.append(ctitle)
                otit