仅三步完成python抓取网页数据到EXCEL

第一步:爬取网页

def getdata(baseurl):
    datalist = []
    for i in range(0,10):     #调用获取页面信息的函数、10次
        url = baseurl + str(i*25)
        html=askURL(url)   #保存获取到的网页源码
    #2.逐一解析数据
        soup =BeautifulSoup(html,"html.parser")
        for item in soup.find_all('div',class_="item"):    #查找符合要的字符串,形成列表
            # print(item)   #测试查看电影item全部信息
            data = []    #保存一部电影的所有信息
            item = str(item)

            #影片详情的链接
            link = re.findall(findlink,item)[0]    #re库用来通过正则表达式查找指定的字符串
            data.append(link)                       #添加链接

            imgsrc = re.findall(findimgsrc,item)[0]
            data.append(imgsrc)      #添加图片
            titles = re.findall(findtitle,item)        #片名可能只有一个中文名,没有外国名
            if(len(titles) == 2):
                ctitle =titles[0]          #添加中文名
                data.append(ctitle)
                otit
  • 0
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值