爬百度贴吧并保存链接

from openpyxl import Workbook

class TiebaSpider(object):

    def __init__(self,tieba_name):

        self.tieba_name=tieba_name

        self.tieba_url='https://tieba.baidu.com/f?kw='+tieba_name+'&ie=utf-8&pn={}'

        self.headers={

            'User-Agent': '填自己的',

            'Host': 'tieba.baidu.com'

        }

    #构造列表

    def get_url_list(self):

        url_list = []

        for i in range(10):

            url_list.append(self.tieba_url.format(i * 50))

        return url_list

 

 

    def save_html(self,files_path,tieba_url_list):

 

        #python-第一页

 

        # 新建工作簿

        wb = Workbook()

        # 选择默认的工作表

        sheet = wb.active

        # 给工作表重命名

        sheet.title = '百度贴吧'

        header = ['页码', '链接']

        sheet.append(header)

        for i in range(0,10):

            sheet.cell(row=i+2,column=1,value=files_path[i])

        for i in range(0,10):

        sheet.cell(row=i+2,column=2,value=tieba_url_list[i])

        wb.save('百度贴吧.xlsx')

 

 

    def run(self):

        #1.构造列表

        tieba_url_list=self.get_url_list()

        print(tieba_url_list)

        files_path=[]

        for tburl in tieba_url_list:

 

        #3.保存页面

          page_num=tieba_url_list.index(tburl)+1

          file_path = '{}第{}页'.format(self.tieba_name, page_num)

          files_path.append(file_path)

        print(files_path)

        self.save_html(files_path,tieba_url_list)

 

 

if __name__ =='__main__':

    tb_spider=TiebaSpider('lol')#或输入其它想看的内容

    tb_spider.run()

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

vsropy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值