BeautifulSoup爬取博客实例

BeautifulSoup爬取博客实例

  • 爬取对象はてなブックマーク博客(日本网站)
  • 用for循环爬取每个类别博客的前两页博客
  • 使用python BeautifulSoup库

第一步: 爬取所有类别的文本以及链接

'''
导入beautifulsoup库用来解析网页
导入request库用来获得HTML文件
导入pandas库用来生成表格
'''

from bs4 import BeautifulSoup
import requests
import pandas as pd
#创建表格
columns=["TAG", "URL"]
df = pd.DataFrame(columns=columns)
#网页的名头(比如baidu的网页前面都是www.baidu.com/啥啥啥)
base_url = "https://b.hatena.ne.jp"
#获得网页文件信息
home_url = requests.get("https://b.hatena.ne.jp/hotentry/all").content
#给beautifulsoup进行解析
soup = BeautifulSoup(home_url, 'html.parser',from_encoding="utf8") 

li_tag = []
li_url =[]
#寻找class = "navi-link js-navi-link"的div标签(有许多)
#简单说一下find_all()和find()的区别, find_all()找到所有输出列表; find()找到第一个输出第一个字符串
tree = soup.find_all("div", class_="navi-link js-navi-link")
#对每个div标签都获得以下我们需要的信息    
for branch in tree:
    tag = branch.a.string #获得标签里的文本
    link = branch.find("a")["href"] #获得标签里的链接
    li_tag.append(tag) #加入创建存放博客类别的列表
    li_url.append(base_url + link) #加入创建博客类别子链接的另一个列表
#全部塞入Framework做成表格输出<
  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
最新修复鹅贝贝场理财拆分系统源码!可以通过购买动物来饲养,生产,收获,出手,偷取,升级,签到,收益的游戏源码。已经测试可用。 玩法介绍: 一、(鹅贝贝)玩家须知: ①新买蛋注册的会员提供一个“实习孵蛋房”进行实习和学习,该房仅孵化注册时首次买到的即时成交的种蛋(1 一 10 只),只要在 7 天之内本人签到一次和徒弟帮加温一次即可成功孵化! ②饿鹅急救规则:对于前一天因自身原因忘记喂食而被饿昏的鹅,可在当天通过购买“急救包”(每只鹅 0.5 元菜票)拯救回来(不能超过一天)。 ③为照顾更多用户能参与进来,每人每天限购额 50 只蛋和 50 只鹅。 新玩家进场购买十个 DanDan 不受时间限制(最多 10 个) 新玩家实习孵化房,7 天内,本人签到一次,徒弟帮加温一次,就可以孵化成功 JiJi 交易卖出。 老玩家要提前充值好菜票,9 点 1 秒准时开抢,每个微信号限定 50 鹅,50 蛋,手快挂单才有,手慢了又等明天哦 老玩家买到 DanDan 的先开好蛋房放蛋孵化,自己签到加温,发二维码让徒弟帮忙加温,(7 天,每天各一次),一个徒弟可加温 5 间蛋房 500 蛋。 老玩家买到 JiJi 的一定要及时加鹅放进农场,买足饲料,每天喂饱一次,不用徒弟帮忙。 (打开我的财界面所有操作有红色警示,红点消除那表示所有操作己完成)。 记录可查是否有饿鹅。每天记得喂鹅,忘了会饿坏鹅又要医治(麻烦),切记 二、只要和朋友分享“鹅贝贝”, 如下奖励属于你的! 1:成为徒弟(只要买鹅或蛋就成为徒弟啦) ①孵蛋卖鹅有钱赚, ②养鹅卖蛋有钱赚。 2:成为师傅:(扫你二维码的人买了鹅或蛋你就升级为师傅啦) ①徒弟卖鹅、卖蛋,交易额的 1%。 ②徒弟买道貝(饲料)10%。 3:成为师爷(徒弟、徒孙加起来有 300 人你就是师爷啦!) ①徒弟、徒孙交易额的 1%。 ②徒弟、徒孙们买道貝(饲料)5%。 4:成为盟主(你有 10 个徒弟成为师爷,你就是 3000 人以上团队的盟主) ①徒弟徒弟们交易额的 1%。 ②徒弟徒弟们买道具(饲料)2%。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值