第0期-通过hao123爬取导航网站

嗨,欢迎来到这里,我是瞎老弟,这是一个全新的计划。我打算在2021年剩下的时间中,研究100个热门网站,看看他们都有什么数据,是否容易获取,当然本期主要是介绍,是不算在内的。

说实话,回忆起来,上网接近20年,用的最多还是搜索引擎,想要找什么网站,直接搜索,常用的网站,还真就不认识多少。想要多记住几个网站,好去访问,似乎是我很小的时候的事情了。

总之,我打算第0期通过hao123获取到一些热门的网站,以此来作为我们xiaspider2021计划中的部分目标网站。当然,我也会进行一些挑选。比如很多网页游戏的网站,可能就不在我们的考虑范围内。

特别说明:xiaspider2021计划的主要目的在于学习和研究,大多数时候不会提供完整的程序代码(这主要由于简单且重复的代码部分我并不打算完成,例如数据的提取:大多数时候,从原始数据中提取所需数据是没有什么难度的),因此,如果你需要完整的代码,或者需要我为你工作写其他的爬虫程序的话,请加qq群:383472162,只要是有关于爬虫的任何需求,我都会尽力的。

好吧,多说不说,我们还是直接开始吧!

"""
功能:爬取hao123上的导航网站
时间:2021-8-28
作者:瞎老弟
联系方式:qq群383472162

说明
hao123没有什么特别的地方,通过最最简单的对其网站首页地址发送一次请求,就可以得到导航数据。
不过一个问题在于,得到地址中很多是带有请求参数的,不难猜测这是hao123的一种盈利方式。
如果你不想让它赚的话(太坏了嗷~),需要手动把它设置的请求参数清除掉。
这并不困难,只要简单的处理一下字符串就可以了。
当然,有一个坏处是,如果你这样做,也可能会导致有用的请求参数一起被清除掉。
"""

import requests

url = "https://www.hao123.com/"

response = requests.get(url)

# 此时,所需的数据已经保存在response.text中了,只要提取出来即可
print(response.text)

好吧,本期主要就是一个xiaspider2021计划的介绍,也没有很多有价值的内容。感谢各位的收看,那我们就下期再见啦!

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值