嗨,欢迎来到这里,我是瞎老弟,这是一个全新的计划。我打算在2021年剩下的时间中,研究100个热门网站,看看他们都有什么数据,是否容易获取,当然本期主要是介绍,是不算在内的。
说实话,回忆起来,上网接近20年,用的最多还是搜索引擎,想要找什么网站,直接搜索,常用的网站,还真就不认识多少。想要多记住几个网站,好去访问,似乎是我很小的时候的事情了。
总之,我打算第0期通过hao123获取到一些热门的网站,以此来作为我们xiaspider2021计划中的部分目标网站。当然,我也会进行一些挑选。比如很多网页游戏的网站,可能就不在我们的考虑范围内。
特别说明:xiaspider2021计划的主要目的在于学习和研究,大多数时候不会提供完整的程序代码(这主要由于简单且重复的代码部分我并不打算完成,例如数据的提取:大多数时候,从原始数据中提取所需数据是没有什么难度的),因此,如果你需要完整的代码,或者需要我为你工作写其他的爬虫程序的话,请加qq群:383472162,只要是有关于爬虫的任何需求,我都会尽力的。
好吧,多说不说,我们还是直接开始吧!
"""
功能:爬取hao123上的导航网站
时间:2021-8-28
作者:瞎老弟
联系方式:qq群383472162
说明
hao123没有什么特别的地方,通过最最简单的对其网站首页地址发送一次请求,就可以得到导航数据。
不过一个问题在于,得到地址中很多是带有请求参数的,不难猜测这是hao123的一种盈利方式。
如果你不想让它赚的话(太坏了嗷~),需要手动把它设置的请求参数清除掉。
这并不困难,只要简单的处理一下字符串就可以了。
当然,有一个坏处是,如果你这样做,也可能会导致有用的请求参数一起被清除掉。
"""
import requests
url = "https://www.hao123.com/"
response = requests.get(url)
# 此时,所需的数据已经保存在response.text中了,只要提取出来即可
print(response.text)
好吧,本期主要就是一个xiaspider2021计划的介绍,也没有很多有价值的内容。感谢各位的收看,那我们就下期再见啦!