第0期-通过hao123爬取导航网站

最新推荐文章于 2022-03-02 09:23:42 发布

「已注销」

最新推荐文章于 2022-03-02 09:23:42 发布

阅读量430

点赞数

分类专栏： xiaspider2021 文章标签： python 爬虫

本文链接：https://blog.csdn.net/xiaspider/article/details/119963812

版权

xiaspider2021 专栏收录该内容

19 篇文章 3 订阅

订阅专栏

嗨，欢迎来到这里，我是瞎老弟，这是一个全新的计划。我打算在2021年剩下的时间中，研究100个热门网站，看看他们都有什么数据，是否容易获取，当然本期主要是介绍，是不算在内的。

说实话，回忆起来，上网接近20年，用的最多还是搜索引擎，想要找什么网站，直接搜索，常用的网站，还真就不认识多少。想要多记住几个网站，好去访问，似乎是我很小的时候的事情了。

总之，我打算第0期通过hao123获取到一些热门的网站，以此来作为我们xiaspider2021计划中的部分目标网站。当然，我也会进行一些挑选。比如很多网页游戏的网站，可能就不在我们的考虑范围内。

特别说明：xiaspider2021计划的主要目的在于学习和研究，大多数时候不会提供完整的程序代码（这主要由于简单且重复的代码部分我并不打算完成，例如数据的提取：大多数时候，从原始数据中提取所需数据是没有什么难度的），因此，如果你需要完整的代码，或者需要我为你工作写其他的爬虫程序的话，请加qq群：383472162，只要是有关于爬虫的任何需求，我都会尽力的。

好吧，多说不说，我们还是直接开始吧！

"""
功能：爬取hao123上的导航网站
时间：2021-8-28
作者：瞎老弟
联系方式：qq群383472162

说明
hao123没有什么特别的地方，通过最最简单的对其网站首页地址发送一次请求，就可以得到导航数据。
不过一个问题在于，得到地址中很多是带有请求参数的，不难猜测这是hao123的一种盈利方式。
如果你不想让它赚的话(太坏了嗷～)，需要手动把它设置的请求参数清除掉。
这并不困难，只要简单的处理一下字符串就可以了。
当然，有一个坏处是，如果你这样做，也可能会导致有用的请求参数一起被清除掉。
"""

import requests

url = "https://www.hao123.com/"

response = requests.get(url)

# 此时，所需的数据已经保存在response.text中了，只要提取出来即可
print(response.text)

好吧，本期主要就是一个xiaspider2021计划的介绍，也没有很多有价值的内容。感谢各位的收看，那我们就下期再见啦！

「已注销」

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
第0期-通过hao123爬取导航网站

嗨，欢迎来到这里，我是瞎老弟，这是一个全新的计划。我打算在2021年剩下的时间中，研究100个热门网站，看看他们都有什么数据，是否容易获取，当然本期主要是介绍，是不算在内的。说实话，回忆起来，上网接近20年，用的最多还是搜索引擎，想要找什么网站，直接搜索，常用的网站，还真就不认识多少。想要多记住几个网站，好去访问，似乎是我很小的时候的事情了。总之，我打算第0期通过hao123获取到一些热门的网站，以此来作为我们xiaspider2021计划中的部分目标网站。当然，我也会进行一些挑选。比如很多网页游戏
复制链接

扫一扫