用python爬虫实现中国大学信息的获取（简略版）

1234aabbdc

于 2021-01-28 19:55:44 发布

阅读量1.3k

点赞数

分类专栏： python 笔记文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46629682/article/details/113356980

版权

python 同时被 2 个专栏收录

1 篇文章 1 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

用python爬虫实现中国大学信息的获取（简略版）

前期准备：

	一些python语言基础
	开发IDE：pycharm
	bs4,xlwt等python第三方库的安装

爬虫思路（代码解析）：

第一步：爬取网页的源代码
熟悉re库的用法，这一步主要是你得把网页后面的源代码爬取下来，HTMl语言大概能看懂就成，python代码很短，8，9行基本就能实现（具体见askurl函数，81行），我采用的是post请求，封装了一下header。（目的是为欺骗网站我们是一个浏览器而不是一个爬虫），自己本机的信息在浏览器的开发者模式下都可以看到。实现网页翻页的话改变网址就成，一般而言是改变某个数字，很方便，用for循环控制一下就成（31行）。

第二步：解析网页，获取我们想要的数据
熟悉beautifulsoup库的用法，个人感觉本质是就是搜寻我们需要的信息然后以列表的形式返回，先找标签，先爬一个，比如我的data就是一个大学的信息（图片链接，名称，地域等等）。然后找到标签后进行搜寻，我搜寻的原则采取的是正则表达式。

第三步：保存进数据库
当然，我保存进了excel表，这步比较简单，用utf-8编码创建一个excel对象，然后创建一个sheet表，然后用函数写入，最后保存

小总结：
当然，这中间会遇到很多小问题，比如发现utf-8编码不行，就采用了ANSI编码，然后正则表达式有一些细节换行要不要加进去，列表中出现了我们不需要的元素用replace函数替换等等等等（省略50字）

上源码：在这里插入图片描述

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
打赏
2
评论
用python爬虫实现中国大学信息的获取（简略版）

用python爬虫实现中国大学信息的获取（简略版）前期准备：一些python语言基础开发IDE：pycharm bs4,xlwt等python第三方库的安装爬虫思路（代码解析）：第一步：爬取网页的源代码熟悉re库的用法，这一步主要是你得把网页后面的源代码爬取下来，HTMl语言大概能看懂就成，python代码很短，8，9行基本就能实现（具体见askurl函数，81行），我采用的是post请求，封装了一下header。（目的是为欺骗网站我们是一个浏览器而不是一个爬虫），自己本机的信息在浏览器
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

1234aabbdc 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。