用python爬虫实现中国大学信息的获取(简略版)

用python爬虫实现中国大学信息的获取(简略版)

前期准备:

	一些python语言基础
	开发IDE:pycharm
	bs4,xlwt等python第三方库的安装

爬虫思路(代码解析):

第一步:爬取网页的源代码
熟悉re库的用法,这一步主要是你得把网页后面的源代码爬取下来,HTMl语言大概能看懂就成,python代码很短,8,9行基本就能实现(具体见askurl函数,81行),我采用的是post请求,封装了一下header。(目的是为欺骗网站我们是一个浏览器而不是一个爬虫),自己本机的信息在浏览器的开发者模式下都可以看到。实现网页翻页的话改变网址就成,一般而言是改变某个数字,很方便,用for循环控制一下就成(31行)。

第二步:解析网页,获取我们想要的数据
熟悉beautifulsoup库的用法,个人感觉本质是就是搜寻我们需要的信息然后以列表的形式返回,先找标签,先爬一个,比如我的data就是一个大学的信息(图片链接,名称,地域等等)。然后找到标签后进行搜寻,我搜寻的原则采取的是正则表达式。

第三步:保存进数据库
当然,我保存进了excel表,这步比较简单,用utf-8编码创建一个excel对象,然后创建一个sheet表,然后用函数写入,最后保存

小总结:
当然,这中间会遇到很多小问题,比如发现utf-8编码不行,就采用了ANSI编码,然后正则表达式有一些细节换行要不要加进去,列表中出现了我们不需要的元素用replace函数替换等等等等(省略50字)

上源码:在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

1234aabbdc

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值