python爬虫实战(1)——访问网页

本文介绍了Python爬虫的基础知识,包括网络爬虫的概念和urllib模块的使用。通过urllib.request模块访问网页,并展示了如何处理获取的utf-8编码的bytes对象,将其解码为Unicode编码的HTML内容。
摘要由CSDN通过智能技术生成

python爬虫实战(1)———访问网页及更改编码格式

疫情期间在家闲着没事,找到本科时的课本,随手翻了翻还是挺有意思的。在此将自己重新学习的新感受记录下来,方便以后查阅,如能帮助到广大的初学者朋友,将是莫大的荣幸。

1.网络爬虫
网络爬虫,又称为网页蜘蛛(WebSpider),如果我们把整个互联网想象成类似于蜘蛛网一样的构造,那么这只爬虫,就是要在互联网这张大网上爬来爬去,以便捕获我们需要的资源。
我们之所以能够通过百度或者谷歌等搜索引擎检索到我们要浏览的网页,靠的就是他们大量的爬虫每天在互联网上爬来爬去,对网页中的每个关键词进行索引,建立索引数据库。经过复杂的算法进行排序后,将这些结果按照与搜索关键词的相关度高低,依此排列。
使用Python编写爬虫代码,要解决的第一个问题是:如何用python访问互联网?要解决这个问题,就要用到一个模块——urllib模块。
2.urllib模块
urllib,是URL和lib两个单词共同构成的:URL,Uniform Resource Locator,统一资源定位符,也就是我们通常所说的网页地址;lib,是library(库)的缩写,里面有很多我们需要用到的工具或是代码块。通过lib我们可以方便的调用这些工具或代码块而简化我们的代码。
URL的一般格式为(在方括号[ ]内的为可选项):protocol://hostname[port]/path/[;parameters][?query]#fragment。
URL由三部分组成:
(1&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值