Python爬虫学习笔记总结(一)

最新推荐文章于 2023-10-10 15:06:59 发布

大数据—————————————————

最新推荐文章于 2023-10-10 15:06:59 发布

阅读量533

点赞数 1

文章标签： python 爬虫 python学习

本文链接：https://blog.csdn.net/yoooooooooooooop/article/details/90348411

版权

〇. python 基础

先放上python 3 的官方文档:https://docs.python.org/3/ (看文档是个好习惯)

关于python 3 基础语法方面的东西,网上有很多,大家可以自行查找.

一. 最简单的爬取程序

爬取百度首页源代码:

来看上面的代码:

对于python 3来说,urllib是一个非常重要的一个模块，可以非常方便的模拟浏览器访问互联网,对于python 3 爬虫来说, urllib更是一个必不可少的模块,它可以帮助我们方便地处理URL.

urllib.request是urllib的一个子模块,可以打开和处理一些复杂的网址

如果你在学习Python的过程当中有遇见任何问题，可以加入我的python交流学习qq群：250933691，多多交流问题，互帮互助，群里有不错的学习教程和开发工具。学习python有任何问题（学习方法，学习效率，如何就业），可以随时来咨询我

The urllib.request

module defines functions and classes which help in opening URLs (mostly HTTP) in a complex world — basic and digest authentication, redirections, cookies and more.

urllib.request.urlopen()方法实现了打开url,并返回一个 http.client.HTTPResponse对象,通过http.client.HTTPResponse的read()方法,获得response body,转码最后通过print()打印出来.

urllib.request.urlopen(url, data=None, [timeout, ]***, cafile=None, capath=None,cadefault=False, context=None)

For HTTP and HTTPS URLs, this function returns a http.client.HTTPResponse

object slightly modified.

< 出自: https://docs.python.org/3/library/urllib.request.html >

decode('utf-8')用来将页面转换成utf-8的编码格式，否则会出现乱码

二模拟浏览器爬取信息

在访问某些网站的时候，网站通常会用判断访问是否带有头文件来鉴别该访问是否为爬虫，用来作为反爬取的一种策略。

先来看一下Chrome的头信息（F12打开开发者模式）如下：

如图，访问头信息中显示了浏览器以及系统的信息（headers所含信息众多，具体可自行查询）

Python中urllib中的reque

最低0.47元/天解锁文章

大数据—————————————————

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫学习笔记总结(一)

〇. python 基础先放上python 3 的官方文档:https://docs.python.org/3/(看文档是个好习惯)关于python 3 基础语法方面的东西,网上有很多,大家可以自行查找.一. 最简单的爬取程序爬取百度首页源代码:来看上面的代码:对于python 3来说,urllib是一个非常重要的一个模块，可以非常方便的模拟浏览器访问互联网,...
复制链接

扫一扫