python3 爬虫
爬虫的学习
yu1069153913
这个作者很懒,什么都没留下…
展开
-
1.1 Python3环境的安装与配置
1.1 Python3的安装以下配置都是基于Windows系统。Window下安装Python3的方式有两种:1. 通过Anaconda安装(推荐使用这种方式安装)Anaconda提供了Python的科学计算环境,里面自带Python以及常用的库。Anaconda官方下载地址:Anaconda官网:https://www.anaconda.com下载完成之后,直接双击安装包即可。2....原创 2019-10-05 17:25:03 · 180 阅读 · 0 评论 -
1.2 请求库的安装
1.2 请求库的安装爬虫可以简单分为几步:抓取页面,分析页面,存储数据。在抓取页面的过程中,我们需要模拟浏览器向服务器发出请求,所以需要用到一些Python库来实现HTTP请求操作。1.2.1 requests库的安装requests库属于第三方库,Python自带默认不会有这个库,因此需要我们手动安装。注:如果你使用的是Anaconda环境,那么这个库应该是有的。下面讲解一下手动安装类...原创 2019-10-05 17:27:25 · 283 阅读 · 0 评论 -
2.1 HTTP基本原理
2.1.1 URI 和 URLURI : 统一资源标志符(Uniform Resource Identifier)URL : 统一资源定位符(Uneverial Resource Locator)例: https://github.com/favicon.ico 是 GitHub 的网站图标链接,它是一个URL,也是一个URI。URL 是 URI 的子集,也就是说每个URL都是URI,但不...原创 2019-10-05 19:14:54 · 444 阅读 · 0 评论 -
2.2 网页基础
2.2.1 网页的组成网页可以分为3个部分:HTMLCSSJavaScript1. HTMLTML是用来描述网页的一种语言,全称:Hyper Text Markup Language,即超文本标记语言。不同类型的元素通过不同类型的标签来表示,如图片用img标签表示,视频用video标签表示,段落用p表示,它们之间的布局通过布局标签div嵌套组合而成。2. CSSCSS,全称 ...原创 2019-10-05 19:21:56 · 213 阅读 · 0 评论 -
2.3 爬虫的基本原理
2.3.1 爬虫概述爬虫就是获取网页并提取和保存信息的自动化程序一般有4个步骤:获取网页提起信息保存数据自动化程序1. 获取网页获取网页就是获取网页的源代码。源代码里面包含了网页的部分有用信息,只要把源代码获取下来,就能从中提取有用信息。Python提供了许多库来帮助我们实现这个功能,如urllib,requests等。2. 提取信息最常用的方法是采用正则表达式进行提取...原创 2019-10-05 19:26:28 · 166 阅读 · 0 评论 -
2.4 会话和Coolies
在浏览网站的过程中,有些页面需要登录才能访问,而且登录之后可以连续访问很多次网站。但是有时候过一段时间就需要重新登录。这些都设计会话(Session)和Cookies的相关知识。2.4.1静态页面和动态页面1. 静态页面一个HTML代码实例:<!DOCTYPE html><html lang="en"><head> <meta cha...原创 2019-10-05 19:32:19 · 136 阅读 · 0 评论 -
Requests库学习(1):Requests库基础
the website is APIRequests:自动爬取HTML页面,自动网络提交请求1. Requests库的安装打开控制台,输入:pip install requests更多安装库的方法可见请求库的安装:https://blog.csdn.net/yu1069153913/article/details/1021593542. Requests库的主要方法Request...原创 2019-10-07 15:49:14 · 335 阅读 · 0 评论 -
Requests库学习(2):爬取页面的通用代码框架
网络连接有风险,异常处理很重要1. 理解Requests库的异常异常说明requests.ConnectionError网络连接错误异常,如DNS查询失败,拒绝连接等requests.HTTPErrorHTTP错误异常requests.URLRequiredURL缺失requests.TooManyRedirects超过最大重定向次数,产生重定向异...原创 2019-10-07 16:01:10 · 264 阅读 · 0 评论 -
Requests库学习(3):Requestests库主要方法解析
1. 主要方法requests.request(method, url, **kwargs)method:请求方式,对应get/put/post等七种url:拟获取页面的url链接** kwargs:控制访问的参数,共13个注:以下两个语句作用完全相同# 1:r = requests.request('GET', 'http://www.baidu.com')# 2:r =...原创 2019-10-07 16:48:40 · 235 阅读 · 0 评论 -
Robots协议
Robots协议1. Robots协议基础2.Robots协议的遵守方式1. Robots协议基础Robots协议,即Robots Exclusion Standard 网络爬虫排除协议。作用:网站告知网络爬虫哪些页面可以爬取,哪些不能爬取形式:在网站根目录下的robots.txt文件例:京东的Robots协议http://www.jd.com/robots.txt可以看到京东对爬虫...原创 2019-10-08 11:11:54 · 1484 阅读 · 0 评论 -
案例1:京东商品页面的爬取
本节使用Requests库对京东商品的某一个页面进行爬取。目标网址链接:https://item.jd.com/100002795959.htmlimport requestsif __name__ == "__main__": # 下面是是爬取京东商品页面的全部代码 url = 'https://item.jd.com/100002795959.html' # P30手机...原创 2019-10-08 11:19:27 · 3501 阅读 · 0 评论 -
案例2:亚马逊商品页面的爬取
本节使用Requests库对亚马逊商品的某一个页面进行爬取。爬取代码如下:import requestsif __name__ == "__main__": url = 'https://www.amazon.cn/gp/product/B01M8L5Z3Y' try: # 由于网页会察觉到因为python爬虫的原因而无法访问,使用下面代码更改头信息,模拟一个浏览器...原创 2019-10-08 11:24:48 · 2207 阅读 · 0 评论 -
案例3:百度/360搜索关键词提交
百度的关键词接口: http://www.baidu.com/s?wd=keyword360的关键词接口: http://www.so.com/s?q=keywordimport requestsif __name__ == "__main__": # 全代码:爬取百度 keyword = 'Python' try: kv = {'wd':...原创 2019-10-08 19:45:28 · 522 阅读 · 0 评论 -
案例4:网络图片的爬取和存储
爬取网上的图片文本使用的图片链接:http://s1.bdstatic.com/r/www/cache/mid/static/xueshu/img/logo_4b1971d.gifimport requestsimport osif __name__ == "__main__": # 爬取的全代码 root = 'D://picutre//' # 设置根目录 ...原创 2019-10-08 19:50:46 · 536 阅读 · 0 评论 -
案例5:IP地址归属地的自动查询
IP地址查询网站:http://ip138.com查询的url接口是:http://m.ip138.com/ip.sap?ip=ipaddress实现代码:import requestsurl = 'http://m.ip138.com/ip.asp?ip='try: r = requests.get(url + '202.204.80.112') # 增加查询的IP r...原创 2019-10-08 19:56:14 · 1363 阅读 · 3 评论 -
BeautifulSoup库的学习(1):库安装与简单使用
BeautifulSoup库学习1. BeautifulSoup的安装2. 获取网页源代码3. 简单使用BeautifulSoup库1. BeautifulSoup的安装BeautifulSoup库一般用来解析网页。安装方法:打开cmd控制台,输入pip install beautifulsoup4BeautifulSoup库的安装测试打开pycharm(我使用的python编译...原创 2019-10-08 20:19:26 · 224 阅读 · 0 评论 -
BeautifulSoup库的学习(2):BeautifulSoup库的基本元素
BeautifulSoup库的基本元素1. BeautifulSoup库的理解2. BeautifulSoup库的解析器3. Beautiful Soup类的基本元素4. 使用代码获取HTML基本元素1. BeautifulSoup库的理解BeautifulSoup库是解析、遍历、维护“标签树”的功能库。BeautifulSoup库的引用BeautifulSoup库,也叫beautif...原创 2019-10-08 20:58:34 · 588 阅读 · 0 评论