![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
还没想好116
这个作者很懒,什么都没留下…
展开
-
爬虫_4、requests的post方法以及json字符串处理
再来回顾一下爬虫的五个步骤:1.需求分析2.寻找网址3.下载网站的返回内容(需要用到:requests)4.通过网站的返回内容找到需要爬取的数据(需要用到:正则表达式re,XPATH-lxml)5.存储找到的数据内容(需要用到:MySQL)步骤1、2、3前面已经总结过了,这篇看看步骤4、5步骤4:通过网站的返回内容找到需要爬取的数据我们以百度翻译为例:浏览器中访问百度翻译,...原创 2019-11-08 14:37:40 · 1060 阅读 · 0 评论 -
爬虫笔记_1、爬虫的五个步骤及举例
爬虫的五个步骤:1.需求分析2.寻找网址3.下载网站的返回内容(需要用到:requests)4.通过网站的返回内容找到需要爬取的数据(需要用到:正则表达式re,XPATH-lxml)5.存储找到的数据内容(需要用到:MySQL)其中,步骤1、2是我们自己根据自己的需要去分析设定的,步骤3、4、5是需要自己写程序来执行的。举个例子:需求分析假如需求是:爬取十万张美女图片:首...原创 2019-11-06 15:56:54 · 1738 阅读 · 0 评论 -
爬虫笔记_2、requests的使用方式与HTTP协议
上文中提到了爬虫的五个步骤,第1、2步骤对需求的分析和网站的寻找,那么这篇博文就来记录一下第三个步骤:步骤三是:下载网站的返回内容即:我们如何通过程序去获取网页的HTML等信息呢?环境:anacondapycharmimport requests # 导入requests模块url = 'https://www.baidu.com' # 假如网址是百度#...原创 2019-11-06 22:19:28 · 1310 阅读 · 0 评论