![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫入门
小橙爱编程
努力做programmer里最会dance的dancer,做dancer里最会coding的programmer
展开
-
网络爬虫入门(五):数据存储(CSV和DB)
在我们解析网页之后,我们就可以把需要的内容存入本地了。这里主要介绍两种常用的方式:存储到CSV文件和数据库存储到CSVCSV(Comma-Separated Values)是逗号分隔值的文件格式,其文件以纯文本的形式存储表格数据。CSV文件的每一行都用换行符分隔,列与列之间用逗号分隔。相较于TXT文件,CSV文件不仅可以用记事本打开,还可以用Excel打开,直接通过表格的形式展现出来,因而提升了数据的可观看性。同时CSV文件和TXT文件大小相差不大,所以在爬虫中常用于存储数据。CSV文件的操作主要包括原创 2020-08-12 15:37:38 · 771 阅读 · 0 评论 -
网络爬虫入门(四):解析网页
在我们已经可以将网页资源下载到本地后,就可以进行我们的第二部操作了,即将网页中我们需要的资源进行解析(上一节的selenium中也有提及)。本篇内容总结了其他三种常用的解析网页方式。一、正则表达式正则表达式是最常用的解析字符串的方法,它通过定义了一系列的正则字符来代表一些特殊的含义。标识符描述标识符描述.匹配任意字符,除了换行符\s匹配空白字符*匹配前一个字符0次或多次\S匹配任何非空白字符+匹配前一个字符1次或多次\d匹配数字,等价于[0-9]原创 2020-08-03 21:49:23 · 1711 阅读 · 0 评论 -
网络爬虫入门(三):页面资源获取(动态)
上一节我们简单说到可以通过requests库来发送get请求或者post请求来直接获取页面资源,但这仅仅是考虑到我们所需要的所有的资源都已经包含在页面中了。事实上,由于AJAX技术的实现,很多网页为了调高效率,采用了动态局部刷新的方法,这意味着网站上的内容并不一定包含我们所需要的全部资源。于是,为了解决这个问题,我们采用了动态爬取的方法。动态爬取主要采用两种方法:一种是解析真实地址,另一种是通过Selenium动态模拟浏览器抓取。一、直接通过浏览器解析真实资源地址通过实际观察,我们发现,有些网页中的资原创 2020-07-30 11:25:49 · 976 阅读 · 0 评论 -
网络爬虫入门(二):第一步Requests获取页面(静态获取)
一、获取页面我们要爬取数据,就需要先去找到数据来源,即找到数据所在的页面,本节内容总结了基本的获取页面的方法二、基本流程首先我们需要用到爬虫所必备的第三方库Requests。顾名思义,Requests库的作用就是发送http请求指令,从而获取我们想要爬取的目标页面。我们通过在终端中输入一下命令来安装Requestspip install requestsrequests库中所提供了发送http请求最重要的两个请求方式,get请求和post请求,我们可以根据需要自身需要来使用,一般来说,大多数网页原创 2020-06-28 17:59:56 · 1975 阅读 · 0 评论 -
网络爬虫入门(一):爬虫知识普及
本篇内容主要是为一些非计算机领域人员以及新入门爬虫领域的人员作简单的介绍,采用的话语比较直白,一些理解不当的地方欢迎大家指正网络爬虫是什么?想必很多人都听过网络爬虫,但其实并不太清楚爬虫到底是个什么东西。简单来说,爬虫其实就是一个自动从网上获取数据的程序,这个程序就像一个小虫子一样,在一个个的网站之间爬动,遇见他喜欢吃的(程序要求的)东西就吃掉(获取下来),遇见不喜欢的东西就忽略不理,最后把它这一趟吃的东西带回来交给我们,完成了它这一次的任务(数据采集)。说到这里可能你就明白了,爬虫就是一个数据获取.原创 2020-06-27 15:41:34 · 440 阅读 · 0 评论