网络爬虫笔记
文章平均质量分 81
机灵鹤
这个作者很懒,什么都没留下…
展开
-
网络爬虫笔记【6】 Python 中的正则表达式模块与应用
python3 内置的 re 模块,包含了正则表达式的操作集。 re 模块的一般使用步骤如下:编译正则表达式,即使用 compile() 函数将正则表达式的字符串形式编译为一个 Pattern 对象。 对目标字符串进行匹配,即通过 Pattern 对象提供的一些列方法对文本进行匹配查找,获得匹配结果(Match 对象) 提取结果信息,即使用 Match 对象提供的属性和方法获得信息,还可以...原创 2018-10-23 11:51:45 · 5732 阅读 · 0 评论 -
Python爬虫基础:使用 Python 爬虫时经常遇到的问题合集
从开始玩爬虫到现在差不多半年多了,写了不少爬虫,爬了不少网站,在博客里也分享了不少爬虫的教程。我的教程文章中,一般会附带完整的爬虫代码,大家只要搭建好环境,便可以直接运行使用。不少读者朋友在使用爬虫遇到问题时也会跟我讨论,交流过程中我发现了一些比较共性的问题。因此文章重点放在了思路分析上,具体如何编写代码爬取数据则简单略过。造成了一些读者,基于我的代码进行修改爬取其他相似网站时束手无策。...原创 2019-07-08 15:28:39 · 17254 阅读 · 21 评论 -
Python 网络爬虫实战:使用 Scrapy + MongoDB 爬取京东网站并部署到云服务器上
本周爬取的网站是京东(https://search.jd.com/),这次我又使用了一些 “新技术” : 使用 Scrapy 框架来写爬虫,并将爬取结果存入 MongoDB 数据库中。 将爬虫部署到阿里云服务器上,以便将来可以每天定时自动爬取。 写在前面的话1. 京东网站的搜索页是(https://search.jd.com/),它有个比较方便的点,是它不需要用户登陆即可搜...原创 2018-11-26 19:12:56 · 7501 阅读 · 10 评论 -
网络爬虫笔记【8】 应用 BeautifulSoup 库解析网页内容
Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,它能够通过你喜欢的 parser 实现文档导航、查找、修改文档的 parser tree。Beautiful Soup 会帮你节省数小时甚至数天的工作时间.使用 lxml parser 解析 HTML 并提取内容首先看一个简单应用 BeautifulSoup 解析网页的例子。例子中,Beautiful...原创 2018-10-24 16:40:45 · 5462 阅读 · 0 评论 -
爬虫学习笔记【1】 使用 urllib 获取 www 资源
1. 掌握普通网页的获取方法查看 urllib.request 的基本信息urllib.request 中最常用的方法是 urlopen() ,它也是我们使用 urllib 获取普通网页的基本方法。 在应用之前,我们先看一下 urllib 的源代码,这是从事IT软件类技术工作要养成的职业习惯。 由于 urllib 是 python3 内置库,所以无需安装。 源代码的路径可以在 import...原创 2018-10-12 21:44:53 · 6737 阅读 · 1 评论 -
网络爬虫笔记【2】 如何通过 HTTP 认证
登陆网页前遇到的要求输入用户名和密码的程序,通常称为身份认证程序。HTTP 认证可以保护一个作用域(成为一个 realm)内的资源不受非法访问。当一个请求要求取得受保护的资源时,网页服务器回应一个 401 Unauthorized error 错误码。这个回应包含了一个指定验证方法和领域的 WWW-Authenticate 头信息。把这个领域想象成一个存储着用户名和密码的数据库,它将被用来标识受保...原创 2018-10-18 20:52:29 · 5943 阅读 · 1 评论 -
网络爬虫笔记【3】 使用代理防止本机 IP 被封
使用代理是对抗反爬虫机制的常用做法。很多网站会检测某一段时间某个外来 IP 地址对服务器的访问次数等信息。如果访问次数或方式不符合安全策略,就会禁止该外来 IP 对服务器的访问。所以,爬虫设计者可以用一些代理服务器,使自己真实 IP 地址被隐藏,免于被禁止。urllib 中使用 ProxyHandler 来设置代理服务器的使用网络上通常有两类代理:免费代理、收费代理。免费代理可以通过百度/...原创 2018-10-18 20:55:36 · 7245 阅读 · 0 评论 -
网络爬虫笔记【4】 掌握获取 Ajax 异步加载网页内容的方法
AJAX(Asynchronous Javascript and XML,异步的 Javascript 和 XML)。AJAX 最大的优点是在不重新加载整个页面的情况下,可以与服务器交换数据并更新部分网页的内容。我们以 豆瓣电影 为例,打开网页之后,按 F12 ,在 Network 中监控一下这个页面。通过测试可以发现,每点击一次“加载更多”按钮,便会多一个响应:https://movie.d...原创 2018-10-19 22:11:17 · 6675 阅读 · 0 评论 -
网络爬虫笔记【5】 信息解析与提取和正则表达式
前面我们学了爬虫,可以成功的爬取整个网页的内容,但是通常而言,网页中差不多 90% 的内容对于我们来说都是没有用的。所以后面我们会去学习如何从爬到的数据中,准确地找到我们所需要的数据,掌握信息解析和提取的方法。一、信息解析与提取的一般方法(思路)1. 完整解析信息的标记形式,再提取关键信息- 需要标记解析器- 优点是解析准确- 缺点是解析过程繁琐/速度慢2. 不解析全文,直接搜索信息...原创 2018-10-21 21:14:34 · 5601 阅读 · 0 评论 -
网络爬虫笔记【7】 利用 XPATH 实现 XML 和 HTML 文本信息提取
XML(Extensible Markup Language)指可扩展标记语言,被设计用来传输和存储数据。详细信息可参考 http://www.w3school.com.cn/xml。HTML指的是超文本标记语言 (Hyper Text Markup Language),是WWW上用于编写网页的主要工具,详细信息请参考 http://www.w3school.com.cn/htmlXML和H...原创 2018-10-23 15:19:23 · 6244 阅读 · 0 评论