零基础简单爬虫制作(以wjyt-china企业黄页爬虫为例)(上)

零、前言
本教程面向毫无编程基础的人群,讲述制作出爬虫所需要的最基本知识。目标是让你就算阅读代码如天书,凭借基本知识,复制代码以及使用搜索引擎也可以制作出可用的爬虫。
同时,本教程也是对笔者本人凭借基本知识,复制代码以及使用搜索引擎制作出可用爬虫的快速学习经历的总结归纳。
再同时,本教程也希望分享给读者三条快速学习哲学:
1、寻找趣味,保持专注。兴趣是最好的老师,发掘兴趣是最强的能力。
2、容忍无知,聚焦实用。在缺乏系统性知识的情况下,要快速涉猎不熟悉的领域并做出成果,需要控制知识与无知的平衡,抑制无知带来的焦虑和恐惧。容忍无知,即用为主,研究为辅。
3、合理抽象,善用搜索。你所遇到的问题几乎总已经被其他人遇到过了。抽象出正确的关键字,选择合适的搜索引擎(不论是百度,谷歌或者是知乎),问题常常可以迎刃而解。

本教程教学用例
爬取对象:中国玩具和婴童用品协会企业黄页
http://www.wjyt-china.org/pagecontrol.do?action=mygslist&object=ToyCompanyYellowAction
爬取任务:遍历企业黄页上的全部企业,进入每个企业的“公司介绍”页面,在公司介绍文本中搜索“研发”或“研制”字样。统计爬取公司总数,所有公司的名称,含有目标字样公司的数目及名称。

一、概述
网络爬虫(Web Crawler)简称爬虫。据百度百科定义,爬虫是按照一定的规则,自动地抓取万维网信息的程序或者脚本。
这个定义准确地抓住了三个关键点。第一,爬虫的目的是抓取网络上的信息,我们可以通过这个工具进行自动的信息爬取。第二,爬虫的本质是程序或脚本,我们需要一个程序或脚本的编辑器来制造它。第三、爬虫的行为是按规则进行的,我们需要为一个并不拥有“智慧”的机器人程序设计严格而严谨地行为规范。总的来说,当我们需要从网络上自动爬取信息,我们就通过程序编辑器,通过设定一系列的行为规范制造出一个机器人程序。这个程序就是爬虫。
爬虫作为机器人程序,具有能够快速且无休无止地爬取大量数据的优点。

二、知识结构
在能够亲手制作出理想的爬虫之前,我们首先需要学习爬虫技术及其前置知识。制作一个简单爬虫需要以下知识:HTML,JavaScript,Python,Python语言的urllib2库。
我们为什么需要这些知识呢?
首先,我们需要了解我们爬取的对象——网页。我们希望爬取网页中的信息,就需要首先了解信息在网页中是如何储存的。绝大多数情况下,网页以HTML为骨架,JavaScript为肌肉,CSS为皮肤。这个比喻是说,HTML制造网页的结构,JavaScript负责网页的动态内容,而CSS对网页进行装饰。我们的目的是爬取网页上的文字或图片

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
如果您下载了本程序,但是该程序存在问题无法运行,那么您可以选择退款或者寻求我们的帮助(如果找我们帮助的话,是需要追加额外费用的)。另外,您不会使用资源的话(这种情况不支持退款),也可以找我们帮助(需要追加额外费用) 爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值