自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 2020-12-11

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。下面我们来分析网络爬虫具体要做哪些核心工作:通过网络向指定的 URL 发送请求,获取服务器响应内容。使用某种技术(如正则表达式、XPath 等)提取页面中我们感兴趣的信息。高效地识别响应页面中的链接信息,顺着这些链接递归执行此处介绍的第 1、2、3 步;使用多线程有效地管理网络通信交互。如果直接使

2020-12-11 23:39:46 82

原创 2020-11-17

Hadoop是Apache软件基金会所开发的并行计算框架与分布式文件系统。Hadoop 最核心的模块包括Hadoop Common、HDFS与MapReduce。HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。采用Java语言开发,可以部署在多种普通的廉价机器上,以集群处理数量积达到大型主机处理性能。HDFS 架构原理HDFS采用master/slave架构。一个HDFS集群包含一个单独的NameNode和多个Da

2020-11-17 15:39:08 83

原创 2020-11-10

2.1认识hadoophadoop由Ambari、Oozie、Zookeeper、Hbase、MapReduce、Tez、Spark、YARN、HDFS、Sqoop、Flume组成。Ambari:Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。Oozie:一个基于工作流引擎的开源框架,由Cloudera公司贡献给Apache,提供对Hadoop Mapreduce、Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容

2020-11-10 14:34:15 173

原创 2020-10-27

大数据概念和特征大数据作为续云计算、物联网之后IT灵域有一次颠覆性概念,备受人们的关注。大数据已经渗透到各行各业众多领域,对人类的社会生产和生活产生大量重大而深远的影响。大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。具有4V特征。4V即Velocity、Variety、Value、Volume。Velocity表示实时处理、速度(速率),含实时数据、流数据、离线数据。Variety表示多数据类型交叉分析,含结构化、非结构化、半结构化。Value表

2020-10-27 17:36:06 100 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除