自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 2021-03-04

大数据生态系统 大数据的核心是Hadoop生态系统。我们通常可能会根据特定的用特来描述软件工具,比如:Oracle是数据库、Apache Tomcat 是 Web 服务器。不过,Hadoop就有些复杂,Hadoop 是大量工具集合,这些工具可以协同工作来完成特定的任务。可以说Hadoop是一个数据管理系统,将海量的结构化和非结构化数据聚集在一起,这些数据涉及传统企业数据栈的几乎每一个层次,其定位是在数据中心占据核心地位。也可以说,Hadoop 是大规模并行执行框架,把超级计算机的能力带给大众,致力于加速企业

2021-03-04 14:46:41 60 1

原创 2020-12-09

网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者) 网络爬虫的组成 在网络爬虫的系统框架中,主过程由控制器,解析器,资源库三部分组成。控制器的主要工作是负责给多线程中的各个爬虫线程分配工作任务。解析器的主要工作是下载网页,进行页面的处理,主要是将一些JS脚本标签、CSS代码内容、空格字符、HTML标签等内容处理掉,爬虫的基本工作是由解析器完成。资源库是用来存放下载到的网页资源,一般都采用大型的数据库存储,如Oracle数据库,并对其建立索引。 爬虫的设计中应该注意的问题 第一

2020-12-09 15:57:10 145

原创 2020-11-10

大数据的核心是Hadoop生态系统。我们通常可能会根据特定的用特来描述软件工具,比如:Oracle是数据库、Apache Tomcat 是 Web 服务器。不过,Hadoop就有些复杂,Hadoop 是大量工具集合,这些工具可以协同工作来完成特定的任务。可以说Hadoop是一个数据管理系统,将海量的结构化和非结构化数据聚集在一起,这些数据涉及传统企业数据栈的几乎每一个层次,其定位是在数据中心占据核心地位。也可以说,Hadoop 是大规模并行执行框架,把超级计算机的能力带给大众,致力于加速企业级应用的执行。由

2020-11-10 14:33:20 215

原创 2020-10-30

大家好 我是天津机电职业技术学院的一名大一学生 当初我选择大数据技术与应用这个专业 感觉这个专业就业挺好的 也是个热门专业 从初中开始就喜欢了电脑 第一次大数据课让我学到了很多。知道了数据的容量是二进制中的一个1 or 一个0 byte(字节) 1byte = 8bit KB (千字节)KB(千字节)1KB = 1024 byte 2的十次方MB(兆字节) 1MB = 1024 KBGB(吉字节) 1GB = 1024 MBTB (太字节) 1TB =1024GB了容量最小的单位是bit,而且容量大小排序为

2020-10-30 20:04:26 84

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除