自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 算法与数据结构

思想:通过构建有序数列,将新的元素,从右往左寻找,找到正确的位置进行插入。步骤:1.从第二个元素开始,将新元素插入到前面已经排序好的子数组中;2.新元素插入之后,新位置到原来位置之间的元素,全部向右平移一位;3.重复前两个步骤,直至所有的元素排序完成。复杂度:O(n^2)优化思路:从右往左插入的时候,因为左边的数组已经排序好了,则可以利用二分查找法进行。复杂度:O(nlogn)

2024-08-14 20:42:54 830

原创 大数据 第十一章 ElasticSearch(二)

1.Elasticsearch是一个实时的分布式搜索和分析引擎,它可以用于全文搜索,结构化搜索以及分析。底层是基于lucene。elasticsearch和solr的对比:solr在搜索时更快,但是建索引的时候会明显慢,同时数据里很大时会比较慢,因此solr的架构不适合实时搜索的应用。2.索引:Index 相当于数据库中的database类型:Type 相当于数据库中的table主键:id 相当于数据库中的主键。

2024-07-28 16:40:03 405

原创 大数据 第十章 ElasticSearch(一)

原理图lucence快的原因:全文检索:在添加数据的时候,会对数据进行分词,将分词后的词建立索引,存储到索引库中,然后再将真正的内容即文档,保存到文档区域。在查找时,将查询条件分词,先在索引库中查找,如果找到,会返回一个文档id,然后根据文档id,再到存储文档的区域查找真正的内容。虽然在添加数据时,增加了时间和内存进行了存储,但是在查找的时候能极大提升查询速度。lucene时一个单机版程序,ES时一个集群,底层用的时lucene,提供更方便的API。

2024-07-25 23:11:25 710

原创 大数据 第九章 HBase基础

1.HBase和mysql一样,是一种数据库,hive不能做数据修改,适合做数据仓库,mysql适合做联机操作。HBase是一种mosql数据库。2.HBase特性:1)数据的最终持久化存储是基于HDFS,这样就可以随时在线扩容。2)HBase的数据增删改查功能模块是分布式系统3.HBase表结构表名,行键,列族列族是多个key-value的集合,每个key-value称为一个cell,同一个key可以对应多个value,用版本号区分。hbase表的逻辑结构图。

2024-07-24 22:23:08 891

原创 大数据 第八章 hive函数和hql详解

1.各种join,b.left out join 左外连接:把左边的全部返回,右边的如果没有匹配上则为nullinner join 只匹配左右表都有的数据才显示left semi join :和inner join类似,只不过只返回左边表的数据。2.分组聚合查询group by需要将数据先分组再统计。查询每条url的访问总数:查询每个url的访问者中ip地址最大的查询8月4号之后,每天某个url的总访问次数和访问者中ip地址最大的。

2024-07-21 21:09:56 744

原创 大数据 第七章 Hive基础知识

1.当在hive中用sql创建table时,会自动在hdfs相对应位置创建文件路径,在该路径下创建文件时,会自动映射成table表的结构,如果不指定分隔符,默认是用/0001来分隔的。如果每天都是往同一个目录中写数据,文件会越来越大,比如要查询某天的数据,得从整体文件中全部读取数据,会越来越慢,分区表就可以在目录下再创建子目录,比如。本地导数据,实际是对本地文件的复制,如果是从hdfs文件导数据,那么是进行了文件移动。默认的是内部表,默认表和hdfs的文件映射是hive/dbname/tablename。

2024-07-21 14:28:10 426

原创 大数据 第六章 zookeeper实现系统的高可用

hadoop中的namenode如果是单节点,那么就不满足高可用。实际设置为两个节点,其中一个为active状态,另一个为stand by,前者挂了,后者就把状态改为active,给客户端提供服务。那么两个节点之间需要有公共日志记录,stand by节点转变为active节点时,就把公共日志中的内容更新到数据中。那么公共服务日志中的节点也得是高可用的,就可以通过选举的方式来决定谁是leader。这就要引入zookeeper了。

2024-07-21 11:47:40 412

原创 大数据 第五章 mapreduce实现join数据合并

有一个userinfo文件和多个orderinfo文件,userinfo中文件数据为:userid,userage,username,usersexorderinifo中的文件数据为:需要将两个文件中的信息进行合并并输出。

2024-07-21 10:01:08 463

原创 大数据 第四章 mapreduce总体工作机制

1.mapreduce框架,客户端会启动MRappMaster程序,MRAppMaster会启动yarn child(map task)产生数据之后,会启动yarn child(reduce task)进行处理。

2024-07-19 23:17:46 184

原创 大数据 第三章 mapreduce实践

第二次用第一次生成的结果进行再次mapreduce,生成需要的格式。第一次先生成word–filename的形式。

2024-07-19 22:16:36 105

原创 大数据 第二章 mapreduce入门到实践

10.写一个JobSumbmitter,制定resource manager的位置,制定是yarn方式调度,设置mapper和reduce的实现类,制定输出的参数类型,指定输入输出的文件路径。比如要统计一个文件中单词的数量,需要继承Mapper,需要定义入参的LongWritable,Text,出参的Text,LongWitable,入参是LongWritable读取文件的偏移量,Text是每行读取的内容,出参Text是单词,LongWritable是该单词出现的次数。manager负责创建容器运行程序。

2024-07-12 11:51:47 308

原创 大数据 第一章 hdfs概念和原理

1.hdfs为分布式文件存储系统,分为namenode和datanode两大类型节点,namenode负责元数据的管理(如块大小,副本大小,块存放位置等),datanode负责具体数据的管理。2.可以设置副本数量,每个块的大小等。

2024-07-09 23:12:23 328

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除