ww20110863-CSDN博客

原创算法与数据结构

思想：通过构建有序数列，将新的元素，从右往左寻找，找到正确的位置进行插入。步骤：1.从第二个元素开始，将新元素插入到前面已经排序好的子数组中；2.新元素插入之后，新位置到原来位置之间的元素，全部向右平移一位；3.重复前两个步骤，直至所有的元素排序完成。复杂度：O(n^2)优化思路：从右往左插入的时候，因为左边的数组已经排序好了，则可以利用二分查找法进行。复杂度：O(nlogn)

2024-08-14 20:42:54 830

1.Elasticsearch是一个实时的分布式搜索和分析引擎，它可以用于全文搜索，结构化搜索以及分析。底层是基于lucene。elasticsearch和solr的对比：solr在搜索时更快，但是建索引的时候会明显慢，同时数据里很大时会比较慢，因此solr的架构不适合实时搜索的应用。2.索引：Index 相当于数据库中的database类型：Type 相当于数据库中的table主键：id 相当于数据库中的主键。

2024-07-28 16:40:03 405

原创大数据第十章 ElasticSearch(一)

原理图lucence快的原因：全文检索：在添加数据的时候，会对数据进行分词，将分词后的词建立索引，存储到索引库中，然后再将真正的内容即文档，保存到文档区域。在查找时，将查询条件分词，先在索引库中查找，如果找到，会返回一个文档id，然后根据文档id，再到存储文档的区域查找真正的内容。虽然在添加数据时，增加了时间和内存进行了存储，但是在查找的时候能极大提升查询速度。lucene时一个单机版程序，ES时一个集群，底层用的时lucene，提供更方便的API。

2024-07-25 23:11:25 710

原创大数据第九章 HBase基础

1.HBase和mysql一样，是一种数据库，hive不能做数据修改，适合做数据仓库，mysql适合做联机操作。HBase是一种mosql数据库。2.HBase特性：1）数据的最终持久化存储是基于HDFS，这样就可以随时在线扩容。2）HBase的数据增删改查功能模块是分布式系统3.HBase表结构表名，行键，列族列族是多个key-value的集合，每个key-value称为一个cell，同一个key可以对应多个value，用版本号区分。hbase表的逻辑结构图。

2024-07-24 22:23:08 891

原创大数据第八章 hive函数和hql详解

1.各种join,b.left out join 左外连接：把左边的全部返回，右边的如果没有匹配上则为nullinner join 只匹配左右表都有的数据才显示left semi join ：和inner join类似，只不过只返回左边表的数据。2.分组聚合查询group by需要将数据先分组再统计。查询每条url的访问总数：查询每个url的访问者中ip地址最大的查询8月4号之后，每天某个url的总访问次数和访问者中ip地址最大的。

2024-07-21 21:09:56 744

原创大数据第七章 Hive基础知识

1.当在hive中用sql创建table时，会自动在hdfs相对应位置创建文件路径，在该路径下创建文件时，会自动映射成table表的结构，如果不指定分隔符，默认是用/0001来分隔的。如果每天都是往同一个目录中写数据，文件会越来越大，比如要查询某天的数据，得从整体文件中全部读取数据，会越来越慢，分区表就可以在目录下再创建子目录，比如。本地导数据，实际是对本地文件的复制，如果是从hdfs文件导数据，那么是进行了文件移动。默认的是内部表，默认表和hdfs的文件映射是hive/dbname/tablename。

2024-07-21 14:28:10 426

原创大数据第六章 zookeeper实现系统的高可用

hadoop中的namenode如果是单节点，那么就不满足高可用。实际设置为两个节点，其中一个为active状态，另一个为stand by，前者挂了，后者就把状态改为active，给客户端提供服务。那么两个节点之间需要有公共日志记录，stand by节点转变为active节点时，就把公共日志中的内容更新到数据中。那么公共服务日志中的节点也得是高可用的，就可以通过选举的方式来决定谁是leader。这就要引入zookeeper了。

2024-07-21 11:47:40 412

原创大数据第五章 mapreduce实现join数据合并

有一个userinfo文件和多个orderinfo文件，userinfo中文件数据为：userid,userage,username,usersexorderinifo中的文件数据为：需要将两个文件中的信息进行合并并输出。

2024-07-21 10:01:08 463

原创大数据第四章 mapreduce总体工作机制

1.mapreduce框架，客户端会启动MRappMaster程序，MRAppMaster会启动yarn child（map task）产生数据之后，会启动yarn child(reduce task)进行处理。

2024-07-19 23:17:46 184

原创大数据第三章 mapreduce实践

第二次用第一次生成的结果进行再次mapreduce，生成需要的格式。第一次先生成word–filename的形式。

2024-07-19 22:16:36 105

原创大数据第二章 mapreduce入门到实践

10.写一个JobSumbmitter，制定resource manager的位置，制定是yarn方式调度，设置mapper和reduce的实现类，制定输出的参数类型，指定输入输出的文件路径。比如要统计一个文件中单词的数量，需要继承Mapper，需要定义入参的LongWritable，Text，出参的Text，LongWitable，入参是LongWritable读取文件的偏移量，Text是每行读取的内容，出参Text是单词，LongWritable是该单词出现的次数。manager负责创建容器运行程序。

2024-07-12 11:51:47 308

原创大数据第一章 hdfs概念和原理

1.hdfs为分布式文件存储系统，分为namenode和datanode两大类型节点，namenode负责元数据的管理（如块大小，副本大小，块存放位置等），datanode负责具体数据的管理。2.可以设置副本数量，每个块的大小等。

2024-07-09 23:12:23 328

ww20110863的博客