大数据
文章平均质量分 79
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。
首先科学的给出一个通用化的大数据处理技术框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。
会java的怪蜀黍
大家好,我是会java的怪蜀黍,一名热爱编程与知识分享的技术博主。我热衷于通过我的CSDN博客,帮助广大小白和初学者们迈入编程世界的大门,理解并掌握计算机科学的基础概念,以及实战运用各类编程语言和技术栈。
在CSDN博客平台上,我致力于打造一个友好、实用、与时俱进的技术学习空间,陪伴每一位小白和初学者从零开始,逐步成长为自信的开发者。无论您是对编程充满好奇的新手,还是正在寻求进阶之道的学习者,都欢迎订阅我的博客,一起踏上这段充满挑战与乐趣的编程之旅!让我们携手共进,探索技术的无限可能,共创美好的数字未来
展开
-
Kylin 使用心得
Apache Kylin 凭借其预计算模型、灵活的数据源集成、直观的 Web UI 和强大的 API 支持,为大规模数据分析提供了高效稳定的解决方案。在实际使用过程中,充分理解并运用 Kylin 的核心特性和最佳实践,结合业务需求进行合理配置与优化,能够充分发挥其在大数据 OLAP 领域的优势,助力企业实现数据驱动决策。原创 2024-04-23 18:12:11 · 867 阅读 · 0 评论 -
HiveSQL基础练习题
score s join (select course_id from course where tea_id in (select tea_id from teacher where tea_name=‘李体音’)) t on s.course_id=t.course_id。(select course_id from course where tea_id in (select tea_id from teacher where tea_name=‘李体音’)) t。)) 对数组中的元素进行升序排序。原创 2024-04-22 13:33:52 · 970 阅读 · 0 评论 -
hbase基础(三)
WAL预写日志:首先写数据为了避免数据丢失,一定要写日志,WAL会记录所有的put/delete操作之类的,如果出现问题,可以通过回放WAL预写日志来恢复数据。写入数据的时候,都是写入到C0,就要求C0的写入是很快的,例如:HBase写的就是MemStore——跳表结构(也有其他用红黑树之类的)每个集群会有系统配置,社区一定会把一些通用的、适应性强的作为默认配置,有很多都是折中的配置。异常:报错,连接2181失败,仔细看是连接的本地的localhost的zk,本地是没有ZK。原创 2024-04-19 15:23:17 · 592 阅读 · 1 评论 -
hbase基础(二)
Apache Phoenix基于HBase的一个SQL引擎,我们可以使用Phoenix在HBase之上提供SQL语言的支持。Phoenix是可以支持二级索引的,而且Phoenix它自动帮助我们管理二级索引,底层是通过HBase的协处理器来实现的,通过配合二级索引和HBase rowkey,可以提升hbase的查询效率Phoenix底层还是将SQL语言解析为HBase的原生查询(put/get/scan),所以它的定位还是在随机实时查询——OLTP领域。原创 2024-04-19 15:21:59 · 1146 阅读 · 1 评论 -
hbase基础(一)
WAL:WAL预写日志,当客户端连接RegionServer写数据的时候,会先写WAL预写日志,put/delete/incr命令写入到WAL,有点类似于之前Redis中的AOF,当某一个RegionServer出现故障时,还可以通过WAL来恢复数据,恢复的就是MemStore的数据。删除数据的时候,其实HBase不是真的直接把数据删除掉,而是给某个列设置一个标志,然后查询数据的时候,有这个标志的数据,就不显示出来。Region中的数据一定是有序的,是按照rowkey的字典序来排列的。原创 2024-04-19 15:18:19 · 776 阅读 · 0 评论 -
Spark 环境安装
查看http:master:8080。圆周率计算 进入bin目录。2、修改名称为spark。1、启动hadoop。原创 2023-12-05 08:02:26 · 509 阅读 · 0 评论 -
Hbase JAVA API 增删改查操作
打开https://mvnrepository.com/ 搜索hbase。选择hbase-client, 2.2.4版本,点进去复制依赖代码。//控制台提示输出转化为String类型的对应数据。//关闭hbase链接。原创 2023-12-04 11:52:17 · 798 阅读 · 0 评论 -
Hbase表的操作
但原来的值也还在表中,可以通过**scan ‘student’ , {RAW =>true,VERSIONS =>10}**获得,因为该语句可以获得最近10个版本的数据。2、插入数据到student表中,需要使用put命令,该命令需要4个参数,分别是表名、行键、列族(含具体列名),具体值,如下所示。4、更新指定字段的数据,把原来的属性值覆盖掉就好,此时scan就可以获得最新的数据。通过scan也能实现这个功能,选取指定的行键范围的数据,如下图,是左闭右开的。5、查看“指定行”或“指定列族:列”的数据。原创 2023-12-04 11:17:50 · 776 阅读 · 0 评论 -
Hive的安装配置、初始化元数据、启动
1、解压hive到指定目录/usr/local/src 改名,将mysql的驱动包拷贝到hive的lib目录下。2)驱动不存在ClassNotFoundException,将mysql的驱动包拷贝到hive的lib目录下。2)hive-site.xml(配置元数据的存储数据库信息,可以新建也可以直接复制模板修改)3、修改hive配置文件 /usr/local/src/hive/conf下。5、启动进入hive命令行:直接输入hive。Hive的安装配置、初始化元数据、启动。将hadoop退出安全模式。原创 2023-12-02 23:13:12 · 904 阅读 · 1 评论 -
Hadoop安装(小白教程)
hadoop jar hadoop-mapreduce-examples-2.7.7.jar wordcount /test/hello.txt /test/out1 计算单词。 将master 里的hadoop拷贝到另外两台机器 scp -r /usr/local/src/hadoop slave1:/usr/local/src。查看文件: hdfs dfs -cat /test/output/part-r-00000。删除目录: hdfs dfs -rm -r /test。原创 2023-12-01 08:55:14 · 398 阅读 · 1 评论 -
大数据linux基本环境准备(新手入门笔记)
桥接模式(虚拟机中的网卡地址需要和物理机网卡地址保持同一个网段,并且桥接网卡要设置好)tar -zxvf 压缩文件名 -C /usr/local/src 解压文件到指定目录。4、配置集群机器,将配置好网络的机器克隆2个出来,分别为slave1、slave2。1> vmware中右键虚拟机–》设置–》网络–》桥接模式(勾选物理状态选项)1)将jdk的tar.gz包上传到指定目录,如/opt/soft下。mkdir /opt/test 就在/opt下新建test目录。原创 2023-11-29 16:32:40 · 917 阅读 · 1 评论