大数据
文章平均质量分 86
左岸2420
计算机本科在读
展开
-
nosql数据库期末考试知识点总结
包括文档数据库、键值数据库、图形数据库、列族数据库。1、键值数据库:这种类型的数据库主要使用散列表来存储数据,其简单和易部署,能更快速的数据定位。2、文档数据库:这种类型的数据库的存储格式类似于JSON的文档格式。文档数据库的优点是可以方便地处理半结构化数据。3、列族数据库:这种类型的数据库主要用于分布式存储的海量数据。4、图形数据库:这种类型的数据库主要用于存储图结构数据。其中键值数据库更加简单。文档数据库是一种非关系型数据库,它将数据存储为一系列的文档,通常使用JSON、XML格式。原创 2024-01-28 16:29:19 · 2492 阅读 · 0 评论 -
基于大数据与时间序列预测的的书籍数据分析(内含spark+hive+mysql+kettle+echart+tensorflow)
本章主要介绍开发本系统所涉及到的相关技术。Spark SQL是Apache Spark中处理结构化数据的模块。编程抽象:Spark SQL提供了一个称为DataFrame的编程抽象,它允许开发者使用SQL或熟悉的DataFrame API查询Spark程序内的结构化数据。这种抽象简化了数据处理和分析的过程统一的数据访问方式:Spark SQL能够以同样的方式连接到任何数据源,包括Hive、Avro、Parquet、ORC、JSON和JDBC等。原创 2024-01-11 14:02:30 · 1225 阅读 · 0 评论 -
在Ubuntu安装Anaconda、Pycharm和如何在linux里创建Pycharm的快捷键
之后依旧一直按回车,显示出Do you wish the installar to initialize之后输入yes,就会自动配置环境变量。指令:sudo gedit /usr/share/applications/pycharm.desktop。指令:tar zxf pycharm-community-2023.2.2.tar.gz。在pycharm-community-2023.2.2的bin目录下输入。原创 2023-10-06 22:26:40 · 688 阅读 · 1 评论 -
在虚拟机内安装Spark
根据自己hadoop的版本进行下载 (spark的版本不重要重要的是后面是基于hadoop的哪个版本)指令:sudo mv spark-3.2.4-bin-hadoop2.7 /usr/local。找到spark-3.2.4-bin-hadoop2.7的所在地,点进去,在右键打开终端,输入。指令:tar -zxvf spark-3.2.4-bin-hadoop2.7.tgz。需要输入的密码就是自己打开自己虚拟机所使用的密码。将环境配置好后必须更新环境才能使用。指令:spark-shell。原创 2023-09-12 19:47:04 · 1916 阅读 · 0 评论 -
基于hadoop豆瓣电影数据分析
代码:load data local inpath "/home/liuxuanting/douban_movie-1686527723744.txt" into table lxt_2021900406;代码:hdfs dfs -copyFromLocal /home/liuxuanting/liuxuanting1 /log/代码:put ‘lxt_2021900406’,’1’,’info:moxige,bolan’,’5.8,5.7’优秀:数据库和表正确创建,sql语句正确,且高效。原创 2023-07-19 11:21:10 · 1873 阅读 · 15 评论 -
大数据平台核心技术A期末考试知识汇总
从节点(Salve Node)又称数据节点(DateNode),其负责数据的存储和读取。答:内部表的文件、元数据和统计数据等由hive进行管理,且被存储在hive、metastore、warehouse、dir目录下;2、数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。5、Shuffle是指对Map任务输出结果进行分区、排序、合并(合并不能改变最终的结果,期末已考)。4、Hbase是列式数据库,主要存储非结构化和半结构化的松散数据,但也可以存储结构化的数据。原创 2023-07-10 09:29:17 · 364 阅读 · 3 评论