weixin_73779480-CSDN博客

原创打卡第三天

使用参数，并配置到hive-site.xml文件，可以重复使用。方法一：hive命令行执行sql语句。使用select语句查看当前数据库。通过set设置hive属性。方法二：修改参数文件。方法三：临时修改参数。

2024-04-24 23:21:36 226 3

Hive是基于Hadoop的一个数据仓库工具，它可以将结构化或半结构化的数据文件转化为一张数据库表，并提供简单的sql查询功能。数据挖掘方面不擅长，由于MapReduce数据处理流程的限制，效率更高的算法却无法实现。Hive产生的原因：非Java编程者可通过sql语句对HDFS的数据做mapreduce操作。4)Hive支持用户自定义函数,用户可以根据自己的需求来是实现自己的函数。3)Hive延迟较高,适合处理大规模数据分析,对实时性要求较低的场景。Hive处理的数据存储在HDFS上。

2024-04-23 23:17:27 412 3

原创入门Hadoop的学习

3）对于海量数据的场景，Laucene框架面对与Google同样的困难，存储海量数据困难，检索海量速度慢。1）高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。2）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。2）主要解决，海量数据的存储和海量数据的分析计算问题。

2024-04-22 22:54:39 330 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

weixin_73779480的博客

原创打卡第三天

原创打卡第二天

原创入门Hadoop的学习

空空如也

空空如也

原创 打卡第三天

原创 打卡第二天

原创 入门Hadoop的学习

空空如也

空空如也

原创打卡第三天

原创打卡第二天

原创入门Hadoop的学习