自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 javac错误: 程序包org.json.simple.parser不存在

来分隔这些jar包(当然写起来很冗余,目前还没找到别的方式实现)手动添加app文件夹下java代码所需要的多个jar包,用。

2023-09-18 23:23:42 456

原创 【23.9.7】Hive DML语句

不论多少条数据,最后只返回一行。比如 sum(), count(), max(), min(), avg()。注意,count是统计有多少行,sum是统计行中数据之和。limit 2,3。第一个参数指定要返回的第一行的偏移量(从 Hive 2.0.0开始),第二个参数指定要返回的最大行数。left join。以左表为准,左表所有行都会返回,右表有就对应填充,没有就以 null 展示。把group by的那个字段值相同的所有行都当成一组。只返回 limit后面数字的行数。limit 5,就只返回5行结果。

2023-09-07 14:54:24 65 1

原创 【23.9.6】启动hive

太久没看hadoop,启动过程全忘了,重新整理成文字,方便下次直接使用。

2023-09-07 13:05:03 45 1

原创 【23.8.18】聚类算法之DBSCAN

【总结】就是不断搜寻核心对象的密度可达范围,直到没办法继续扩展,就对下一个核心对象继续扩展。没有被扩展的点就是噪声点。如果eps过小,那eps范围内点减少,容易使很多点没有办法进入密度可达范围,容易被认为是噪声点。如果eps过大,容易导致距离近且密度大的核心对象被划分为同一个簇;核心对象:[2, 3, 8]

2023-08-18 13:16:20 67 1

原创 【23.8.15】Hive SQL | 结构化文件映射为二维表

【代码】【23.8.15】

2023-08-16 19:12:47 190 1

原创 【23.8.14】数据仓库

23.8.14【数据仓库】数据仓库的功能:主要负责分析数据,帮助企业进行决策。数据驱动决策。没必要用数据库来进行数据分析,数据库主要用来保持业务正常运行,并且读压力大,使用数据库来进行数据分析会加大读压力。非结构化数据是指,不适于由二维表来表现的,比如音频视频,文档等文件类型。DDL,设计表结构,比如创建表、索引等,不涉及数据DML,用于对表中数据进行增删改查Hive,建立了在Hadoop之上的开源数据仓库,可以将存储在Hadoop文件中的结构化、半结构化数据映射为一张数据库表Hive

2023-08-14 21:26:19 35

原创 【Socket多机协同任务】

1. ds文件数据量较大时,无法全部发送、接收。由于缓冲区大小有限,且网络不稳定造成延迟,接收端收到ds集合数据时可能已经错过本次接收,把数据放到了下次接收的内容中,导致错误。解决思路:让接收端保持接收,直到接收到的数据大小等于发送的数据大小。这里参考了博客socket–接受大数据。

2023-06-06 15:56:11 384 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除