spark
weijian001
这个作者很懒,什么都没留下…
展开
-
稀疏矩阵存储格式CSC(Compressed Sparse Columns Format)
最近在看XGBoost的论文,其中提到为了并行学习,我们使用了Column Block的这种方法[1],而每个Block中的数据,我们就是以CSC形式存储的。本文根据网络内容重新整理,介绍下CSC这种格式。主要参考自理解Compressed Sparse Column Format (CSC)目的 CSC的目的就是用来压缩矩阵,主要是使用一些信息来表示矩阵中非0元素存储的位置。Spark原创 2018-01-15 19:27:57 · 9807 阅读 · 2 评论 -
Hive中行拆分操作
0.背景在使用Hive的时候有时候会遇到需要将一行“拆分”成多行的操作,如下。原始数据格式,表名为student_tableclass student_array1 [Tom,Jone]2 [Lily,lucy]目标数据格式class student_name1 Tom1 Jone2 Lily2 ...原创 2018-09-20 15:02:25 · 1795 阅读 · 0 评论