大数据
adamyoungjack
师傅领进门,修行看个人。
展开
-
Hadoop
1. 简介1.1 定义Apache™ Hadoop® 是一个开源的, 可靠的(reliable), 可扩展的(scalable)分布式计算和存储框架1.2 应用场景搭建大型数据仓库PB级数据的存储 处理 分析 统计等业务起源于谷歌的三篇论文1.3 核心组件Hadoop Common: 协调其它Hadoop组件的通用工具Hadoop Distributed File System (HDFS™)多块多副本存储数据数据切分、多副本、容错等操作对用户是透明的Hadoop Map原创 2020-12-21 17:23:15 · 164 阅读 · 2 评论 -
Hive
1 特征筛选1 单特征分析什么是好特征?从几个角度衡量:覆盖度,区分度,相关性,稳定性覆盖度 采集类,授权类,第三方数据在使用前都会分析覆盖度覆盖度可以衍生两个指标:缺失率,零值率缺失率:一般就是指在全体有标签用户上的覆盖度零值率:很多信贷类数据在数据缺失时会补零,所以需要统计零值率区分度:是评估一个特征对好坏用户的区分性能的指标可以把单特征当做模型,使用AUC, KS来评估特征区分度在信贷领域,常用Information Value (IV)来评估单特征的区分度IV &原创 2020-12-21 17:24:53 · 220 阅读 · 0 评论 -
HBase
1. 简介1.1 定义HBase是一个分布式的、面向列的开源数据库同样数据保存到列式数据库中RowKeyFILE INFOSAVE INFO1name:file1.txt type:txt size:1024path:/home/pics creator:Jerry2name:file2.jpg type:jpg size:5032path:/home creator:Tom非结构化数据存储结构化数据适合用二维表来展示的数据非结构化数据原创 2020-12-21 17:25:41 · 242 阅读 · 0 评论 -
Spark Core
1. 简介1.1 定义专为大规模数据处理而设计的快速通用计算引擎与Hadoop的 MapReduce功能类似MapReduce V.S. Sparkspark快Spark框架组件丰富spark特点1、速度快(比mapreduce在内存中快100倍,在磁盘中快10倍)2、易用性(可以通过java/scala/python/R开发spark应用程序)3、通用性(可以使用spark sql/spark streaming/mlib/Graphx)4、兼容性(spark程序可以运行在s原创 2020-12-21 17:26:07 · 133 阅读 · 0 评论 -
Spark SQL
1. Spark SQL1.1 定义Spark SQL是Spark中用于处理结构化数据的一个模块1.2 特性可以在Spark程序中无缝加入SQL查询使用相同的方式连接不同的数据源在已有的数据仓库中执行SQL或者 HiveQL 查询提供了 JDBC or ODBC的数据接口1.3 优势写更少的代码(Write Less Code)性能更高2. DataFrame2.1 定义DataFrame是一个分布式的行集合一旦RDD、DataFrame被创建,就不能更改只有ac原创 2020-12-23 15:02:11 · 179 阅读 · 0 评论