刘金超DT-CSDN博客

原创缺失值处理

将缺失值的特征或样本删除缺失值插补技术

2019-10-04 21:10:32 260

原创超参数搜索

超参数搜索网格搜索并行网格搜索模型的超参数指的是模型训练前事先设定的参数（Hyperparameters）,如K近邻中的K值，SVM支持向量机中的不同核函数等。超参数的选择是无限制的，如果给定有限的时间，有两种方法：（1）验证人工预设的几种超参数的组合。（2）可以通过启发式的搜索方法对超参数组合进行调优。这种方法就是网格搜索。由于超参数的验证过程之间彼此独立，网格搜索也有并行搜索的版本。...

2019-10-04 20:32:04 758

K-Means中K值的选择（1）拍脑袋法（2）肘部法则（Elbow Method）（3）间隔统计量（Gap Statistic）（4）轮廓系数（Silhouette Coefficient）（5）Canopy算法K-Means是一个很简单的聚类方法，说它简单，主要原因是使用它时只需设置一个K值（设置需要将数据聚成几类）。但问题是，有时候我们拿到的数据根本不知道要分为几类，对于二维的数据，我们还能...

2019-10-02 22:27:54 20625 3

原创梯度下降法与牛顿法的比较

牛顿法是二阶收敛，梯度下降是一阶收敛，所以牛顿法就更快。如果更通俗地说的话，比如你想找一条最短的路径走到一个盆地的最底部，梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步，牛顿法在选择方向时，不仅会考虑坡度是否够大，还会考虑你走了一步之后，坡度是否会变得更大。所以，可以说牛顿法比梯度下降法看得更远一点，能更快地走到最底部。...

2019-10-01 17:28:55 509 1

原创牛顿法

牛顿法（1）泰勒公式（2）求解方程根（3）实战牛顿法求解方程（4）牛顿迭代法（5）多维特征的牛顿迭代法（6）两个改进方法（7）牛顿法求解实例（1）泰勒公式下面是两个例子：（2）求解方程根不是所有的方程f(x)=0都有求根公式，或者求根公式很复杂，导致求解困难，可以利用牛顿法，可以迭代求解。利用泰勒公式，在X0处展开到一阶通过下图理解迭代求解的过程：（3）实战牛顿法求解方程...

2019-10-01 17:25:47 172

原创梯度下降法

梯度下降法（1）偏导数（2）方向导数（3）梯度（4）梯度下降（5）梯度下降求解函数极值（6）梯度下降法总结（7）梯度下降法求解线性回归问题参数的最优解（8）批量梯度下降（9）随机梯度下降法SGD（10）Mini-batch()为什么使用梯度下降法？（1）在机器学习的优化问题中，梯度下降法和牛顿法是常用的两种凸函数求极值的方法，他们都是为了求得目标函数的近似解。在逻辑斯蒂回归模型的参数求解中，...

2019-10-01 17:12:07 545

原创极大似然估计

极大似然估计极大似然估计是概率的log概率的最大化问题，即max(log（P）)，log函数是单调函数，通常取底数大于1的情况，所以log函数不影响原来概率大小的判断。如果取极大似然函数的相反数，得到的就是我们熟悉的损失函数cost，同时极大似然函数也对应的极小化我们的损失函数。为什么要有极大似然估计例子：我与一位猎人一起外出打猎，一只野兔从前方穿过，只听到一声枪响，野兔应声倒下。问是谁打中...

2019-10-01 16:42:44 2089

原创 FM算法解析及Python实现

1. 什么是FM？FM即Factorization Machine，因子分解机。2. 为什么需要FM？1、特征组合是许多机器学习建模过程中遇到的问题，如果对特征直接建模，很有可能会忽略掉特征与特征之间的关联信息，因此，可以通过构建新的交叉特征这一特征组合方式提高模型的效果。2、高维的稀疏矩阵是实际工程中常见的问题，并直接会导致计算量过大，特征权值更新缓慢。试想一个10000100的表，每一...

2019-09-22 18:44:16 625 1

原创阿里妈妈自研CTR预估核心算法MLR

一、技术背景CTR（Click-Through-Rate）即点击通过率，是互联网广告常用的术语，指网络广告（图片广告/文字广告/关键词广告/排名广告/视频广告等）的点击到达率，即该广告的实际点击次数除以广告的展现量。点击率预估（Click-Through Rate Prediction）是互联网主流应用(广告、推荐、搜索等)的核心算法问题，包括Google、Facebook等业界巨头对这个问题...

2019-09-21 21:15:50 417

转载特征归一化处理

2019-09-13 22:46:27 1717

原创机器学习中的维度

维度是什么？“维度”这个词在机器学习里面，应该是一个高频词，它经常出现在人们的视野中，比如说随机森林是通过随机抽取特征来建树，以避免高维计算；再比如说，sklearn中导入特征矩阵，必须是至少二维；特征选择的目的是通过降维来降低算法的计算成本等等。那么“维度”到底是什么呢？对于数组和series来说对于数组和Series来说，维度就是功能shape返回的结果，shape中返回了几个数字，就是...

2019-09-13 11:55:12 1400

原创时间维度表脚本

时间维度表创建的脚本根据不同的也无需求选择需要的字段即可！在MySQL里面创建存储过程--创建dim数据库，使用utf8编码create database dim DEFAULT CHARACTER SET utf8;--切换到dim数据库use dim;--创建dim_day表create table dim_day(DAY_ID varchar(100),DAY_SH...

2019-09-08 21:31:49 1064

原创 Hive级联求和

基本需求：根据访客的每日访问信息，进行累计访问，计算每个月访问量，总访问量。输入数据：有如下访客访问次数统计表 t_access_times。为了减轻计算复杂度，去掉了天的信息只留下了年月。+--------------------------+-----------------------+-----------------------------+--+| t_access_time...

2019-09-08 20:37:49 177

原创数据仓库拉链表

增量数据与历史库做成拉链表首先介绍几个表概念：全量表：每天的所有的最新状态的数据增量表：每天的新增数据拉链表：维护历史状态，以及最新状态数据流水表：对于表中的每一个修改都会记录，可以用于反映实际记录的变更拉链表VS流水表：拉链表：通常是对帐户信息的历史变动进行处理保留的结果；用于统计业务相关情况流水表：每天的交易形成的历史；用于统计账户及客户的情况在数据仓库的数据模型设计过程中...

2019-09-07 17:15:01 1948

原创数据建模应用

数据建模应用一、数据建模种类1、关系建模（3NF）2、维度建模一、数据建模种类1、关系建模（3NF）定义：根据实体之间的关系（E-R）梳理和组织我们的数据，这里的实体可以是我们数据库中具体的一张表。通过满足3NF设计消除数据冗余。优点：模型稳定、灵活、扩展性强缺点：牺牲一定数据访问的便利性和业务的可理解性适用性：适用核心基础数据的组织和管理(ODS层)应用行业：非互联网行业如传统金融...

2019-09-05 16:56:21 5712 1

原创 Hive基本介绍（一）

一、什么是HiveHive 是一种底层封装了Hadoop 的数据仓库处理工具，本质是将SQL语句通过解释器转换为MapReduce作业提交到Hadoop集群上进行计算，将结构化的数据映射为一张数据库表，并提供HQL(Hive SQL)查询功能，不用编写具体的MapReduce方法。所有Hive 的数据都存储在Hadoop 兼容的文件系统（如HDFS）中。Hive 在加载数据过程中不会对数据进行任...

2019-09-05 15:50:05 524

转载 AI必知的十大深度学习算法

首先先让我们来定义一下什么是“深度学习”。对很多人来说，给“深度学习”下一个定义确实很有挑战，因为在过去的十年中，它的形...

2019-09-04 20:55:00 2188 1

原创 SparkGraphX对图的操作（五）

SparkGraphX对图的操作一、图的基本信息二、SparkGraphX的转换操作mapVerticesmapEdgesmapTriplet三、SparkGraphX的结构操作reversesubgraphmaskgruopEdges四、SparkGraphX关联操作joinVertices，底层实现的也是outerJoinVertices的操作outerJoinVertices一、图的基本信...

2019-09-04 20:26:33 911

原创 SparkGraphX图计算（四）

SparkGraphX构建图案例各方法对比与总结案例一：分析-协作数据案例二：分析-社交网络数据要构建一个图，可以调用这个看起来像构造函数的Graph()。当一个Scala的类或对象中定义了函数apply()时，在调用apply()时可以省略apply，即Graph.apply()简写为Graph () 。所以Graph()看起来像是一个构造函数，但实际上它是在调用apply()函数。弹性分...

2019-09-04 20:10:47 343

原创 SparkGraphX图计算（三）

SparkGraphX构建图一、SparkGraphX构建图的两种方法方法一：根据边构建图方法二：根据边的两个顶点数据构建图二、SparkGraphX构建图的三个步骤第一步：构建边EdgeRDD①从文件中加载信息，转换成tuple的形式,即(srcId, dstId)②入口，调用Graph.fromEdgeTuples(rawEdgesRdd)③将RDD[Edge[ED]]进一步转化成EdgeRD...

2019-09-04 20:08:30 900

原创 SparkGraphX图计算（二）

图组成与概念一、图计算基本概念1、vertices2、edges3、triplets二、图分类1、有向图和无向图2、有环图和无环图3、有标签图和无标签图4、平行边和环5、二分图6、RDF图和属性图三、图存储方式1、边分割存储2、点分割存储(主流)3、图的邻接矩阵存储方式四、GraphX存储模式1、RandomVertexCut2、CanonicalRandomVertexCut3、EdgePart...

2019-09-04 18:50:54 1528 1

原创 SparkGraphX图计算（一）

SparkGraphX图计算（一）一、什么是图二、什么是SparkGraphX三、常见的图算法1、PageRank算法2、最短路径算法3、社群发现4、推荐算法ALS和SVD++四、GraphX数据抽象RDPG五、图基本结构1、GraphX的底层设计2、图数据存储方式六、GraphX简单案例-社交网络关系查询一、什么是图什么是图？图计算都在计算什么？我们可以从社交网络、人物关系挖掘、节点之间依赖...

2019-09-04 17:17:23 5553 1

原创 Spark整合Kafka并手动维护offset

Spark整合Kafka两种模式说明开发中我们经常会利用SparkStreaming实时地读取kafka中的数据然后进行处理，在Spark1.3版本后，KafkaUtils里面提供了两种创建DStream的方法：1.Receiver接收方式：KafkaUtils.createDstream有一个Receiver作为常驻的Task运行在Executor等待数据，但是一个Receiver效率低，...

2019-09-04 14:54:59 2573 4

原创 CEP订单超时实战（三）

订单超时监控import org.apache.flink.streaming.api.TimeCharacteristicimport org.apache.flink.streaming.api.scala.{DataStream, OutputTag, StreamExecutionEnvironment}import org.apache.flink.api.scala._imp...

2019-09-04 13:45:36 833

原创 CEP限制登陆次数实战（二）

import org.apache.flink.cep.scala.CEPimport org.apache.flink.cep.scala.pattern.Patternimport org.apache.flink.streaming.api.scala._/** * 量词的使用 */object FlinkCepTest1 { case class LoginEvent(...

2019-09-04 13:33:20 394

原创网络七层协议

一、物理层需求1：科学家要解决的第一个问题是，两个硬件之间怎么通信。具体就是一台机器发送字节流，然后另一台能收到，于是发明了物理层：　　主要定义物理设备标准，如网线的接口类型、光纤的接口类型、各种传输介质的传输速率等　　它的主要作用是传输比特流(就是由1、0转化为电流强弱来进行传输，到达目的地后在转化为1、0，也就是我们常说的数模转换与模数转换（按数字输入值切换开关，产生比例于输入的电流...

2019-09-03 21:27:07 384

原创 Canal解决MySQL海量数据迁移问题

模拟业务场景：一个大型的电商网站，每天都需要分析当天的成交量。如果使用mysql去分析，会非常慢，甚至会导致mysql宕机。要进行海量数据分析，需要将mysql中的数据同步到其他的海量数据存储介质（HDFS、hbase）中。那如何来导出呢？sqoop 解决方案一：使用sqoop定期导出mysql的数据到hbase或hdfssqoop导出mysql的数据，需要通过sql语句来查询数据，...

2019-09-03 20:59:11 2206

原创 CEP-Flink的复杂事件处理（一）

Flink CEP背景介绍随着无处不在的传感器网络和智能设备不断收集越来越多的数据，我们面临着以近实时的方式分析不断增长的数据流的挑战。能够快速响应不断变化的趋势或提供最新的商业智能可能是公司成功或失败的决定性因素。实时处理中的关键问题是检测数据流中的事件模式。复杂事件处理（CEP）恰好解决了对连续传入事件进行模式匹配的问题。匹配的结果通常是从输入事件派生的复杂事件。与对存储数据执行...

2019-09-03 00:21:41 3812

原创 Flink中的背压处理原理

什么原因导致背压？流系统中消息的处理速度跟不上消息的发送速度，导致消息的堆积。如果系统能感知消息堆积，并调整消息发送的速度，使消息的处理速度和发送速度相协调就是有背压感知的系统。背压如果不能得到正确地处理，可能会导致资源被耗尽或者甚至出现更糟的情况导致数据丢失。flink就是一个有背压感知的基于流的分布式消息处理系统。如下图：1、消息发送的太快，消息接受的太慢，产生消息拥堵。2、发生消息...

2019-09-01 20:13:22 3751

原创 PCA数学原理分析

PCA（Principal Component Analysis）是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示，可用于提取数据的主要特征分量，常用于高维数据的降维。数据的向量表示及降维问题...

2019-08-29 15:57:19 265

原创机器学子之集成分类算法

一、构建决策树的基本算法：ID3算法：使用信息增益进行特征选择C4.5算法：使用信息增益率进行特征选择，克服了信息增益选择特征的时候偏向于特征个数较多的不足CART算法：分类回归树，属于二叉树，既可用于分类，分类树用到基尼系数最小化原则，也可以用于回归预测，回归树用平方差最小准则。依据损失函数最小标准进行树的剪枝，防止过拟合。二、集成学习算法分为两种第一种：在相同训练数据中随机选取特征来...

2019-08-27 15:52:46 1248

原创构建决策树基本算法之ID3与C4.5

带着问题看文章一直以来是我认为最有效率的可以让自己一直专注的学习方法。话不多说，先抛出ID3和C4.5的两个概念总结：1、ID3算法：使用信息增益进行特征选择2、C4.5算法：使用信息增益率进行特征选择C4.5是对ID3算法的一种优化，克服了信息增益在选择特征时偏向于特征个数较多的不足那么什么是ID3，什么又是C4.5呢？想了解这2中高大上的算法，就要回溯到高中时候物理学中的熵。物理...

2019-08-19 16:15:36 1303

原创 spark源码之旅

2019-08-13 23:31:32 141

翻译 kafka集群架构图

2019-08-05 22:04:56 2410

原创数据库的三范式设计

**数据库的三范式设计**1、每个属性都是原子项，不可分割2、非主属性压完全依赖于主键3、非主属性直接依赖于主键，即非主属性间不存在依赖关系一、数据库的三范式设计1、每个属性都是原子项，不可分割原子不可分割性指在化学反应层面，在物理层面还是可以分割的，这里就不予深究了。或者说每个字段不能是一个集合，只能是单独的一个基本属性需求：现在要统计省和市如果需求知道那个省那个市并按...

2019-07-15 13:34:00 418

原创 Apache Impala零差错安装攻略

Apache Impalaimpala 介绍基于hive的数仓工具提供了准实时的交互式sql查询分析能力和hive共用一套元数据存储hive是基于hadoop的数仓工具提供了sql分析数据的能力批处理数据分析工具是企业中 imapla通常配合hive一起进行数仓数据分析来自于cloudera 后来贡献给了apacheimpala和hive的关系和hive共用一套...

2019-07-14 01:57:24 608

原创 TCP与UDP区别总结

1、TCP面向连接（如打电话要先拨号建立连接）;UDP是无连接的，即发送数据之前不需要建立连接2、TCP提供可靠的服务。也就是说，通过TCP连接传送的数据，无差错，不丢失，不重复，且按序到达;UDP尽最大努力交付，即不保证可靠交付Tcp通过校验和，重传控制，序号标识，滑动窗口、确认应答实现可靠传输。如丢包时的重发控制，还可以对次序乱掉的分包进行顺序控制。3、UDP具有较好的实时性，工作效率比...

2019-07-13 00:46:03 240

刘金超DT的博客