斜杆小刘-CSDN博客

原创逻辑回归-正则化

接着上篇文章（https://blog.csdn.net/yritssh/article/details/104365016），继续分析逻辑回归。

2020-02-23 16:47:27 3734 7

原创逻辑回归

本文将从KL距离（相对熵）、交叉熵和一些公式推导来阐述逻辑回归这个传统的机器学习方法，重理论轻代码。1.KL距离 KL距离又称作相对熵，通常是用来衡量两分布之间的相似度。公式如下：其中P,Q是两分布。很显然，KL...

2020-02-19 22:14:19 912

原创模型评价指标-ROC曲线AUC值

在做机器学习的时候，当模型训练好之后，我们该如何去评价这个模型的好坏呢？我们首先想到的会是使用正确率来评价模型的好坏。首先来看下正确率公式：正确率 = 预测正确的样本数 / 总的样本数那么如果用正确率来衡量一个模型的好坏的话，它会存在什么问题呢？假如我们有100...

2020-02-14 03:14:21 1577

原创 spark内存管理源码解读（基于Spark1.6）

在初始化SparkEnv时，可以看spark1.6支持两种内存管理方式： StaticMemoryManager（静态内存管理）和UnifiedMemoryManager（统一内存管理），spark1.6之前默认的是静态内存管理，spark1.6之后默认的管理机制是统一内存管理。具体源码如下：// 1.6之前默认静态内存管理，1.6之后默认统一内存管理 val useLegacyM...

2019-09-18 19:25:19 282

原创 mapreduce 二次排序

目标：输入数据：sort11 sort23 sort288 sort254 sort12 sort622 sort6888 sort658 输出数据：sort11,2 sort23,54,88 sort622,58,888...

2019-08-28 14:18:31 123

原创 Spark JDBC读取数据分区数源码跟踪

直接上读取oracle的代码， //读取Oracle数据 def readOracle(hiveContext: HiveContext, tableName : String /*,hzn_user : String,hznpassword : String*/): DataFrame ={ val url=props.getProperty("url") val u...

2019-08-28 11:35:01 1048

原创 SparkSQL源码解读1.6

总的流程入下：1.通过Sqlparse 转成unresolved Logicplan2.通过Analyzer转成 resolved Logicplan3.通过optimizer转成 optimzed Logicplan4.通过sparkplanner转成physical Logicplan5.通过prepareForExecution 转成executable logicplan...

2019-08-13 10:00:32 409

原创算法导论-二分查找

# Author:Liusw# 查找问题import math# nums 是升序def searchNum(nums,target): # 先将数组nums进行排序 # nums = insertionSort(nums,"asc") # print() result = False middle = math.floor((len(nums)...

2019-07-04 00:56:30 221

原创算法导论-插入排序

# Author:Liusw# 插入排序def insertionSort(nums,order): for i in range(1,len(nums)): key = nums[i] j = i -1 if order == "desc": while j >= 0 and nums[j] <...

2019-07-04 00:54:42 155

原创 python中yield关键字

首先执行如下代码：print('+++++++++++++++++++++++++++++++++++++++++++++++++++')def test(): for i in range(20): yield i print('-----',i)print(test())得到一下结果：可以看出返回的是一个generator，test...

2018-12-25 17:05:04 140

原创决策树之构造决策树（一）

决策树时一种常用的数据挖掘算法，其优势在于数据形式非常容易理解，缺点在于很可能产生过度匹配的问题（即过拟合问题，如何解决过拟合问题待续.......）。决策树的一个重要任务就是为了理解数据中所蕴含的数据信息，因此决策树可以使用不熟悉的数据集合，并从中提取出一系列的规则，这些机器根据数据集创建规则的过程，就是机器学习的过程。决策树给出的结果往往可以匹敌在当前领域具有几十年工作经验的人类专家...

2018-12-19 19:50:14 2341 2

解决虚拟机空间不足搭建cdh时发现虚拟机空间不足了，于是有了此文LVM的产生是因为传统的分区一旦分区好后就无法在线扩充空间，也存在一些工具能实现在线扩充空间但是还是会面临数据损坏的风险；传统的分区当分区空间时，一般的解决办法是再创建一个更大的分区将原分区卸载然后将数据拷贝到新分区，但是在企业的生产系统往往不允许停机或者允许停机的时间很短，LVM就能很好的解决在线扩充空间的问题，而且不会对数据造成...

2018-05-10 02:06:11 3044 1

原创 hive的三种用户定义函数

一、UDF(user-defined function) 作用于单个数据行，且产生一个数据行作为输出。大多数函数（例如数学函数和字符串函数）都属于这类函数。二、UDAF（user-defined aggregate function）接受多个输入数据行，只产生一个输出数据行作为输出。（用户定义聚合函数）三、UDAF(user-defined table-generati...

2018-02-11 10:27:45 1400

原创 MapReduce二次排序法

目标：输入数据：1. sort1 1 2. sort2 3 3. sort2 88 4. sort2 54 5. sort1 2 6. sort6 22 7. sort6 888 8. sort6 58 输出数据：1. sort1 1,2 2. sort2 3,54,88

2018-01-29 20:54:09 318

转载 MapReduce编程之Reduce Join多种应用场景与使用

在关系型数据库中 Join 是非常常见的操作，各种优化手段已经到了极致。在海量数据的环境下，不可避免的也会碰到这种类型的需求，例如在数据分析时需要连接从不同的数据源中获取到数据。不同于传统的单机模式，在分布式存储下采用 MapReduce 编程模型，也有相应的处理措施和优化方法。我们先简要地描述待解决的问题。假设有两个数据集：气象站数据库和天气记录数据库，并考虑如何合二为一。一个典型的查

2018-01-27 21:42:05 950

原创 jsp编译报错

解决Only a type can be imported. * resolves to a package原创我想在index.jsp中导入JSONObject，代码如下：<%@pageimport="com.alibaba.fastjson.JSONObject" %>运行时报错:An error oc

2017-12-14 10:05:02 1627

原创 linux远程免密登入

主机A远程免密访问主机B（本操作都是在root用户下进行操作）A主机命令窗口：#cd #ssh-keygen会有三提示，每次提示都按回车B主机命令窗口：#cd #ssh-keygen连按三回车会有三提示，每次提示都按回车A主机命令窗口：#cd #scp /root/.ssh/id_rsa.pub root@主

2017-11-20 21:32:34 245

原创 HDFS文件追加append里的坑

org.apache.hadoop.ipc.RemoteException: Failed to APPEND_FILE /apps/hive/warehouse/ods.db/phone/phone.txt for DFSClient_NONMAPREDUCE_1742740607_1 on 172.17.0.4 because DFSClient_NONMAPREDUCE_17427406

2017-11-11 18:03:44 14698

原创 freemarker和jsp的区别

jsp优点：1、功能强大，可以写java代码2、支持jsp标签（jsp tag）3、支持表达式语言（el）4、官方标准，用户群广，丰富的第三方jsp标签库5、性能良好。jsp编译成class文件执行，有很好的性能表现缺点：jsp没有明显缺点，非要挑点骨头那就是，由于可以编写java代码，如使用不当容易破坏mvc结构。freemarker优点：1、

2017-07-03 09:11:33 1102

yritssh的博客

原创 01-单调栈和窗口及其更新结构