自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (1)
  • 收藏
  • 关注

原创 paper读书笔记

1.sparkvar text_file=sc.textfile('/input)var word=text_file.flatmap(line=>line.split("")).map(word=>(word,1)).reduceByKey(_+_)var out=word.count()统计有多少个不同的单词2.推荐系统衡量指标离线评估方法:holdout评估:70%训练集,10%验证集,20%测试集交叉检验:k-fold交叉验证(一般取10份,然后轮流做训练

2021-09-25 22:59:27 136

原创 leetcode:买股票的最大收益问题

题目:一个数组代表股票每天的价格,可以选择从某一天买入,然后之后的一天卖出,求能够获得的最大收益。例题:输入[3,4,5,6,5,8],输出为5(在价格为3的时候买入,在价格为8的时候卖出)输入为[3,4,5,6,7,2,8]输出为6(在价格为2时买入,在价格为8时卖出)思路:就是求出前序列的最小值,以及后序列的最大值,得到的差值就是我们要的答案首先想到的是暴力...

2018-08-22 21:12:59 6540

原创 leetcode:求最长无重复子串

1.求最长无重复子串:给定一个字符串,找出不含有重复字符的最长子串的长度。示例:给定 “abcabcbb” ,没有重复字符的最长子串是 “abc” ,那么长度就是3。给定 “bbbbb” ,最长的子串就是 “b” ,长度是1。给定 “pwwkew” ,最长子串是 “wke” ,长度是3。请注意答案必须是一个子串,”pwke” 是 子序列 而不是子串。思路:我们当然可以遍历,...

2018-08-22 15:34:21 272

转载 Spark性能优化指南——高级篇

原文链接:https://tech.meituan.com/spark-tuning-pro.html数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证Spark作业的性能。数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,...

2018-05-15 14:06:03 163

原创 Hive学习资料

Hive中内部表和外部表的区别:Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径,不对数据的位置做任何改变。在删除表的时候,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据。这样外部表相对来说更加安全些,数据组织也更加灵活,方便共享源数据。默认创建的是内部表,加入external关键词则为创建外部表。 时期数和时点数的区别:时期数是一段...

2018-05-15 09:35:39 1103

原创 机器学习中,数据分布不平衡的处理方法

假如有个案例,正负样本数目比例是130:1,极端数据不平衡,可能尝试的解决方法1.对正样本降采样2,负样本增采样3,。人造样本,对于负样本添加噪声,任为负样本4,对于不同样本的loss function设定不一样,具体情况具体分析5,分层采样,用随机采样,分成10份6.针对正样本随机采样分成10份,然后负样本加入到每个正样本中,样本正负比变成13:1,降低数据不平衡7,模型融合,不同的算法得到不同...

2018-04-27 23:09:49 1905

原创 聚类方法分类

1.原型聚类:典型的做法是K-means,首先设定k个类别,随机的在总体样本中选择k个样本作为聚类中心,然后遍历所有样本点,把所有样本点分类到k个类中(以最短距离为标准),然后更新k个样本的样本中心,再重新划分所有的样本点。停止条件可以设定为样本的变化幅度不大的情况,或者两次的损失函数变化不大的情况。优点:简单、时间复杂度、空间复杂度低缺点:随机初始化的中心点对结果影响很大;2.层次聚类:就是对所...

2018-04-27 22:57:25 3290

原创 剑指offer原题:输入n个整数,找出其中最小的K个数。

输入n个整数,找出其中最小的K个数。例如输入4,5,1,6,2,7,3,8这8个数字,则最小的4个数字是1,2,3,4,。显然可以考虑用快排的思想,这是比较常规的做法,就是选定一个temp,然后计数比这个temp小的数有多少,和k做比较,如果count小于k,继续利用快排的思想,递归,就是还要寻找k-count个,在比temp大的数里面。本文尝试用堆排的思想,这也是可以的;首先写出最小堆的的调整算...

2018-04-08 22:34:47 2458

原创 2018年华为实习生招聘三道编程题

第一题:给定一个字符串,输出字符串中连续最长的数字串,并把这个最长数字串的长度输出来,中间以逗号(,)隔开。如果存在长度一样的的连续数字串,返回最后一个连续数字串。样例:abcd12345ed125ss123058789output:   123058789,9分析:新建两个StringBuffer,一个是用来存储目前连续数字的字符串,另一个用来存储最长的连续数字字符串,不断比较更新。java代码...

2018-03-22 10:22:07 7987 3

转载 xgboost原理

转载,出处http://blog.csdn.net/a819825294 http://blog.csdn.net/a819825294/article/details/512064101.序  距离上一次编辑将近10个月,幸得爱可可老师(微博)推荐,访问量陡增。最近毕业论文与xgboost相关,于是重新写一下这篇文章。  关于xgboost的原理网络上的资源很少,大多数还停留在应用层面,本文通过...

2018-02-26 17:50:53 212

原创 找到最大子数组的 start,和 end 下标

对于给定的一串数组,找到它的最大子序列,起始和终止的下标,并求出最大值。解决方法思路:可以从数组的最后一个字符开始比较,初始的max等于最后一个数组值,然后从后往前加,这个值称为maxend,当maxend小于0的时候,说明加入了负数,此时不是最大子序列,所以maxend得清零,end的下标也得前移;如果maxend的值大于max的值,说明这个值可以用来更新,就是找到新的更大的值,此时max更新为...

2018-02-23 10:44:15 839

原创 数据样本不平衡问题处理方法

很多分类学习方法针对都有一个共同的基本假设,即不同类别的训练数据数目相当,即使稍有差别,通常影响不大。但如果差别较大,就会对学习过程造成困扰。在现实场景中,比如银行欺诈,异常登录,网络入侵等领域中,大多数数据通常有不到1%少量但异常数据。这就使得对于处理不平衡数据有着及其重要的意义。1.使用正确的评估指标例如对于有998个的反例,但正例只有2个,那么学习方法只要返回一个永远把样本预测为

2017-12-05 15:49:31 11491

原创 剑指offer中取双元素法寻找数组中的最小值和最大值中的bug

剑指offer编程题中,关于数组里面的“如何寻找数组中的最小值与最大值”中,文章中作者给出了五种方法,其中给出源代码的取双元素法,源代码如下:public class TestMaxMin {                      static int Max;                      static int Min;                 

2017-09-06 20:41:43 294

原创 关于聚类的讨论

监督学习和无监督学习:       监督学习是已近知道输出的结果,就是期望输出。而无监督学习意味着对于结果的未可知。监督学习包括:神经网络,决策树,SVM以及贝叶斯过滤。而无监督学习包括聚类,负矩阵因式分解和自组织映射。聚类的目的:       举个简单的例子来说,(来自于《集体智慧编程》),我们想知道热门的博客会偏向于什么样的文字情感,甚至说,我们想知道某位写作红人(郭敬明)的写作风

2017-08-31 10:08:40 444

原创 皮尔逊相关度评价函数

判断两个两个坐标之间的相似度,最经典的做法就是计算计算它们的欧几里得距离。在二维坐标系里面,就是两个点之间的距离,即所有方向的差值求平方和之后,再开根号。除了欧几里得距离,还有一些复杂度更高的方法,比如皮尔逊相关系数,它是判断两组数据与一直线拟合程度的一种度量,典型的例子在,评价系统中,两个人对于不同物品的评价系数不一样,显示在坐标系中,就是一个拟合的关系。用python实现皮尔逊相关评价函数

2017-08-29 16:06:34 1063

DRCN超分论文,ppt和代码

2016论文,全部实现过程。利用RNN做图像块特征的映射。网络分为三个部分,第一部分提取图像特征,第二部分做图像块之间的映射,第三部分做图像的重建。

2017-12-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除