自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 资源 (1)
  • 收藏
  • 关注

原创 Hbase基础语法学习和总结

2018-04-18更新:HBase语法学习,作为Nosql关系库,虽然不支持SQL,但是它有自己的特点,学习是非常有必要的,需要电子书的同学,可以私信留言。Ctrl + backspace 是删除,单出的Backspace是无效的;Hbase中都是字符串,没有其他类型;List:列出所有表格;Scan tablename:浏览表,Hbase默认是保存三个版本的数据;disable tablena...

2018-03-22 13:57:40 524

原创 hive 学习心得和日常填坑

2019-12-11更新:impala结构化数据库基于google最新三篇大数据文章,基于hive(提供metadata)的一种更快的数据库。与Hive主要区别:不走mapreduce并行计算架构,而是采用query解析树结构,节点的数据由下往上拉取,而不是reduce计算完 成之后往下传递,从而降低时间消耗 无稳定性保障(默认...

2018-03-21 21:25:24 2200

原创 随机森林算法OOB_SCORE最佳特征选择

2018-04-02更新:补充OOB特征选择另一个原理Sklearn RandomForest算法(有监督学习),可以根据输入数据,选择最佳特征,减少特征冗余;同理,可以通过特征的排列组合,选择最优的组合特征,优化下游算法性能原理:由于随机决策树生成过程采用的Boostrap,所以在一棵树的生成过程并不会使用所有的样本,未使用的样本就叫(out_of_bag)oob袋外样本。通过袋外样本,...

2018-03-20 15:01:34 29138 95

原创 机器学习参数模型与非参数模型/生成模型与判别模型

2018-03-31更新:生成模型与判别模型参数模型:根据预先设计的规则,例如方差损失最小,进行学习,参数模型例子:回归(线性回归、逻辑回归)模型;最好可以看一下或者直接进行一下相关的推导;根据规则,拥有少部分数据就可以;非参数模型:不需要事先假设规则,直接挖掘潜在数据中的规则;非参数模型例子:KNN,决策树,挖掘数据潜在的特征,所以比较灵活;参数模型缺点:受限制性高非参数模型缺点:训练时间长,容...

2018-03-18 19:11:13 3122

原创 Sklearn GridSearchCV 参数优化

2018/3/16更新:遇到个参数优化的需求,不禁想起了网格搜索算法,还是比较好用的,存在的问题:速度慢,每次更新参数都需要重训练,所以针对这个问题需要自己权衡;下面就已随机森林算法为例,做一个网格优化的Demo。代码如下:这个代码主要优化的是森林规模、森林深度和样本权重import pandas as pdimport numpy as npfrom sklearn.ensem...

2018-03-16 15:31:00 1516 3

原创 Python报错总结

2018/04/18更新:Python 文件读取报字符character错误处理方法用Python快两年了,也基本熟悉了,但是长久不用,写着又会出错了,以下今后报错和改正的总结,希望对新手或者初学者一定帮助,报错不可怕,认真看错误原因和百度、google,基本都能解决的!以下指的是Python3版本1、关于mappython3.3之后,通过map函数生成的就是一个iterators,如果你需要看里...

2018-03-15 16:36:04 519

原创 Linux爬坑之路(学习总结)

本人只会简单的一些Linux指令,但是在工作中完全是不够的,因此开一篇博客,记录每天使用和学习心得,欢迎大家一起交流!2018/06/15更:crontab -e 定时部署定向输出上面cd   $(dirname $0)  一般出现在shell 里面,表示切换路径到执行脚本的路径下,执行脚本top、ps 查看内存占用情况df:查看磁盘使用情况;du查看文件大小ping:查看服务器是...

2018-03-15 10:06:15 225

原创 Lightgbm

来爱奇艺这边实习,分到了BI算法岗,要开始接触微软开源的Lightgbm了,号称比xgboost更快更狠的开源;开这篇博客,记录爬坑点滴!后续会更新的;2018/3/15这个算法对XGBOOST进行了进一步的优化(速度上);而且精度损失不大,并且有GPU等加速方法,但是调节的参数非常多,也是一个棘手的问题,具体可以去论文介绍地址里面看;有兴趣了解XGBOOST的同学可以去看一下陈天奇大神的介绍;我...

2018-03-14 17:08:15 831 3

原创 Intel因特尔 SSG大数据实习生面试

2018/3/11更:星期四去面试了一下大数据实习生;以下是两个小时面试的问题,按回忆顺序,有兴趣的同学可以看一下,希望对你们有帮助有两个师兄,一个师姐都在Intel了;内推了一下,针对他们情况和个人面试情况,总结一下Intel对实习生要求:如果你面测试;1、Linux你需要玩的很溜,而不是一点简单的操作指令,shell脚本要会;Python在测试脚本里面很重要!2、暑期应该是In...

2018-03-11 23:00:09 2197

原创 Scala学习总结(from scala for the Impatient)

2018/05/14更:Scala特质 Trait。这本书很适合初学者,如果有需要可以留下邮箱,或者私信,我发电子版给你们!基础语法(1):scala shell 环境退出:  :quit语句=> 符号作用类似于Python 匿名函数lambda;val a = 'b'  a:Char b 字符型数据   val test = "a" type:字符串 所以,Scala用...

2018-03-09 11:56:15 473

原创 JAVA垃圾回收机制和Python垃圾回收对比与分析

2018/3/9更:个人理解JAVA与Python区别,若有不足,请及时指出,谢谢!JAVA垃圾回收原理:参考JAVA编程思想P90-P91JAVA垃圾回收:采用停止-复制、标记-清扫的自适应方法首先使用停止-复制方法,停止程序,然后将存活的对象,从当前堆复制到另外一个堆,并且是一个一个紧密排列;但是复制过程是两个堆之间来回进行,导致开销极大,并且,可能在程序稳定后,只有少部分垃圾,但...

2018-03-08 10:01:31 3128

原创 机器学习特征工程

2018/3/15更新结合KAGGLE竞赛经验、算法面试情况和jasonfreak的总结,个人总结出以下机器学习特征处理的方法;分享给大家,希望对大家有帮助特征使用方案:1、要实现我们目标,需要什么数据----结合特定业务,具体情况具体分析              2、数据可用性评估:1、获取难度 2、覆盖率  3、准确率特征获取方案:1、如何获取特征(接口调用or自己清洗or/...

2018-03-03 10:37:20 1027

原创 爱奇艺机器学习算法实习面试总结

2018/3/9更新,实习已录用,很开心!大家有问题可以问我。2018.3.1面试了爱奇艺机器学习算法实习生岗位,面了2个小时左右,两轮;现在把问题分享给大家,希望对大家以后的面试有帮助第一轮面试问题:(1)冒泡算法代码书写和复杂度分析:本人非科班出身,数据结构/算法熟悉,但是没有具体练习过,只是用python写过选择排序,结果是大概过程写出来了;然后让我分析了一下冒泡算法最好的结...

2018-03-01 15:47:06 3313

Analysis of noisy evolutionary optimization when sampling fails.pdf

描述当下最流行的不平衡数据处理方法,包括欠采样,过采样,加权处理等一系列技术手段和其中模型学习的过程,剖析原理和进行相关对比实验,表明上述处理方法的优劣,帮助MACHINE LEARNER 解决实际问题

2020-06-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除