- 博客(31)
- 资源 (2)
- 收藏
- 关注
转载 今我来思,堆栈泛化(Stacked Generalization)
原文地址:https://www.jianshu.com/p/46ccf40222d6 感谢作者,讲的很透彻在集成学习(Ensemble Learning)中除了Bagging和Boosting对数据的横向划分划分之外,还有一个纵向划分(加深)的方法, 一般称为Stacked Generalization(SG)的技术。 SG这个技术已经在Kaggle竞赛中多次崭露头角了, 部分情况下,应用...
2018-09-07 16:49:53 2762
转载 数据挖掘比赛通用框架
1. 前言Kaggle上有篇名为「Approaching (Almost) Any Machine Learning Problem」的博客(点击底部阅读原文),作者是Kaggle比赛的专业户,博客是他参加Kaggle比赛的经验总结。在进入正题前随便扯几句: 本文并非原博客的翻译版,而是90%的原创,是在原博客基础上融合自己的经验,重写了大部分章节和代码。所以当你看到本文跟原博客差别很大...
2018-09-05 16:53:44 949
原创 主动学习与半监督算法结合在支付宝风控的应用
以下内容均来自互联网,系笔者汇总并总结2018蚂蚁金服ATEC大赛1、赛题任务描述在金融行业中,风控系统与黑产的攻防几乎是无时不刻的存在着,风控系统中用来实时识别风险的机器学习模型需要在黑产攻击的手法改变的时候能够及时的对其进行重新识别。而机器学习算法在训练过程中学习到的黑产的攻击手法是基于历史数据中的黑样本学习而来,当模型上线后一旦黑产的攻击手法做了调整,这时候模型的性能往往会衰退...
2018-09-04 11:45:46 2613 1
转载 使用深度学习的三维点云分类的介绍
在过去的这些年里,对二维图像已经有了大量深入的研究,并且有着长足的发展。它在分类任务上取得了极好的结果主要得益于一下两个关键因素:1.卷积神经网络。2.数据 - 大量图像数据可用。 但是对于3D点云,数据正在迅速增长。大有从2D向3D发展的趋势,比如在opencv中就已经慢慢包含了3D点云的处理的相关模块,在数据方面点云的获取也是有多种渠道, 无论是源于CAD模型还是来自LiDA...
2018-08-30 00:02:33 542
转载 简单又实用的pandas技巧:如何将内存占用降低90%
pandas 是一个 Python 软件库,可用于数据操作和分析。数据科学博客 Dataquest.io 发布了一篇关于如何优化 pandas 内存占用的教程:仅需进行简单的数据类型转换,就能够将一个棒球比赛数据集的内存占用减少了近 90%,机器之心对本教程进行了编译介绍。当使用 pandas 操作小规模数据(低于 100 MB)时,性能一般不是问题。而当面对更大规模的数据(100 MB 到数...
2018-08-29 23:55:02 802
转载 如何在 Kaggle 首战中进入前 10%
Introduction本文采用署名 - 非商业性使用 - 禁止演绎 3.0 中国大陆许可协议进行许可。著作权由章凌豪所有。Kaggle 是目前最大的 Data Scientist 聚集地。很多公司会拿出自家的数据并提供奖金,在 Kaggle 上组织数据竞赛。我最近完成了第一次比赛,在 2125 个参赛队伍中排名第 98 位(~ 5%)。因为是第一次参赛,所以对这个成绩我已经很满意了。在 Kagg...
2018-07-15 11:53:39 367
转载 逻辑回归的常见面试点总结
1.简介 逻辑回归是面试当中非常喜欢问到的一个机器学习算法,因为表面上看逻辑回归形式上很简单,很好掌握,但是一问起来就容易懵逼。所以在面试的时候给大家的第一个建议不要说自己精通逻辑回归,非常容易被问倒,从而减分。下面总结了一些平常我在作为面试官面试别人和被别人面试的时候,经常遇到的一些问题。2.正式介绍 如何凸显你是一个对逻辑回归已经非常了解的人呢。那就是用一句话概括它!逻辑回归...
2018-07-13 14:00:42 409
转载 机器学习算法GBDT的面试要点总结-上篇
1.简介 gbdt全称梯度下降树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,在前几年深度学习还没有大行其道之前,gbdt在各种竞赛是大放异彩。原因大概有几个,一是效果确实挺不错。二是即可以用于分类也可以用于回归。三是可以筛选特征。这三点实在是太吸引人了,导致在面试的时候大家也非常喜欢问这个算法。 gbdt的面试考核点,大致有下面几个:gbdt 的算法的流程?gbdt 如何选...
2018-07-13 13:29:54 221
原创 提高图形高效绘图机制的方法
一、前言 当图形数据量很大时,绘图可能需要几秒钟甚至更长的时间,而且有时还会出现闪烁现象,为了解决这些问题,可采用双缓冲技术来绘图。 双缓冲即在内存中创建一个与屏幕绘图区域一致的对象,先将图形绘制到内存中的这个对象上,再一次性将这个对象上的图形拷贝到屏幕上,这样能大大加快绘图的速度。双缓冲实现过程如下:1> 在内存中创建与画布一致的缓冲区;2> 在缓冲区画图;3>将缓...
2018-04-20 11:04:48 845
原创 矩阵乘法在2D图形中应用
一般矩阵乘积 矩阵相乘最重要的方法是一般矩阵乘积。它只有在第一个矩阵的列数(column)和第二个矩阵的行数(row)相同时才有定义。一般单指矩阵乘积时,指的便是一般矩阵乘积。若A为m X n矩阵,B为n X p矩阵,则他们的乘积AB(有时记做A · B)会是一个m X p矩阵。其乘积矩阵的元素如下面式子得出: 以上是用矩阵单元的代数系统来说明这类乘法的抽象性质。本节以下各种运算法都是...
2018-04-20 10:45:32 770
原创 吴恩达-DeepLearning.ai-Course3-Week1笔记
自己笔记更新至此不再更新,参看吴恩达所有deeplearning.ai课程笔记网址:http://www.ai-start.com/dl2017/ 感谢作者1. Setting up your goal1.1 single number evaluation metric无论你在选择超参调优或是选择不同的机器学习算法,还是在构建机器学习系统的时候,选择不同的配置项,你都会发现,如果你有...
2018-04-17 17:42:11 426
原创 吴恩达-DeepLearning.ai-Course2-Week3笔记
本周课程记录如下:1. Hyperparameter tuning process到目前为止,大家都知道调整神经网络的过程,包含了对很多不同超参数的设置,然而,你该怎样为这些参数找到比较合适的设定值呢?这里会分享一些指导原则以及系统化进行超参数调优的技巧,它们将帮助你更有地获得合适的超参数,面对大量的超参数,包括:学习率α,如果使用动量算法的话,还包含动量超参数β,还有Adam优化算...
2018-04-06 21:56:51 430
原创 吴恩达-DeepLearning.ai-Course2-Week2笔记
本周主要讲解加速神经网络的算法1.小批量梯度下降算法(mini-batch gradient descent)如果你得训练集数量巨大,500万或者上千万,梯度下降算法会非常慢,如果你让梯度下降在处理完整个巨型的500万训练集之前就开始有所成效,具体来说:首先将你的训练集拆分成更小的微小的训练集,即小批量训练集(mini-batch),注意新符号的引入和维度所以一共有5000个小批量样例,对于Y也做...
2018-03-15 21:25:32 443
原创 吴恩达-DeepLearning.ai-Course2-Week1笔记
本周主要学习了如何设置训练、开发、测试集,如何分析高偏差高方差的情况以及面对高偏差或者高方差应该如何做,以及如何运用不同形式的正则化, 比如L2正则化还有对你的神经网络进行随机失活(dropout),即一些加速神经网络训练的技巧,最后是梯度检验的内容,个人觉得本周课程还是蛮重要的,笔记如下方便日后查看1.我们一般把数据集分为训练集,开发集,还有测试集(当然也可以仅仅存在训练集和开发集),如果数据集...
2018-02-23 08:52:09 408
原创 吴恩达-DeepLearning.ai-Course1-Week2-实现逻辑回归算法-编程作业笔记
非常推荐大家去学习一下coursera上的DeepLearning.ai课程,Week2的作业是实现逻辑回归算法,细节不再赘述,主要看1张图(逻辑回归算法识别猫和非猫的图片的架构图)和实现的公式(公式要好好理解,看下到底是怎么通过梯度下降来最小化损失函数的,这可以说是最简单的公式了)用到的公式:以下代码可以很好的帮助理解前向传播、反向传播以及梯度下降来学习参数的原理,做完后,我是从Jupyter的...
2018-02-09 11:16:37 828
原创 关于编译器 normal block输出(normal block at 0x0CECA1E8, ** bytes long)内存泄露解决方法
如果当你new了一个对象,但是忘记了delete它,编译器输出栏会提示该问题,一般情况很难引起你的注意,而我碰到一个问题,就是debug模式下,退出程序后,VS2010编译器仍然没有退出,并且一直输出 normal block如下:知道是内存泄露,但是没有提示是哪一句内存泄露,在你相应的的cpp文件中加上如下代码,就可以追踪是哪一个new操作引起该问题的#ifdef _DEBUG
2018-02-02 17:32:49 8575 1
原创 关于assert im_orig.shape[2] == 3, "3ch image is expected"
环境:python3.4,opencv3大家如果用selective_search函数搜索目标的话,有时候会出现该错误“assert im_orig.shape[2] == 3, "3ch image is expected”,不考虑你导入的图片不存在后,主要原因是你二次灰度化了,测试代码如下: image_path = "tmp.png" # 用cv2读取图片,如果tmp
2018-02-01 16:40:09 1576
原创 利用MNIST训练结果识别数字图片
关于如何训练MNIST,本文不再赘述,可看其他博文(详细代码https://github.com/neozgx/MNIST_TRAIN)本文记录一下如何通过训练结果去识别图片:环境:Ubuntu16.04;Python3.51.如果需要训练结果,请直接下载http://download.csdn.net/download/zgx123666/10227566,或者自己训练2.利用该结果
2018-01-27 23:15:51 2109 1
原创 关于梯度下降算法
前边博文说了关于MNIST手写字体的识别,现在专门记录下使用梯度下降算法进行学习的方法:我们将⽤符号 x 来表⽰⼀个训练输⼊。为了⽅便,把每个训练输⼊ x 看作⼀个 28 *28 = 784维的向量。每个向量中的项⽬代表图像中单个像素的灰度值。我们⽤ y = y(x) 表⽰对应的期望输出,这⾥ y 是⼀个 10 维的向量。例如,如果有⼀个特定的画成 6 的训练图像,x,那么y(x) = (0
2018-01-27 22:37:31 780
转载 Tensorflow之基于MNIST手写识别的入门介绍
Tensorflow是当下AI热潮下,最为受欢迎的开源框架。无论是从Github上的fork数量还是star数量,还是从支持的语音,开发资料,社区活跃度等多方面,他当之为superstar。 在前面介绍了如何搭建Tensorflow的运行环境后(包括CPU和GPU的),今天就从MNIST手写识别的源码上分析一下,tensorflow的工作原理,重点是介绍CNN的一些基本理论,作为扫
2018-01-26 17:17:07 263
原创 ubuntu16+Python3.5安装tensorFlow傻瓜版
废话不多说:系统版本:ubuntu-16.04.3-desktop-amd64Python3.5(ubuntu-16.04.3自带改变运行版本即可)注意unbuntu需要是64位的!!! tensorflow官方安装包目前不支持32位的os。 1. 配置pip环境 1) 安装pip: 1sudo apt i
2018-01-20 15:29:20 6183 1
原创 修改微软TstCon容器源码,使其支持Python脚本和ActiveX控件交互
关于ActiveX和脚本交互请看https://baike.baidu.com/item/ActiveX%E8%84%9A%E6%9C%AC%E7%BC%96%E7%A8%8B/3350788?fr=aladdin本文不再赘述微软TstCon用来加载ActiveX控件的一个容器,默认仅支持VBScript和JavaScript,其源码在VS2010安装目录下Samples文件夹内,至于为什
2018-01-17 10:35:38 489
转载 线程池的原理和创建
本文给出了一个通用的线程池框架,该框架将与线程执行相关的任务进行了高层次的抽象,使之与具体的执行任务无关。另外该线程池具有动态伸缩性,它能根据执行任务的轻重自动调整线程池中线程的数量。文章的最后,我们给出一个简单示例程序,通过该示例程序,我们会发现,通过该线程池框架执行多线程任务是多么的简单。为什么需要线程池目前的大多数网络服务器,包括Web服务器、Email服务器以及数据库服务器等都
2016-03-06 19:21:59 336
转载 基于SPserver的大型通信服务器开发
服务方向软件开发技术服务软件开发办公财务MIS股票设备监控网页信息采集及控制多媒体软件开发培训Java 安卓移动开发Java Web开发网站前端开发VC++C++游戏开发培训C#软件C语言(Linux)ASP.NET网站开发(C#)C#软件+ASP.NET网站SOCKET网络通信开发COMOLE和ActiveX开发C++(Linux)汇编和破解驱动开发SkinMagicVC++换肤LinuxC
2016-02-29 17:23:51 2973
转载 WaitForSingleObject以及WaitForMultipleObjects 函数
等待函数可使线程自愿进入等待状态,直到一个特定的内核对象变为已通知状态为止。 WaitForSingleObject 函数DWORD WaitForSingleObject(HANDLE hObject, DWORD dwMilliseconds);第一个参数hObject标识一个能够支持被通知/未通知的内核对象(前面列出的任何一种对
2016-02-26 15:03:56 417
转载 学习笔记:神秘的 IOCP 完成端口
【什么是IOCP】是WINDOWS系统的一个内核对象。通过此对象,应用程序可以获得异步IO的完成通知。这里有几个角色:角色1:异步IO请求者线程。简单的说,就是调用WSAxxx()函数(例如函数WSARecv,WSASend)的某个线程。 由于是“异步”的,当角色1线程看到WSAxxx()函数返回时,它并不能知道本次IO是否真的完成了。 注:当WSAxx
2016-02-25 16:19:15 381
转载 编程思想之多线程与多进程(2):线程优先级与线程安全
上文详细讲述了线程、进程的关系及在操作系统中的表现,这是多线程学习必须了解的基础。本文将接着讲一下线程优先级和线程安全。 线程优先级现在主流操作系统(如Windows、Linux、Mac OS X)的任务调度除了具有前面提到的时间片轮转的特点外,还有优先级调度(Priority Schedule)的特点。优先级调度决定了线程按照什么顺序轮流执行,在具有优先级调度的系统中,线
2016-02-14 10:12:19 393
转载 编程思想之多线程与多进程(1):以操作系统的角度述说线程与进程
什么是线程什么是线程?线程与进程与有什么关系?这是一个非常抽象的问题,也是一个特别广的话题,涉及到非常多的知识。我不能确保能把它讲的话,也不能确保讲的内容全部都正确。即使这样,我也希望尽可能地把他讲通俗一点,讲的明白一点,因为这是个一直困扰我很久的,扑朔迷离的知识领域,希望通过我的理解揭开它一层一层神秘的面纱。任务调度线程是什么?要理解这个概念,须要先了解一下操作系统的一些
2016-02-14 10:11:26 261
转载 Windows多线程探究
原文出处: luoweifu 欢迎分享原创到伯乐头条《编程思想之多线程与多进程(1)——以操作系统的角度述说线程与进程》一文详细讲述了线程、进程的关系及在操作系统中的表现,《编程思想之多线程与多进程(2)——线程优先级与线程安全》一文讲了线程安全(各种同步锁)和优先级,这是多线程学习必须了解的基础。本文将接着讲一下C++中多线程程序的开发.这里主要讲Windows平台线程的用法,创建线
2016-02-13 22:35:47 329
转载 线程池学习笔记1
概念:线程池是一种多线程处理形式,处理过程中将任务添加到队列,然后在创建线程后自动启动这些任务。线程池线程都是后台线程。每个线程都使用默认的堆栈大小,以默认的优先级运行,并处于多线程单元中。如果某个线程在托管代码中空闲(如正在等待某个事件),则线程池将插入另一个辅助线程来使所有处理器保持繁忙。如果所有线程池线程都始终保持繁忙,但队列中包含挂起的工作,则线程池将在一段时间后创建另一个辅助线程但线程的
2016-02-13 22:10:28 310
转载 IOCP编程之基本原理
在我的博客之前写了很多关于IOCP的“行云流水”似的看了让人发狂的文章,尤其是几篇关于IOCP加线程池文章,更是让一些功力不够深厚的初学IOCP者,有种吐血的感觉。为了让大家能够立刻提升内力修为,并且迅速的掌握IOCP这个Windows平台上的乾坤大挪移心法,这次我决定给大家好好补补这个基础。要想彻底征服IOCP,并应用好IOCP这个模型,首先就让我们穿越到遥远的计算机青铜器时代(以出现PC为
2016-02-13 18:45:11 3722 4
ActiveX测试容器最新版(可支持Python脚本)
2018-01-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人