自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

kakazai.cn

分享!

  • 博客(32)
  • 收藏
  • 关注

原创 1.3万字的支持向量机-含详尽的数学推导和细致全面的逻辑解释-第一部分

一、前言(1)现有SVM相关材料的贡献与不足周志华《机器学习》李航《统计学习方法》支持向量机通俗导论(理解 SVM 的三层境界)从零推导支持向量机(2)本文的贡献和不足本文的贡献本文的不足(3)阅读本文所需的数学知识(4)主动思考,亲自动手,化整为零(5)我的疑问二、相关定义和主要任务:(1)相关定义(2)任务三、不存在噪音的训练数据集(1) ...

2018-06-30 23:47:11 980

原创 1.3万字的支持向量机-含详尽的数学推导和细致全面的逻辑解释-第二部分

四、存在噪音的训练数据集(1) 训练数据集线性可分1) 噪音让最优超平面变形2) 引入松弛变量处理噪音,修改原目标函数和约束条件3) 构造拉格朗日函数得到对偶问题31) 构造拉格朗日函数32) KTT条件-最优解必须满足的条件33) 对偶问题4)求解对偶问题-SMO算法41) 思路42) 计算出最优解43) 分析最优解的取值范围44)如何选择两个变量?5)...

2018-06-30 23:42:35 433

原创 PAT甲级-1004 Counting Leaves (30)(30 分)-树-BFS

1004 Counting Leaves (30)(30 分)A family hierarchy is usually presented by a pedigree tree. Your job is to count those family members who have no child.InputEach input file contains one test case. Each...

2018-06-21 20:31:10 287

原创 由SVM中的拉格朗日乘子法与KKT条件到最优化问题

  前言:在学习支持向量机SVM时,要对SVM模型求最优解,需要用到拉格朗日乘子法和KTT条件。因此本文目的在于系统地梳理求“如何求最优解”,侧重介绍以上提到的两个概念。新手一个,叙述有纰漏的地方恳请指出。   最优化问题这里指给定某一函数,求其在指定定义域内的全局最小值。   一般来说,最优化问题由简单到复杂可以分为以下三类:(1)无约束条件  这是最简单的情况,通常是对变量求导...

2018-06-21 19:59:32 505 1

原创 CSDN编辑系列:插入本机的图片+调整大小+居中显示(markdown编辑器)

起因在CSDN的markdown编辑器中,无法插入图片,而通过上传本机图片的方式,图片可能过大或者过小,该怎么调节图片的大小呢?解决方案S1 先上传本机图片S2 上传后,会生成一个链接,如下,括号内的链接代表图片已经上传到CSDN的图片服务器的地址S3 把链接复制下来,放到<img>标签的src属性中,如下,通过width和height设置图片大小属性值备注:<img>标签...

2018-06-20 09:29:15 2581

原创 PAT甲级-1004. Counting Leaves (30)-树的叶结点个数-DFS

A family hierarchy is usually presented by a pedigree tree. Your job is to count those family members who have no child【叶结点的数目】.InputEach input file contains one test case. Each case starts with a lin...

2018-06-19 21:08:57 206

原创 markdown的源码-多元线性模型(含公式推导)-回归-监督学习-机器学习

  假设某个体$x$有$d$个特征,即$x=(x^{1},x^{2},...,x^{d})$,$x^{i}$是第i个特征,线性模型(linear model)试图**<font color=#A52A2A >通过特征的线性组合得到预测值</font>**,即$$f(x)=w^{T}x+b=w_{1}x^{1}+w_{2}x^{2}+......

2018-06-19 18:27:38 537

原创 9-信息熵与基尼系数

一、基尼系数是什么?1)定义    下面是摘自李航《统计学习方法》中基尼系数的定义,非常清晰。2)基尼系数有什么意义?    我们可以先来看一组数据X的取值 方案一 方案二 方案三 方案四 P的平方 方案一 方案二 方案三 方案四类别一 0.9 0.5 0.4 0.2 p1^2 0.81 0.25 0.16 0.04类别二 0.1 0.5 0.3 0.2 p2^2 0.01 0.25 0.09 0...

2018-06-19 11:25:56 29348 4

原创 多元线性模型(含公式推导)-回归-监督学习-机器学习

  假设某个体xxx有ddd个特征,即x=(x1,x2,...,xd)x=(x1,x2,...,xd)x=(x^{1},x^{2},...,x^{d}),xixix^{i}是第i个特征,线性模型(linear model)试图通过特征的线性组合得到预测值,即f(x)=wTx+b=w1x1+w2x2+...+wdxd+bf(x)=wTx+b=w1x1+w2x2+...+wdxd+bf(x)=w^{T...

2018-06-17 18:07:49 1057

原创 PAT甲级-1003 Emergency (25)(25 分)-图之最短路径

1003 Emergency (25)(25 分)As an emergency rescue team leader of a city, you are given a special map of your country. The map shows several scattered cities【点】 connected by some roads【边】. Amount of resc...

2018-06-17 10:03:41 2708

原创 PAT甲级-1002 A+B for Polynomials (25)(25 分)

1002 A+B for Polynomials (25)(25 分)This time, you are supposed to find A+B where A and B are two polynomials.InputEach input file contains one test case. Each case occupies 2 lines, and each line cont...

2018-06-16 23:04:02 646

原创 PAT甲级-1001 A+B Format (20)(20 分)

1001 A+B Format (20)(20 分)Calculate a + b and output the sum in standard format -- that is, the digits must be separated into groups of three by commas (unless there are less than four digits).InputEa...

2018-06-16 22:38:03 350

原创 新手的感悟---学习心得篇---2018/6/6

2018/6/6    最近在看机器学习方面的书籍,很多声音认为李航的《统计学习》非常适合新手。一开始看第一章对符号,概念的定义,认为确实很清晰,比周志华的书,在符号,概念,假设的介绍方面清晰多了。无奈这种好感也持续不了多久,看着看着,感觉某些知识点的描述尽是一堆新的术语和概念,公式,看到都怀疑自己是不是蠢到家了,怎么看没共鸣。话说,我的需求并不是领教学术的严谨呀,我只想深刻地掌握某个工具起源,所...

2018-06-14 17:26:52 668 1

转载 语音识别-语音技术-自然语言处理

语音识别参考:《中文信息处理发展报告2016》什么是语音识别?语音识别(Automatic Speech Recognition,ASR):利用计算机实现从语音到文字自动转换的任务。语音识别的技术有哪些?语音识别技术 = 早期基于信号处理和模式识别 + 机器学习 + 深度学习 + 数值分析+ 高性能计算 + 自然语言处理语音识别技术的发展可以说是有一定的历史背景,上世纪80年代,语音识别研究的重点...

2018-06-13 15:03:21 8563

原创 8-决策树-分类-监督方法

决策树的历史    Quinlan 1986年提出ID3算法,1993年提出C4.5算法,Breiman等1984年提出CART算法。ID3算法    现在我们手上有n个实例,每个实例都有m个特征,共属于k个类别。举例说,有100个人,抽取其3个特征X=(样貌,性格,学历),从是否作奸犯科来分类,共属2个类别Y = (犯法 | 不犯法)。现在新来一个人,我们想要判断他属于哪个类别,是否会犯法。  ...

2018-06-11 16:57:07 1366 1

原创 基于社交图谱关系的反欺诈产品的应用==青云==金融科技动态系列4

备注:若有侵权,请联系博主删除图1画外音:三个领域,银行,非银行金融机构如P2P,电商图2画外音:欺诈产业链图3画外音:评估风险的流程图4画外音:评估风险的流程图5画外音:反欺诈整个架构备注:软件开发工具包(外语首字母缩写:SDK、外语全称:Software Development Kit)一般都是一些软件工程师为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件时的开发工具的集合。图6画外...

2018-06-10 21:15:13 2661 4

原创 7-朴素贝叶斯法-分类-监督方法

   参考:《统计学习方法》李航    本文想用一个例子理清朴素贝叶斯的原理。发现,它只是概率统计中的条件概率+全概率应用而已,再加上个特征之间相互独立的假设。    在已有的人群中,颜值高的人中,性格傲娇的比例最大,性格温顺的比例次之。那么如果新来一个人,颜值高,就将它判断为性格傲娇。这稍微说明了朴素贝叶斯的原理。    但是目前,我对里面的拉普拉斯平滑并不理解。在计算过程中,如果某个作为分母的...

2018-06-10 18:48:09 321

原创 万物皆可特征化?---学习心得篇---2018/6/10

   我们手上有一系列的实例,假设每个实例是由一个或以上的特征组成。为什么说实例a和实例b是不同的呢?因为组成实例a与实例b的特征不同。如果组成实例a与实例b的特征完全相同,那么我们说其实只有一个实例,a或b,并没有两个实例。再言之,实例只是特征的组合,并没有增加额外的信息。不同的特征组合,就构成不同的实例。    ——世界上没有两片相同的叶子。    假如我们对“叶子”这个实例进行特征提取,我们...

2018-06-10 15:55:43 431

原创 中国金融科技2017专题研究报告==易观智库==金融科技行业动态系列3

图一画外音:清晰而完整地描述了金融服务的各个环节,可以思考科技是如何在各个环节切入的。图二画外音:金融科技公司的崛起模式图三画外音:互联网技术和金融融合的历史进程图四画外音:互联网技术和金融的结合之处图五画外音:不同的金融产品的数据驱动源图六画外音:大概智能顾投就是这样的架构图六画外音:支付安全也是风控的领域图七画外音:清晰划分了互联网保险的业态图八画外音:蚂蚁金服的架构图九画外音:金融科技的未来...

2018-06-08 14:57:38 2000

原创 姨搜-信贷场景下全流程数据风控体系==宜信==候松==金融科技行业动态系列2

图一画外音:金融科技公司的技术部分,这个有别于传统金融机构图二画外音:可观查到并记录下来的都是数据,这样的定义值得深入思考图三画外音:相关性未必比因果关系更重要图四画外音:重要信息图五画外音:重要信息备注:若有侵权,请联系博主删除。...

2018-06-08 14:50:11 1336

原创 宜信大数据金融云==宜信==谷文栋==金融科技行业动态系列1

图一解说:这些金融科技公司会对金融科技技术感兴趣,也会在这方面投入研发,说不定也有新的技术成果生成。图二解说:对受到市场追捧的技术热点的一种精辟看法:每个人都在说,没有人真的知道怎么做。每个人都以为别人正在做,因此每个人都宣称自己也在做。图三解说:金融科技公司的内部产品和技术架构。...

2018-06-08 14:45:10 1403

原创 python3.6实现中文分词统计-自然语言处理小项目

前言 本文分为三部分,第一部分是安装两个中文分词工具包,第二部分是对中文字符串进行分词,第三部分是进一步对中文文本进行分词。Part 1 安装中文分词工具背景:已经安装了python3.6,设置好环境变量,安装了pip模块界面:进入windows的管理员命令模式pip install thulac #安装清华大学的thulac中文词法分析包pip ...

2018-06-08 14:33:14 2732 1

原创 Counter类-collections模块-python

Counter类备注:以下代码均是基于python3.6的交互环境参考:http://www.pythoner.com/205.html     Python标准库——collections模块的Counter类有什么作用?    Counter类的目的是用来跟踪值出现的次数。实现原理是什么?    它是一个无序的容器类型,以字典的键值对形式存储,其中元素作为key,其计数作为value。计数值可...

2018-06-08 10:54:21 460

原创 Collections模块-python

参考:https://www.cnblogs.com/deeper/p/8073412.html     Python高级数据结构-Collections模块http://www.pythoner.com/205.html     Python标准库——collections模块的Counter类Collections模块    collections模块自Python 2.4版本开始被引入,包含...

2018-06-08 10:24:30 844

原创 6-基于python3.6实现KNN的算法(枚举思路)

参考《机器学习实战》    本文是用枚举法实现KNN算法的,并非用KD树。枚举法即计算出全部的已有输入实例点到目标实例点的距离,排序后选出距离最小的K个点,就是最邻近的K个点。本文的输入实例只有两维,用欧氏距离公式去度量距离的。本文是针对像我这样的新手,对每句代码都进行详细的解释,若看不懂,请留言让我改进。from numpy import *    #导入numpy模块中的所有内容import...

2018-06-07 17:48:22 581

原创 6-K近邻法(KNN)-分类-监督学习-机器学习

参考:李航《统计学习方法》K近邻法(k-nearest neighbor,KNN)    假设给定一个训练数据集,每个实例点(特征向量X)对应的类别(Y)已经确定。新的输入实例点的类别,由离它最近的K个实例点的类别,通过多数表决的方式决定。当k=1时,输入实例点的类别,将由离它最近的那个实例点的类别所决定,称为最近邻法。    k值的选择、距离度量及分类决策规则是k近邻法的三个基本要素. k近邻法...

2018-06-06 16:45:16 578

原创 5-感知机-二分类-分类-监督学习-机器学习

参考:李航《统计学习方法》感知机(perceptron)   输入一个或多个变量X(组成特征向量),输出两个Y值(正类和负类,如+1和-1)。找到从X到Y的线性函数,f(x)=sign(w*x+b)。    其中f(x)成为感知机,w称为权值向量(weight vector),b称为偏置(bias),w*x表示w和x的内积。    w*x+b=0是一个超平面S,w是S的法向量,b是S的截距。超平面...

2018-06-05 15:20:53 3863

原创 3-知识图谱构建-知识图谱-自然语言处理

来源:《中文信息处理报告》定义根据特定知识表示模型,从分布异构的海量互联网资源中采用机器学习和信息抽取等技术,建立大规模知识图谱的过程。知识图谱构建的数据源是什么?这种数据源存在什么问题?对应的处理技术是什么?技术处理后,要达到的效果是什么?大规模知识库VS语义集成数据源:互联网上已有许多大规模知识库,比较著名的有 DBPedia、YAGO,wikipedia等。存在问题:知识库之间的异构性,对知...

2018-06-05 11:03:23 2820

原创 2-知识表示-知识图谱-自然语言处理

来源:《中文信息处理报告》定义    对客观世界知识进行建模,让机器识别和理解,要考虑到的因素是知识的表示,存储,使用,运算。    要解决的关键问题是 1)建立什么样的知识表示形式能够准确地反映客观世界的知识;2)建立什么样的知识表示可以具备语义表示能力; 【啥叫语义表示?】3)知识表示如何支持高效知识推理和计算,从而使知识表示具有得到新知识的推理能力。 当前的主流技术符号主义1) 基础假设其基...

2018-06-04 16:29:27 2567

原创 4-分类+回归+标注-监督学习-机器学习

参考:李航《统计学习方法》分类(classification)    输入变量X的值可以是连续的,也可以是离散的,输出变量Y的值是离散的,这时对Y进行预测变成了分类问题。可能的输出Y值称为类(class)。当分类的Y值为多个时,称为多分类问题。分类器(classifier):监督学习从数据中学习到的函数如何评价分类器的性能?某个分类器好,还是不好?1)通用的评价指标分类准确率(accuracy):...

2018-06-01 16:33:09 1110

原创 python-读文件

参考:https://www.liaoxuefeng.com/         廖雪峰的官方微博原理        Python内置了读写文件的函数,用法和C是兼容的。    读文件就是请求操作系统打开一个文件对象(通常称为文件描述符)。然后,通过操作系统提供的接口从这个文件对象中读取数据(读文件)。打开各种类型的文件f = open('/Users/michael/gbk.txt', 'r')#...

2018-06-01 15:29:55 229

原创 1-知识图谱-自然语言处理

来源:《中文信息处理报告》定义    旨在以结构化的形式,描述客观世界的概念,实体,事件及其之间的关系,提供了一种更好地组织、管理和理解海量信息的能力,将促进当代信息处理技术从信息服务向知识服务转变。    概念:人们在认识客观世界过程中形成对客观事物的概念化表示,如人、动物、组织机构等。实体:客观世界中的具体事物,如篮球运动员姚明、互联网公司腾讯等。事件:实体的活动,如地震、买卖行为等。关系:描...

2018-06-01 10:42:55 2371

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除