2018年06月_大奸猫

原创 1.3万字的支持向量机-含详尽的数学推导和细致全面的逻辑解释-第一部分

一、前言（1）现有SVM相关材料的贡献与不足周志华《机器学习》李航《统计学习方法》支持向量机通俗导论（理解 SVM 的三层境界）从零推导支持向量机（2）本文的贡献和不足本文的贡献本文的不足（3）阅读本文所需的数学知识（4）主动思考，亲自动手，化整为零（5）我的疑问二、相关定义和主要任务：（1）相关定义（2）任务三、不存在噪音的训练数据集(1) ...

2018-06-30 23:47:11 980

原创 1.3万字的支持向量机-含详尽的数学推导和细致全面的逻辑解释-第二部分

四、存在噪音的训练数据集(1) 训练数据集线性可分1）噪音让最优超平面变形2）引入松弛变量处理噪音，修改原目标函数和约束条件3）构造拉格朗日函数得到对偶问题31）构造拉格朗日函数32） KTT条件-最优解必须满足的条件33）对偶问题4）求解对偶问题-SMO算法41）思路42）计算出最优解43）分析最优解的取值范围44）如何选择两个变量？5）...

2018-06-30 23:42:35 433

原创 PAT甲级-1004 Counting Leaves (30)（30 分）-树-BFS

1004 Counting Leaves (30)（30 分）A family hierarchy is usually presented by a pedigree tree. Your job is to count those family members who have no child.InputEach input file contains one test case. Each...

2018-06-21 20:31:10 287

原创由SVM中的拉格朗日乘子法与KKT条件到最优化问题

前言：在学习支持向量机SVM时，要对SVM模型求最优解，需要用到拉格朗日乘子法和KTT条件。因此本文目的在于系统地梳理求“如何求最优解”，侧重介绍以上提到的两个概念。新手一个，叙述有纰漏的地方恳请指出。最优化问题这里指给定某一函数，求其在指定定义域内的全局最小值。一般来说，最优化问题由简单到复杂可以分为以下三类：(1)无约束条件这是最简单的情况，通常是对变量求导...

2018-06-21 19:59:32 505 1

原创 CSDN编辑系列：插入本机的图片+调整大小+居中显示(markdown编辑器)

起因在CSDN的markdown编辑器中，无法插入图片，而通过上传本机图片的方式，图片可能过大或者过小，该怎么调节图片的大小呢？解决方案S1 先上传本机图片S2 上传后，会生成一个链接，如下，括号内的链接代表图片已经上传到CSDN的图片服务器的地址S3 把链接复制下来，放到<img>标签的src属性中，如下，通过width和height设置图片大小属性值备注：<img>标签...

2018-06-20 09:29:15 2581

原创 PAT甲级-1004. Counting Leaves (30)-树的叶结点个数-DFS

A family hierarchy is usually presented by a pedigree tree. Your job is to count those family members who have no child【叶结点的数目】.InputEach input file contains one test case. Each case starts with a lin...

2018-06-19 21:08:57 206

原创 markdown的源码-多元线性模型(含公式推导)-回归-监督学习-机器学习

&emsp;&emsp;假设某个体$x$有$d$个特征，即$x=(x^{1},x^{2},...,x^{d})$，$x^{i}$是第i个特征，线性模型(linear model)试图**<font color=#A52A2A >通过特征的线性组合得到预测值</font>**，即$$f(x)=w^{T}x+b=w_{1}x^{1}+w_{2}x^{2}+......

2018-06-19 18:27:38 537

原创 9-信息熵与基尼系数

一、基尼系数是什么？1)定义下面是摘自李航《统计学习方法》中基尼系数的定义，非常清晰。2)基尼系数有什么意义？我们可以先来看一组数据X的取值方案一方案二方案三方案四 P的平方方案一方案二方案三方案四类别一 0.9 0.5 0.4 0.2 p1^2 0.81 0.25 0.16 0.04类别二 0.1 0.5 0.3 0.2 p2^2 0.01 0.25 0.09 0...

2018-06-19 11:25:56 29348 4

原创多元线性模型(含公式推导)-回归-监督学习-机器学习

假设某个体xxx有ddd个特征，即x=(x1,x2,...,xd)x=(x1,x2,...,xd)x=(x^{1},x^{2},...,x^{d})，xixix^{i}是第i个特征，线性模型(linear model)试图通过特征的线性组合得到预测值，即f(x)=wTx+b=w1x1+w2x2+...+wdxd+bf(x)=wTx+b=w1x1+w2x2+...+wdxd+bf(x)=w^{T...

2018-06-17 18:07:49 1057

原创 PAT甲级-1003 Emergency (25)（25 分）-图之最短路径

1003 Emergency (25)（25 分）As an emergency rescue team leader of a city, you are given a special map of your country. The map shows several scattered cities【点】 connected by some roads【边】. Amount of resc...

2018-06-17 10:03:41 2708

原创 PAT甲级-1002 A+B for Polynomials (25)（25 分）

1002 A+B for Polynomials (25)（25 分）This time, you are supposed to find A+B where A and B are two polynomials.InputEach input file contains one test case. Each case occupies 2 lines, and each line cont...

2018-06-16 23:04:02 646

原创 PAT甲级-1001 A+B Format (20)（20 分）

1001 A+B Format (20)（20 分）Calculate a + b and output the sum in standard format -- that is, the digits must be separated into groups of three by commas (unless there are less than four digits).InputEa...

2018-06-16 22:38:03 350

原创新手的感悟---学习心得篇---2018/6/6

2018/6/6 最近在看机器学习方面的书籍，很多声音认为李航的《统计学习》非常适合新手。一开始看第一章对符号，概念的定义，认为确实很清晰，比周志华的书，在符号，概念，假设的介绍方面清晰多了。无奈这种好感也持续不了多久，看着看着，感觉某些知识点的描述尽是一堆新的术语和概念，公式，看到都怀疑自己是不是蠢到家了，怎么看没共鸣。话说，我的需求并不是领教学术的严谨呀，我只想深刻地掌握某个工具起源，所...

2018-06-14 17:26:52 668 1

转载语音识别-语音技术-自然语言处理

语音识别参考：《中文信息处理发展报告2016》什么是语音识别？语音识别(Automatic Speech Recognition,ASR)：利用计算机实现从语音到文字自动转换的任务。语音识别的技术有哪些？语音识别技术 = 早期基于信号处理和模式识别 + 机器学习 + 深度学习 + 数值分析+ 高性能计算 + 自然语言处理语音识别技术的发展可以说是有一定的历史背景，上世纪80年代，语音识别研究的重点...

2018-06-13 15:03:21 8563

原创 8-决策树-分类-监督方法

决策树的历史 Quinlan 1986年提出ID3算法，1993年提出C4.5算法，Breiman等1984年提出CART算法。ID3算法现在我们手上有n个实例，每个实例都有m个特征，共属于k个类别。举例说，有100个人，抽取其3个特征X=(样貌，性格，学历)，从是否作奸犯科来分类，共属2个类别Y = (犯法 | 不犯法)。现在新来一个人，我们想要判断他属于哪个类别，是否会犯法。 ...

2018-06-11 16:57:07 1366 1

原创基于社交图谱关系的反欺诈产品的应用==青云==金融科技动态系列4

备注：若有侵权，请联系博主删除图1画外音：三个领域，银行，非银行金融机构如P2P，电商图2画外音：欺诈产业链图3画外音：评估风险的流程图4画外音：评估风险的流程图5画外音：反欺诈整个架构备注：软件开发工具包（外语首字母缩写：SDK、外语全称：Software Development Kit）一般都是一些软件工程师为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件时的开发工具的集合。图6画外...

2018-06-10 21:15:13 2661 4

原创 7-朴素贝叶斯法-分类-监督方法

参考：《统计学习方法》李航本文想用一个例子理清朴素贝叶斯的原理。发现，它只是概率统计中的条件概率+全概率应用而已，再加上个特征之间相互独立的假设。在已有的人群中，颜值高的人中，性格傲娇的比例最大，性格温顺的比例次之。那么如果新来一个人，颜值高，就将它判断为性格傲娇。这稍微说明了朴素贝叶斯的原理。但是目前，我对里面的拉普拉斯平滑并不理解。在计算过程中，如果某个作为分母的...

2018-06-10 18:48:09 321

原创万物皆可特征化？---学习心得篇---2018/6/10

我们手上有一系列的实例，假设每个实例是由一个或以上的特征组成。为什么说实例a和实例b是不同的呢？因为组成实例a与实例b的特征不同。如果组成实例a与实例b的特征完全相同，那么我们说其实只有一个实例，a或b，并没有两个实例。再言之，实例只是特征的组合，并没有增加额外的信息。不同的特征组合，就构成不同的实例。 ——世界上没有两片相同的叶子。假如我们对“叶子”这个实例进行特征提取，我们...

2018-06-10 15:55:43 431

原创中国金融科技2017专题研究报告==易观智库==金融科技行业动态系列3

图一画外音：清晰而完整地描述了金融服务的各个环节，可以思考科技是如何在各个环节切入的。图二画外音：金融科技公司的崛起模式图三画外音：互联网技术和金融融合的历史进程图四画外音：互联网技术和金融的结合之处图五画外音：不同的金融产品的数据驱动源图六画外音：大概智能顾投就是这样的架构图六画外音：支付安全也是风控的领域图七画外音：清晰划分了互联网保险的业态图八画外音：蚂蚁金服的架构图九画外音：金融科技的未来...

2018-06-08 14:57:38 2000

原创姨搜-信贷场景下全流程数据风控体系==宜信==候松==金融科技行业动态系列2

图一画外音：金融科技公司的技术部分，这个有别于传统金融机构图二画外音：可观查到并记录下来的都是数据，这样的定义值得深入思考图三画外音：相关性未必比因果关系更重要图四画外音：重要信息图五画外音：重要信息备注：若有侵权，请联系博主删除。...

2018-06-08 14:50:11 1336

原创宜信大数据金融云==宜信==谷文栋==金融科技行业动态系列1

图一解说：这些金融科技公司会对金融科技技术感兴趣，也会在这方面投入研发，说不定也有新的技术成果生成。图二解说：对受到市场追捧的技术热点的一种精辟看法：每个人都在说，没有人真的知道怎么做。每个人都以为别人正在做，因此每个人都宣称自己也在做。图三解说：金融科技公司的内部产品和技术架构。...

2018-06-08 14:45:10 1403

原创 python3.6实现中文分词统计-自然语言处理小项目

前言本文分为三部分，第一部分是安装两个中文分词工具包，第二部分是对中文字符串进行分词，第三部分是进一步对中文文本进行分词。Part 1 安装中文分词工具背景：已经安装了python3.6，设置好环境变量，安装了pip模块界面：进入windows的管理员命令模式pip install thulac #安装清华大学的thulac中文词法分析包pip ...

2018-06-08 14:33:14 2732 1

原创 Counter类-collections模块-python

Counter类备注：以下代码均是基于python3.6的交互环境参考：http://www.pythoner.com/205.html Python标准库——collections模块的Counter类有什么作用？ Counter类的目的是用来跟踪值出现的次数。实现原理是什么？它是一个无序的容器类型，以字典的键值对形式存储，其中元素作为key，其计数作为value。计数值可...

2018-06-08 10:54:21 460

原创 Collections模块-python

参考：https://www.cnblogs.com/deeper/p/8073412.html Python高级数据结构-Collections模块http://www.pythoner.com/205.html Python标准库——collections模块的Counter类Collections模块 collections模块自Python 2.4版本开始被引入，包含...

2018-06-08 10:24:30 844

原创 6-基于python3.6实现KNN的算法(枚举思路)

参考《机器学习实战》本文是用枚举法实现KNN算法的，并非用KD树。枚举法即计算出全部的已有输入实例点到目标实例点的距离，排序后选出距离最小的K个点，就是最邻近的K个点。本文的输入实例只有两维，用欧氏距离公式去度量距离的。本文是针对像我这样的新手，对每句代码都进行详细的解释，若看不懂，请留言让我改进。from numpy import * #导入numpy模块中的所有内容import...

2018-06-07 17:48:22 581

原创 6-K近邻法（KNN）-分类-监督学习-机器学习

参考：李航《统计学习方法》K近邻法(k-nearest neighbor,KNN) 假设给定一个训练数据集，每个实例点(特征向量X)对应的类别(Y)已经确定。新的输入实例点的类别，由离它最近的K个实例点的类别，通过多数表决的方式决定。当k=1时，输入实例点的类别，将由离它最近的那个实例点的类别所决定，称为最近邻法。 k值的选择、距离度量及分类决策规则是k近邻法的三个基本要素. k近邻法...

2018-06-06 16:45:16 578

原创 5-感知机-二分类-分类-监督学习-机器学习

参考：李航《统计学习方法》感知机(perceptron) 输入一个或多个变量X（组成特征向量)，输出两个Y值（正类和负类，如+1和-1)。找到从X到Y的线性函数，f(x)=sign(w*x+b)。其中f(x)成为感知机，w称为权值向量(weight vector)，b称为偏置(bias)，w*x表示w和x的内积。 w*x+b=0是一个超平面S，w是S的法向量,b是S的截距。超平面...

2018-06-05 15:20:53 3863

原创 3-知识图谱构建-知识图谱-自然语言处理

来源：《中文信息处理报告》定义根据特定知识表示模型，从分布异构的海量互联网资源中采用机器学习和信息抽取等技术，建立大规模知识图谱的过程。知识图谱构建的数据源是什么？这种数据源存在什么问题？对应的处理技术是什么？技术处理后，要达到的效果是什么？大规模知识库VS语义集成数据源：互联网上已有许多大规模知识库，比较著名的有 DBPedia、YAGO，wikipedia等。存在问题：知识库之间的异构性，对知...

2018-06-05 11:03:23 2820

原创 2-知识表示-知识图谱-自然语言处理

来源：《中文信息处理报告》定义对客观世界知识进行建模，让机器识别和理解，要考虑到的因素是知识的表示，存储，使用，运算。要解决的关键问题是 1）建立什么样的知识表示形式能够准确地反映客观世界的知识；2）建立什么样的知识表示可以具备语义表示能力; 【啥叫语义表示？】3）知识表示如何支持高效知识推理和计算，从而使知识表示具有得到新知识的推理能力。当前的主流技术符号主义1) 基础假设其基...

2018-06-04 16:29:27 2567

原创 4-分类+回归+标注-监督学习-机器学习

参考：李航《统计学习方法》分类(classification) 输入变量X的值可以是连续的，也可以是离散的，输出变量Y的值是离散的，这时对Y进行预测变成了分类问题。可能的输出Y值称为类(class)。当分类的Y值为多个时，称为多分类问题。分类器(classifier)：监督学习从数据中学习到的函数如何评价分类器的性能？某个分类器好，还是不好？1)通用的评价指标分类准确率(accuracy)：...

2018-06-01 16:33:09 1110

原创 python-读文件

参考：https://www.liaoxuefeng.com/ 廖雪峰的官方微博原理 Python内置了读写文件的函数，用法和C是兼容的。读文件就是请求操作系统打开一个文件对象（通常称为文件描述符）。然后，通过操作系统提供的接口从这个文件对象中读取数据（读文件）。打开各种类型的文件f = open('/Users/michael/gbk.txt', 'r'）#...

2018-06-01 15:29:55 229

原创 1-知识图谱-自然语言处理

来源：《中文信息处理报告》定义旨在以结构化的形式，描述客观世界的概念，实体，事件及其之间的关系，提供了一种更好地组织、管理和理解海量信息的能力，将促进当代信息处理技术从信息服务向知识服务转变。概念：人们在认识客观世界过程中形成对客观事物的概念化表示，如人、动物、组织机构等。实体：客观世界中的具体事物，如篮球运动员姚明、互联网公司腾讯等。事件：实体的活动，如地震、买卖行为等。关系：描...

2018-06-01 10:42:55 2371

kakazai.cn