自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zealfory

Be a geek

  • 博客(158)
  • 资源 (6)
  • 问答 (3)
  • 收藏
  • 关注

原创 K均值算法

K均值算法,即K-means,主要分为两步:确定簇标记移动簇中心输入:K(簇的个数),训练集{x1,x2,…xm}首先,初始化K个簇中心点 μ1,μ2,…μK;Repeat{确定各样本点簇标记for i=1 to mxi的簇标记:= 与xi距离最近的簇中心的标记根据当前簇标记移动簇中心点for k=1 to Kμk:=簇k中样本点的平均向量}...

2018-10-18 09:55:32 1165

原创 如何得到一个较好的机器学习系统

牢记“It’s not who has the best algorithm that wins.It’s who has the most data.”要想得到高效的系统:首先,特征一定要选好;其次,模型复杂度要合适。这一点可以降低偏差(bias),即防止欠拟合。保证 J train(θ)比较小。最后,训练数据要充足。这一点可降低方差(variance),防止过拟合。保证J test...

2018-10-13 10:31:41 477

原创 统计学习三要素个人理解

模型模型就是所要学习的函数或分布,用以表征输出与输入之间的联系。策略按照什么准则(损失函数,风险函数,经验风险函数=>结构风险函数)选择最好的模型。算法最优化问题求解方法,如何使损失最小进而使模型最好。...

2018-10-12 15:31:23 695

原创 对先验后验概率的一点理解

先验概率是由某些起因推导出结果发生的概率,如用在全概率公式中。利用过去历史资料计算得到的先验概率,称为客观先验概率;当历史资料无从取得或资料不完全时,凭人们的主观经验来判断而得到的先验概率,称为主观先验概率。注:全概率公式就是已知第一阶段求第二阶段,比如第一阶段分A B C三种(完备事件组),然后A B C中均有D发生的概率,D的概率P(D)=P(A)*P(D|A)+P(B)*P(D|B)...

2018-09-28 09:27:29 486

转载 Octave基础

向量分号:分割行空格或逗号:分割列创建与访问行向量空格或逗号分割>> v = [1 2 3] % 等效:v = [1, 2, 3]v = 1 2 3 >> v(2) % 只有一行,所以指定就是列ans = 2列向量分号分割>> v = [1; 2; 3]v = 1 2 3>>...

2018-09-27 18:52:08 251

原创 决策树学习基本算法

输入训练集D={(x1,y1),(x2,y2),…(xm,ym)};属性集A={a1,a2,…ad}.过程:函数TreeGenerate(D,A)生成结点node;if D中样本全属于同一类别C:将node标记为C类叶结点;递归返回;end ifif A=空集 或 D中样本在A上取值相同:将node标记为D中样本数(当前结点)最多的类(成为叶结点);递归返回;end if...

2018-09-27 14:16:23 3240

转载 欠定方程与超定方程

超定方程组:方程个数大于未知量个数的方程组。对于方程组Ra=y,R为n×m矩阵,如果R列满秩,且n>m(n为方程组行数,m为未知量个数)超定方程一般是不存在解的矛盾方程。例如,如果给定的三点不在一条直线上, 我们将无法得到这样一条直线,使得这条直线同时经过给定这三个点。 也就是说给定的条件(限制)过于严格, 导致解不存在。在实验数据处理和曲线拟合问题中,求解超定方程组非常普遍。比较常...

2018-09-27 13:32:22 19392 2

原创 Python机器学习及实践学习笔记3

进阶这部分简单介绍了如何通过抽取或筛选数据特征、优化模型配置,进一步提升经典模型的性能表现。已存的高效模型和程序库: 用于自然语言处理的NLTK程序包; 词向量技术Word2Vec; 能提供强大预测能力的XGBoost模型; Google发布的用于深度学习的Tensorflow框架等。模型使用技巧提升模型性能的方式: 1.预处理数据 2.控制参数训练 3.优化模型...

2018-06-27 14:26:39 283

原创 Python机器学习及实践学习笔记2

基础监督学习经典模型监督学习任务的基本架构和流程: 1.准备训练数据; 2.抽取所需特征,形成用于训练特征向量(Feature Vectors); 3.训练预测模型(Predictive Model); 4.抽取测试数据特征,得到用于测试的特征向量; 5.使用预测模型对待测试特征向量进行预测并得到结果(Label/Target)。分类学习 1.二分类(Binary Clas...

2018-06-06 15:15:27 332

原创 Python机器学习及实践学习笔记1

简介机器学习综述机器学习隶属于人工智能研究与应用的一个分支。“图灵测试”(Turing Test),用来判断一台计算机是否达到具备人工智能的标准。 大概描述:“如果通过问答这种方式,我们已经无法区分对话那端到底是机器还是人类,那么就可以说这样的机器已经具备了人工智能。”Tom Mitchell’s Definition A program can be said to learn...

2018-05-28 10:31:23 530

原创 2018京东一面题目

JDBC步骤介绍一下? 单例模式有几种? 什么叫做线程安全的类?什么叫脏数据? Hashmap hashtable concurrent.hashmap区别?hashmap key和value都可以为空吗? 说几种常见的设计模式?代理模式在JDK中实现?代理模式实现在一个方法之前之后都打印一句话? 红黑树底层排序如何实现的?翻转…. 多线程实现 Callable 还是Runnale返回...

2018-05-24 17:29:31 297

原创 Java多维数组length

多维数组的length属性与一维数组不同。 一维数组表示数组的长度。 而多维数组,例如在二维数组中: 数组名.length指示数组的行数。 数组名[行下标] .length指示该行中的元素个数。 依此类推。...

2018-05-24 17:11:36 2097 1

转载 Summary of Java Operators

The following quick reference summarizes the operators supported by the Java programming language.Simple Assignment Operator = Simple assignment operatorArithmetic Operators + Additi...

2018-05-24 16:22:29 213

原创 Fluent Python学习笔记1

Chapter 1 The Python Data ModelPython data model describes the API that you can use to make your own objects play well with the most idiomatic language features;The Python interpreter invokes spec...

2018-05-24 15:58:28 234

转载 Java常用正则表达式

Summary of regular-expression constructsCharactersx The character x \\ The backslash character \0n The character with octal value 0n (0 <= n <= 7) \0nn The character with octal val...

2018-05-22 16:29:25 295

原创 scikit-learn fit_transform() vs. transform()

CountVectorizer- bag of words tool fit_transform() functions: 1) Fits the model & learns the vocabulary 2) Transforms training data into feature vectors. transform() In machine learning ,you...

2018-05-22 15:16:30 430

转载 linux sudo命令

Linux sudo命令以系统管理者的身份执行指令,也就是说,经由 sudo 所执行的指令就好像是 root 亲自执行。使用权限:在 /etc/sudoers 中有出现的使用者。参数说明:-V 显示版本编号 -h 显示版本编号及指令的使用方式说明 -l 显示出执行 sudo 的使用者的权限 -v sudo 在第一次执行时或是在 N 分钟内没有执行(N 预设为五)会问密码,这个参数...

2018-05-22 14:23:02 427

原创 Anaconda更新库

conda only manages the packages that are installed using a conda command. If you installed a package with pip (or using python setup.py install or develop) it will show up with conda list (because tha...

2018-05-18 16:41:25 550

转载 Python str前加u/r/b的含义

u/U:表示unicode字符串 不是仅仅是针对中文, 可以针对任何的字符串,代表是对字符串进行unicode编码。 一般英文字符在使用各种编码下, 基本都可以正常解析, 所以一般不带u;但是中文, 必须表明所需编码, 否则一旦编码转换就会出现乱码。 建议所有编码方式采用utf8r/R:非转义的原始字符串 与普通字符相比,其他相对特殊的字符,其中可能包含转义字符,即那些,反斜杠...

2018-05-18 10:22:02 1066

原创 回归标准系数

对于非标准化的系数,数据在未标准化之前是不能直接用来直接比较“重要性大小”的。因为因子本身数据存在差异,看因子重要程度要用标准化系数。标准化的回归系数是指将数据标准化(减均值除方差)后计算得到的回归系数。因为数据进行了标准化,因此就取消了量纲的影响。假设因变量为y,自变量为x,标准回归系数为a。那么在解释时就要说,当x变化1个标准差是,y变化a个标准差。标准化后的回归系数在不同自变量之...

2018-05-15 10:15:07 9877

转载 数据清洗

基本概念数据清洗(Data cleaning): 对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。 因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不...

2018-05-10 14:55:27 2433

原创 条件概率小题目

Question: Suppose a family has children, one of which is a boy. What is the probability that both children are boys?A)1 / 3 B)1 / 2 C)2 / 3 D)1 / 9这种题目真的会把人绕晕,解答: 1/2:理解为第一个是男孩,第二个也是男孩的概率,两...

2018-05-02 17:20:47 3218

转载 预测的算法、技法和心法

这一篇博文写的很有意思,码在这里,有助于理解预测。版权归作者所有,任何形式转载请联系作者。 作者:FCperson(来自豆瓣) 来源:https://www.douban.com/note/623720961/用贝叶斯法则逼近真相我还在读高中时,就对数学课本里的一个章节很感兴趣:排列组合。当时觉得它相当不“数学”,主要靠“想”不靠“算”的,一旦悟了心算就能出答案,草稿都不用打。到...

2018-05-02 15:35:51 480

原创 Java Scanner小知识点

Java中Scanner类广泛用于读取输入。Scanner scan = new Scanner(System.in);通过System.in stream创建了一个新的Scanner对象scan.next(); // returns the next token of inputscan.hasNext(); // returns true if there is anot...

2018-04-23 17:20:35 339

转载 寄存器-RAM-ROM-Flash-硬盘

存储器存储器范围最大,它几乎涵盖了所有关于存储的范畴。你所说的寄存器,内存,都是存储器里面的一种。凡是有存储能力的硬件,都可以称之为存储器,这是自然,硬盘更加明显了,它归入外存储器行列。寄存器寄存器是中央处理器内的组成部份。它跟CPU有关。寄存器是有限存贮容量的高速存贮部件,它们可用来暂存指令、数据和位址。在中央处理器的控制部件中,包含的寄存器有指令寄存器(IR)和程序计数器(PC)。...

2018-04-18 15:27:45 710

原创 【算法导论】两个n位的二进制整数相加问题

题目 考虑把两个n位二进制整数加起来的问题,这两个整数分别存储在两个n元数组A和B中。这两个整数的和应按二进制形式存储在一个(n+1)元数组C中。请给出该问题的形式化描述,并写出伪代码。找到的答案如下: Input: An array of booleans A=⟨a1,a2,…,an⟩, an array of booleans B=⟨b1,b2,…,bn⟩, each represen...

2018-04-11 10:06:34 3179 5

转载 普通事务与分布式事务

普通事务与分布式事务1.1 普通事务普通事务就是一般所说的数据库事务。事务是数据库管理系统执行过程中的一个逻辑单位,由一个有限的数据库操作序列构成。当事务被提交给了DBMS(数据库管理系统),则DBMS(数据库管理系统)需要确保该事务中的所有操作都成功完成且其结果被永久保存在数据库中,如果事务中有的操作没有成功完成,则事务中的所有操作都需要被回滚,回到事务执行前的状态;同时,该事务...

2018-04-10 10:29:13 1607

转载 C宏替换

一、#define的基本用法#define是C语言中提供的宏定义命令,其主要目的是为程序员在编程时提供一定的方便,并能在一定程度上提高程序的运行效率,但学生在学习时往往不能 理解该命令的本质,总是在此处产生一些困惑,在编程时误用该命令,使得程序的运行与预期的目的不一致,或者在读别人写的程序时,把运行结果理解错误,这对 C语言的学习很不利。1 #define命令剖析1.1 #defi...

2018-04-04 10:39:45 4054

转载 Java异常

Java中异常的分类所有异常,都继承自java.lang.Throwable类。Throwable有两个直接子类,Error类和Exception类。ExceptionException是可使从任何标准Java库的类方法,自己的方法以及运行时任何异常中抛出来的基类型。异常可分为执行异常(RuntimeException)和检查异常(Checked Exceptions)两种...

2018-04-03 11:06:07 117

转载 Jupyter快捷键

Jupyter Notebook 是一个交互式笔记本程序, 其有丰富的快捷键来便捷的完成工作。Notebook 有两种键盘输入模式。即命令模式和编辑模式,这与 Vim 有些类似。在编辑模式下,可以往单元中键入代码或文本,此时单元格被绿色的框线包围,且命令模式下的快捷键不生效。在命令模式下,可以用快捷键命令运行单元格,移动单元格,切换单元格编辑状态等等,此时的单元格被灰色的框线包围,且编辑模式下的快...

2018-03-31 10:22:17 361

转载 JSP内置对象简介

码自cnblogs博客JSP中一共预先定义了9个这样的对象,分别为:request、response、session、application、out、pagecontext、config、page、exception1、request对象 request 对象是 javax.servlet.httpServletRequest类型的对象。 该对象代表了客户端的请求信息,主要用于接受通过H...

2018-03-29 15:14:46 173

原创 独热编码

独热编码 one-hot code, 即有多少个状态就有多少比特,且只有一个比特为1,其他全为0的一种码制。在机器学习中对于离散型的分类型的数据,需要对其进行数字化比如说性别这一属性,只能有男性或者女性两种,一种简单的方式就是男性为0,女性为1,使用简单的序列对分类值进行表示后,进行模型训练时可能会产生一个问题:特征因为数值不同影响模型的训练效果,在模型训练的过程中不同的值使得同一特征在样本中的权

2018-01-23 16:57:48 1509

翻译 A basic walkthrough of xgboost python package

This document gives a basic walkthrough of xgboost python package. 这份文档是xgboost python包的一个简单使用参考。List of other Helpful LinksPython walkthrough code collections Python API ReferenceInstall XG

2018-01-22 10:28:35 475

原创 批梯度下降法与随机梯度下降法

选定线性回归模型后,确定参数 θ后就可以将模型用来预测。 目标函数 J(θ) 最小时 θ 才能确定。因此问题归结为求极小值问题,使用梯度下降法。 梯度下降法最大的问题是求得的有可能是全局极小值,这与初始点选取有关。 梯度下降法流程: 1)首先对 θ 赋值,可以是随机的,也可以让 θ 是一个全零的向量。 2)改变 θ 的值,使得 J(θ) 按梯度下降的方向进行减少。 梯度方向由 J(θ) 对

2018-01-18 10:12:16 390

原创 ID3与C4.5和CART决策树算法

决策树学习算法最著名的代表是ID3、C4.5和CART,三种决策树算法有不同的特征选择方案:ID3用信息增益,C4.5用信息增益率,CART用基尼(gini)系数。 ID3算法是决策树的一个经典的构造算法,在一段时期内曾是同类研究工作的比较对象,但通过近些年国内外学者的研究,ID3算法存在的问题如下: (1)信息增益的计算依赖于特征数目较多的特征,而属性取值最多的属性并不一定最优。 (2)I

2018-01-12 16:07:04 793

转载 Java正则表达式的解释说明

表达式意义:1.字符x 字符 x。例如a表示字符a \ 反斜线字符。在书写时要写为\\。(注意:因为java在第一次解析时,把\\解析成正则表达式\,在第二次解析时再解析为\,所以凡是不是1.1列举到的转义字符,包括1.1的\,而又带有\的都要写两次) \0n 带有八进制值 0的字符 n (0 \0nn 带有八进制值 0的字符 nn (0 \0mnn

2018-01-08 15:58:08 626

转载 深入浅出 JIT 编译器

JIT 简介JIT 是 just in time 的缩写, 也就是即时编译编译器。使用即时编译器技术,能够加速 Java 程序的执行速度。下面,就对该编译器技术做个简单的讲解。 首先,我们大家都知道,通常通过 javac 将程序源代码编译,转换成 java 字节码,JVM 通过解释字节码将其翻译成对应的机器指令,逐条读入,逐条解释翻译。很显然,经过解释执行,其执行速度必然会比可执行的二进制字节码程

2017-12-28 15:33:32 243

原创 静态方法调用非静态方法

静态方法不能(直接)调用非静态变量,非静态方法可以引用静态变量。 静态方法不属于对象,是属于类的,不需要实例化; 而非静态变量是属于对象的,需要先实例化。 在一个类的静态成员中去访问其非静态成员,因为类的静态成员先于类的非静态成员存在,访问一个内存中不存在的东西会出错。相反,非静态方法可以引用静态变量。 因为静态变量是存储在静态内存单元内,可以直接用类进行调用,也可以用实例化的对象对其引用。

2017-12-27 15:47:49 10582

转载 java受检异常与运行时异常

正确运用异常处理机制,有助于提高程序的健壮性。 所谓程序的健壮性,就是指程序在多数情况下能够正常运行,返回预期的正确结果;如果偶尔遇到异常情况,程序也能采取周到的解决措施。 受检查异常表示程序可以处理的异常,如果抛出异常的方法本身不能处理它,那么方法调用者应该去处理它,从而使程序恢复运行,不至于终止程序。 例如,喷墨打印机在打印文件时,如果纸用完或者墨水用完,就会暂停打印,等待用户添加打印纸或更换

2017-12-26 15:50:34 3381 1

转载 Java各种类详解

Java 内部类、成员类、局部类、匿名类等  Java有各种各样类,内部类、嵌套类、成员类、局部类(本地类)、静态类、匿名类、文件类以及这些组合起来的类,成员内部类,成员匿名类,成员嵌套类,本地匿名类等,真是多的不行,但有些其实是一个意思,在这里好好理一理。声明1.注意,这些称呼都是翻译过来的,但是同一个英文单词或一个词组翻译过来可能有不同叫法,比如local nested class,local有

2017-12-25 16:16:21 1755

PyQt4安装包

来自官网 PyQt4-4.11.3-gpl-Py2.7-Qt4.8.6-x32.exe ,32位安装包,要事先安装好的32位的python 2.7(注意PyQt4要跟python版本和位数匹配) 安装: 一直下一步,"finish";

2017-06-27

Galago开源搜索引擎

Galago是一个用java语言写的关于文本搜索的工具集. 其中包括索引引擎和查询引擎,还包括一个叫TupleFlow的分布式计算框架(和google的MapReduce很像).这个检索系统支持很多Indri查询语言.

2016-05-25

JavaAPI(官方英文版)

Java API,这里可以看到各个类用法,我认为很有用!

2015-12-04

asp MVC留言板

这个代码是我做课程设计时参考借鉴的,十分清晰简单易懂,在此借鉴分享,希望对广大网站开发初学者有所脾益,实现了一个简单的网站在线留言版!

2015-07-11

磁盘分区助手PA5.2_Portable

分区助手是一个简单易用、多功能的免费磁盘分区管理软件,在它的帮助下,你可以无损数据地执行调整分区大小,移动分区位置,复制分区,复制磁盘, 迁移系统到固态硬盘(SSD),合并分区、拆分分区、创建分区等操作。在你使用它后,你将发现它是一个不可多得磁盘分区工具。   此外,它能运行在所有的操作系统中

2015-06-02

C++教程ppt 郑文怡

帮助学习C++语言,学习有关C++各种语法及编程

2015-06-01

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除