孤独吹小仑-CSDN博客

转载机器学习笔记（九）隐马尔可夫模型

概率图模型分为两类：第一类是使用有向无环图表示变量间的依赖关系，称为有向图模型和贝叶斯网；第二类是使用无向图表示变量间的相关关系，称为无向图模型或者马尔可夫网。隐马尔可夫模型（HMM）是结构最简单的动态贝叶斯网。HMM主要用于时序数据建模，在语音识别、自然语言处理等领域有广泛应用。HMM的变量可以分为两组。第一组是状态变量用yi表示，通常假定状态变量是隐藏的、不可被观测的，因此状态变量

2017-12-21 13:07:55 531

原创使用代理的爬虫小程序

使用使用ip117.135.250.134端口80作为代理服务器，爬取了百度首页的代码。

2017-12-06 14:39:04 307

原创 python异步IO的发展历程

python中异步IO发展分为三个发展阶段1.使用yield和send2.使用@asyncio.coroutine和yield from3.使用async/await关键字一、yield和senddef fib(n): res = [0]*n index = 0 a = 0 b = 1 while index < n: res[index] = b a, b

2017-12-02 20:42:29 407

原创 logistic 回归参数

penalty 正则函数，支持l1与l2正则，缺省：l2dual 是否转换为对偶问题求解tol 迭代终止的误差范围C 正则函数的系数的倒数fit_intercept 是否在决策函数中加入截距项。如果数据已经中心化，则不需要intercept_scaling 截距缩放因子，当fit_intercept为True且liblinear solver有效class_weight

2017-11-29 16:08:35 455

原创决策树中各项参数

criterion 用来分裂节点的指标，默认为‘gini’，即基尼指数splitter 拆分策略，一般都默认‘best’max_depth 最大深度min_samples_split 对于中间节点分裂的最少样本数min_samples_leaf 叶子节点的最少样本数max_features 最大特征数目min_weight_fraction_le

2017-11-29 15:08:38 3718 1

原创 pandas 数据处理

pandas中数据可以分为series，dataframe，panel分别表示一维至三维数据。series：构造方式 s = pd.Series(data, index=index) 或者以字典的形式 d = {'a' : 0., 'b' : 1., 'c' : 2.}series的提取方式In [11]: s[0] #提取一个Out[11]: 0.469112299907

2017-11-29 14:24:06 282

原创磁盘快速转换格式小技巧

1.打开命令提示符2.输入convert （磁盘号）:/fs:(转换的格式)

2017-09-22 08:54:12 257

转载机器学习笔记（八）决策树

一、基本流程决策树是一种常见的机器学习方法。一般的，一颗决策树包含一个根结点、若干内部结点和若干叶结点，叶结点对应决策结果，其他每个结点对应于一个测试属性。决策树的生成是一个递归过程，有三种情况会导致递归返回：1.当前结点包含的样本全属于同一类别，无须划分。2.当前属性集为空，或是所有样本在所有属性上取值相同，无法划分。3.当前结点包含的样本集合为空，不能划分。二、划分选择

2017-09-20 15:00:04 316

转载机器学习笔记（七）线性回归与对数几率回归

线性模型即用线性代数中的线性方程表示一个模型，诸如fx=wTx+b的形式。其中训练得出w和b后，模型就得以确认。其中w其实就是代表各个属性的权重值。线性模型有三种任务，分别为回归任务、二分类任务和多分类任务。1.线性回归试图学得fx=wTx+b ≈ y y即实际值。在输出的所有（w，b）中，采用均方误差最小的原则来选取最好的性能度量。更一般的情形是如本节开头的数据集D，样例

2017-07-11 10:13:11 2986

原创 android activity之间自定义类的传递

android中activity之间通过Intent传递类

2017-07-11 09:42:06 1040

转载机器学习笔记（六）性能度量

即对学习器的泛化性能进行评估。在度量时要有衡量模型泛化能力的评价标准。性能度量反映了任务需求，在对比不同模型的能力时，使用不同的性能度量往往会导致不同的评判结果，这意味着模型的好坏是相对的，什么样的模型是好的，不仅取决于算法和数据，还取决于任务需求。

2017-05-09 16:41:14 1270

转载机器学习笔记（五）模型评估方法

我们利用测试集来测试学习器对新样本的判别能力，把测试集上的测试误差作为泛化误差的近似。在选取测试集时，需要尽可能与训练集互斥。即举一反三的能力，考试不出原题。一.留出法直接将训练集划分为两个互斥的集合，其中一个作为测试集T，另一个作为训练集S。注意事项：1.测试训练集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果产生影响。例如对D进行分层采样，D包

2017-05-09 15:37:14 506

转载机器学习笔记（四）经验误差与过拟合

分类错误的样本数占样本总数的比例称为错误率。1-错误率称为精度。把学习器的实际预测输出与样本的真实输出之间的差异称为误差。学习器在在训练集上的误差称为训练误差或经验误差。在新样本上的误差称为泛化误差。我们最终是希望泛化误差最小化。学习器把训练样本自身的而一些特点当作了所有潜在样本都会具有的一般性质，这样就会导致泛化性能下降，这种现象在机器学习中称为过拟合（过配）。相对的是欠拟合（欠

2017-05-09 15:34:01 703

转载机器学习笔记（三）归纳偏好

任何一个有效的机器学习算法都要有其归纳偏好，否则他将被假设空间中看似在训练集上等效的假设所迷惑。“奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则，他能引导算法确立较好的偏好，他的思想是，若有多个假设与观察一致，取最简单的那个。“没有免费的午餐”定理指出，脱离具体的问题，直接谈论哪个学习算法好毫无意义。

2017-05-08 16:59:02 1279

转载机器学习笔记（二）假设空间

归纳是从特殊到一般的泛化过程，即从事实归结出一般性规律。演绎是从一般到特殊的特化过程，即基础原理推演出具体状况。从样例中学习是一个归纳过程，亦称为归纳学习。归纳学习有广义与狭义之分，广义的归纳学习相当于从样例中学习，狭义的归纳学习要从训练数据中学得概念，因此称为概念学习或概念形成。概念学习中最基本的是布尔概念学习，即分为是与不是，举一个简单的例子

2017-05-08 11:21:31 2357

转载机器学习笔记（一）基本术语

数据例如（碗=干净），（书=厚），其中括号内是一条记录，“=”意思是“取值为”。其中每条记录是关于一个事件或对象的描述，称为一个示例或样本。碗、书称为属性或特征。干净、厚称为属性值。属性张成的空间称为属性空间、样本空间或输入空间。以一个碗为例子，把色泽、材质、厚度作为三个坐标轴，则他们张成一个用于描述一个碗的三维空间，每个碗都可以找到自己的坐标位置。从数据中学得的模型称为学习或

2017-05-07 11:16:53 794