自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (1)
  • 收藏
  • 关注

原创 Elasticsearch分组聚合-查询

1 统计某个字段下的分组情况类似如下功能: select count(*) from mytable group by myfieldcurl -XPOST 'localhost:19200/ylchou-0-2015-10-07/_search?pretty' -d ' { "size": 0, "aggs": { "group_by_state": {

2016-08-31 16:38:08 9100

原创 梯度下降法、坐标下降法、牛顿迭代法

梯度下降法 一般形式: x(t+1)=x(t)−a.grad(f(x(t))x^{(t+1)}=x^{(t)}-a.grad(f(x^{(t)}) 迭代停止条件: 各个分量的偏导数为0,即达到极小点。坐标下降法1.首先给定一个初始点,如 X_0=(x1,x2,…,xn); 2.for x_i=1:n 固定除x_i以外的其他维度 以x_i为自变量,求取

2016-08-25 19:11:33 9725 2

原创 机器学习模型评估与选择

1 模型评估在数据量充足情况下,对比不同算法,通常采用如下步骤: 1)将数据集分成训练、验证、测试三部分子数据集; 2)训练和验证两个子数据集随机变换,训练模型;对得到的模型用验证数据验证,得到验证误差; 3)选择验证误差最小的那个模型作为最终模型,这个模型就是我们要选择的最佳模型; 4)用最佳模型去跑测试数据集,即可得到该模型的预测误差。不同算法的预测效果就从该预测误差体现出来。2 模型选

2016-08-18 14:33:56 580

原创 Distance Algorithm

1 Cos Distance2 余弦距离与欧式距离区别归一化后,欧氏距离和余弦值结果一致。但没有归一化的情况下,余弦距离是计算相似程度,而欧氏距离计算的是相同程度。一个大的照片和一个小的照片相异么? 你要用欧氏距离,那差别就大了,要是用余弦夹角就小啦不能说那个效果就好,要看应用场景的需求。

2016-08-15 19:59:08 666

原创 神经网络模型选择与训练

训练时,通常需要运行几十遍来获取全局极小值点。 神经网络的泛化能力主要受两面反的因素影响:一是来自训练样本的影响,包括样本的质量、样本的数量和样本的代表性三个方面;二是来自网络本身的影响,包括网络的结构和学习算法两个方面。1结构越简单,泛化能力越好。2 训练样本规格化将样本规格化到[0,1]之间,能缩小各特征的差异。减少敏感度。3 隐藏节点的选取

2016-08-15 17:41:25 889

原创 处理过拟合问题

1 定义过拟合是指,对训练数据拟合很好,但对测试数据拟合很差。2 产生原因为什么会产生过拟合?主要有几个原因: 1.训练数据量过小,使得模型过分关注噪声; 2.训练过久,使得模型过多地学习噪声; 其中噪声包括没有代表的样例和没有代表的特征。3 解决办法1 增大训练数据量2 适当停止迭代3 交叉验证,获得较有代表训练数据集4 正则化目标函数通过正则化项,减少目标函数与实际数据的过度吻合,提高系统

2016-08-15 11:34:42 380

原创 Normal Distribution(Gauss Distribution)

123 近似正态分布中心极限定理Central Limit Theorem:设从均值为μ、方差为σ2σ^2的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/nσ^2/n的正态分布。原来的分布不一定要符合正态分布,可以是任何的分布,可以是离散也可以是连续,即无要求。假设总体的均值为μ,方差为σ2σ^2;样本的均值为μX¯μ_{\bar X},样本的方差

2016-08-13 14:59:47 496

原创 Term weight algorithm in IR

1 TF-IDF2 BM25f是TD-IDF中的TF,|D|是文档D的长度,avgdl是语料库全部文档的平均长度。k1和b是参数。usually chosen, in absence of an advanced optimization, as k1∈[1.2,2.0]k_1 \in [1.2, 2.0] and b = 0.75 。 b的相关性令: y=1-b+b*x, x表示|D|/

2016-08-12 11:36:50 1019

原创 文本相似度

1 TF-IDFTF=某个词在文档中出现的频次文档的总词数TF=\frac{某个词在文档中出现的频次}{文档的总词数} IDF=log(语料库中的总文档数出现该词的文档数+1)IDF=log(\frac{语料库中的总文档数}{出现该词的文档数+1}) TF−IDF=TF∗IDFTF-IDF=TF*IDF引入IDF是为了消除该词的共性,增强该词的特性。如果这个词只在这篇文档中出现,那这个词就很能代

2016-08-09 15:44:19 367

转载 过拟合

1 过拟合过拟合就是训练模型的过程中,模型过度拟合训练数据,而不能很好的泛化到测试数据集上。出现over-fitting的原因是多方面的:1 训练数据过少,数据量与数据噪声是成反比的,少量数据导致噪声很大2 特征数目过多导致模型过于复杂,如下面的图所示: 看上图中的多项式回归(Polynomial regression),左边为模型复杂度很低,右边的模型复杂度就过高,而中间的模型为比较合适的模型,

2016-08-09 10:16:09 388

原创 【深度学习Deep Learning系列】BP神经网络

大家都知道,目前深度学习被炒的热火朝天,在计算机学界,将近有一半领地被深度学习攻占,在工业界,百度、阿里、科大讯飞等也在大力推崇。比如百度的无人驾驶汽车、阿里的用户数据分析、科大讯飞的语言识别,都是深度学习成功应用的例子。那么,什么是深度学习,

2016-08-06 19:16:52 501

原创 神经网络文本分类案例

1 数据来源实验过程中,从中国期刊网上下载了600篇Web文档作为实验数据,实验数据中包括政治、经济、军事、法律、教育、体育、娱乐、科技、外语、计算机等10个主题,每个主题的数据包括60篇文档。再选择500篇文档作为训练集合。另外100篇作为测试集合。2 数据预处理对实验数据进行预处理及特征提取 SVD(Singular Value Decomposition) 奇异值分解 降维3 设计网络拓扑结

2016-08-05 15:25:19 1910

转载 BP神经网络的非线性函数拟合

BP神经网络主要用到newff,sim 和train3个神经网络函数,各函数解释如下。1.newff:BP神经网络参数设置函数函数功能:构建一个BP神经网络。 函数形式:net= newff(P,T,S,TF,BTF,BLF,PF,IPF,OPF,DDF) P:输入数据矩阵。 T:输出数据矩阵。 S:隐含层节点数。 TF:节点传递函数,包括硬限幅传递函数hardlim,对称硬限幅传递函数h

2016-08-04 11:02:02 21278

原创 常用名词解释

IQAS:IPTV Quality Assistant System,IPTV服务质量保障系统 VOD:Video on Demand,视频点播

2016-08-03 09:20:23 331

原创 系统聚类(层次聚类)

1 概述系统聚类,又称层次聚类,其大体步骤: 1)先将每个样本自成一类; 2)将所有类中距离最小的两个类合并为一类; 3)重复步骤2),直至最终仅剩一个类。 这样一种连续的过程可用一种类似于树状结构的类型即聚类谱系图(俗称树状图)来表示。 按类之间的距离计算方法划分,我们可将系统聚类分为6 离差平方和(Ward’s)

2016-08-02 15:19:59 6149

原创 HTTP的get、put、post、delete

get:获取(查看) put:创建、修改 post:修改 delete:删除

2016-08-01 19:53:20 248

ik分词和ictclas分词两者结合

ik分词和ictclas分词两者结合,可使得分词结果更加精准。

2014-09-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除