2016年08月_zkq_1986

原创 Elasticsearch分组聚合-查询

1 统计某个字段下的分组情况类似如下功能： select count(*) from mytable group by myfieldcurl -XPOST 'localhost:19200/ylchou-0-2015-10-07/_search?pretty' -d ' { "size": 0, "aggs": { "group_by_state": {

2016-08-31 16:38:08 9100

原创梯度下降法、坐标下降法、牛顿迭代法

梯度下降法一般形式： x(t+1)=x(t)−a.grad(f(x(t))x^{(t+1)}=x^{(t)}-a.grad(f(x^{(t)}) 迭代停止条件：各个分量的偏导数为0，即达到极小点。坐标下降法1.首先给定一个初始点，如 X_0=(x1,x2,…,xn); 2.for x_i=1:n 固定除x_i以外的其他维度以x_i为自变量，求取

2016-08-25 19:11:33 9728 2

原创机器学习模型评估与选择

1 模型评估在数据量充足情况下，对比不同算法，通常采用如下步骤： 1）将数据集分成训练、验证、测试三部分子数据集； 2）训练和验证两个子数据集随机变换，训练模型；对得到的模型用验证数据验证，得到验证误差； 3）选择验证误差最小的那个模型作为最终模型，这个模型就是我们要选择的最佳模型； 4）用最佳模型去跑测试数据集，即可得到该模型的预测误差。不同算法的预测效果就从该预测误差体现出来。2 模型选

2016-08-18 14:33:56 586

原创 Distance Algorithm

1 Cos Distance2 余弦距离与欧式距离区别归一化后，欧氏距离和余弦值结果一致。但没有归一化的情况下，余弦距离是计算相似程度，而欧氏距离计算的是相同程度。一个大的照片和一个小的照片相异么？你要用欧氏距离，那差别就大了，要是用余弦夹角就小啦不能说那个效果就好，要看应用场景的需求。

2016-08-15 19:59:08 668

原创神经网络模型选择与训练

训练时，通常需要运行几十遍来获取全局极小值点。神经网络的泛化能力主要受两面反的因素影响：一是来自训练样本的影响，包括样本的质量、样本的数量和样本的代表性三个方面；二是来自网络本身的影响，包括网络的结构和学习算法两个方面。1结构越简单，泛化能力越好。2 训练样本规格化将样本规格化到[0,1]之间，能缩小各特征的差异。减少敏感度。3 隐藏节点的选取

2016-08-15 17:41:25 892

原创处理过拟合问题

1 定义过拟合是指，对训练数据拟合很好，但对测试数据拟合很差。2 产生原因为什么会产生过拟合？主要有几个原因： 1.训练数据量过小，使得模型过分关注噪声； 2.训练过久，使得模型过多地学习噪声；其中噪声包括没有代表的样例和没有代表的特征。3 解决办法1 增大训练数据量2 适当停止迭代3 交叉验证，获得较有代表训练数据集4 正则化目标函数通过正则化项，减少目标函数与实际数据的过度吻合，提高系统

2016-08-15 11:34:42 380

原创 Normal Distribution(Gauss Distribution)

123 近似正态分布中心极限定理Central Limit Theorem：设从均值为μ、方差为σ2σ^2的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ2/nσ^2/n的正态分布。原来的分布不一定要符合正态分布，可以是任何的分布，可以是离散也可以是连续，即无要求。假设总体的均值为μ，方差为σ2σ^2；样本的均值为μX¯μ_{\bar X}，样本的方差

2016-08-13 14:59:47 497

原创 Term weight algorithm in IR

1 TF-IDF2 BM25f是TD-IDF中的TF，|D|是文档D的长度，avgdl是语料库全部文档的平均长度。k1和b是参数。usually chosen, in absence of an advanced optimization, as k1∈[1.2,2.0]k_1 \in [1.2, 2.0] and b = 0.75 。 b的相关性令： y=1-b+b*x， x表示|D|/

2016-08-12 11:36:50 1019

原创文本相似度

1 TF-IDFTF=某个词在文档中出现的频次文档的总词数TF=\frac{某个词在文档中出现的频次}{文档的总词数} IDF=log(语料库中的总文档数出现该词的文档数+1)IDF=log(\frac{语料库中的总文档数}{出现该词的文档数+1}) TF−IDF=TF∗IDFTF-IDF=TF*IDF引入IDF是为了消除该词的共性，增强该词的特性。如果这个词只在这篇文档中出现，那这个词就很能代

2016-08-09 15:44:19 367

转载过拟合

1 过拟合过拟合就是训练模型的过程中，模型过度拟合训练数据，而不能很好的泛化到测试数据集上。出现over-fitting的原因是多方面的：1 训练数据过少，数据量与数据噪声是成反比的，少量数据导致噪声很大2 特征数目过多导致模型过于复杂，如下面的图所示：看上图中的多项式回归（Polynomial regression），左边为模型复杂度很低，右边的模型复杂度就过高，而中间的模型为比较合适的模型，

2016-08-09 10:16:09 388

原创【深度学习Deep Learning系列】BP神经网络

大家都知道，目前深度学习被炒的热火朝天，在计算机学界，将近有一半领地被深度学习攻占，在工业界，百度、阿里、科大讯飞等也在大力推崇。比如百度的无人驾驶汽车、阿里的用户数据分析、科大讯飞的语言识别，都是深度学习成功应用的例子。那么，什么是深度学习，

2016-08-06 19:16:52 501

原创神经网络文本分类案例

1 数据来源实验过程中，从中国期刊网上下载了600篇Web文档作为实验数据，实验数据中包括政治、经济、军事、法律、教育、体育、娱乐、科技、外语、计算机等10个主题，每个主题的数据包括60篇文档。再选择500篇文档作为训练集合。另外100篇作为测试集合。2 数据预处理对实验数据进行预处理及特征提取 SVD（Singular Value Decomposition）奇异值分解降维3 设计网络拓扑结

2016-08-05 15:25:19 1910

转载 BP神经网络的非线性函数拟合

BP神经网络主要用到newff,sim 和train3个神经网络函数,各函数解释如下。1.newff:BP神经网络参数设置函数函数功能:构建一个BP神经网络。函数形式:net= newff(P,T,S,TF,BTF,BLF,PF,IPF,OPF,DDF) P:输入数据矩阵。 T:输出数据矩阵。 S:隐含层节点数。 TF:节点传递函数,包括硬限幅传递函数hardlim,对称硬限幅传递函数h

2016-08-04 11:02:02 21278

原创常用名词解释

IQAS：IPTV Quality Assistant System，IPTV服务质量保障系统 VOD：Video on Demand，视频点播

2016-08-03 09:20:23 331

原创系统聚类（层次聚类）

1 概述系统聚类，又称层次聚类，其大体步骤： 1）先将每个样本自成一类； 2）将所有类中距离最小的两个类合并为一类； 3）重复步骤2），直至最终仅剩一个类。这样一种连续的过程可用一种类似于树状结构的类型即聚类谱系图（俗称树状图）来表示。按类之间的距离计算方法划分，我们可将系统聚类分为6 离差平方和（Ward’s）

2016-08-02 15:19:59 6154

原创 HTTP的get、put、post、delete

get：获取（查看） put：创建、修改 post：修改 delete：删除

2016-08-01 19:53:20 248

zkq_1986的博客