简单点1024-CSDN博客

原创 DeepFM

DeepFM 设计思路简单，源于 2016 年 Google 的宽深网络方法但是效果出众。DeepFM是一个集成了FM和DNN的神经网络框架，思路和Google的Wide&Deep相似，都包括wide和deep两部分。W&D模型的wide部分是广义线性模型，DeepFM的wide部分则是FM模型，两者的deep部分都是深度神经网络。DeepFM神经网络部分，隐含层的激活函数用R...

2018-08-12 18:27:33 5088

原创 Wide& Deep

排序系统的发展： LR-->GBDT+LR FM-->FFM-->GBDT+FM|FFM FTRL-->GBDT+FTRL Wide&DeepModel Deep Neural Networks for YouTube Recommendations Reinforce Learning Wide an...

2018-08-12 18:26:49 8158

转载 Xgboost和lightgbm的区别

https://www.cnblogs.com/mata123/p/7440774.htmlhttps://www.cnblogs.com/infaraway/p/7890558.htmlXgboost缺点：1、在每次迭代的时候都要遍历整个训练数据多次，如果把整个训练数据装进内存则会限制训练数据的大小；如果不装进内存，反复地读写训练数据又会消耗非常大的时间2、预排序...

2018-04-12 09:34:02 1364

https://blog.csdn.net/shenxiaoming77/article/details/51603504CART算法的重要基础包含以下三个方面：（1）二分(Binary Split)：在每次判断过程中，都是对观察变量进行二分。CART算法采用一种二分递归分割的技术，算法总是将当前样本集分割为两个子样本集，使得生成的决策树的每个非叶结点都只有两个分枝。因此CART算法生成的决策树是...

2018-04-11 22:17:00 5342

转载推荐系统的排序指标

1.Mean Average Precision (MAP)AP=∑nij=1P(j).yi,j∑nij=1yi,jAP=∑j=1niP(j).yi,j∑j=1niyi,j 其中， yi,jyi,j:排序中第j个元素对于查询i是否是相关的；相关为1，不相关为0。 P(j)=∑k:πi(k)≤πi(j)y(i,k)πi(j)P(j)=∑k:πi(k)≤πi(j)y(i,k)πi(j) 其中， πi(...

2018-04-11 21:42:26 1891

转载爱奇艺个性化推荐排序实践

爱奇艺个性化推荐排序实践2017-11-14 14:58爱奇艺/视频/测评在海量的内容在满足了我们需求的同时，也使我们寻找所需内容更加困难，在这种情况下个性化推荐应运而生。在当前这个移动互联网时代，除了专业内容的丰富，UGC内容更是爆发式发展，每个用户既是内容的消费者，也成为了内容的创造者。这些海量的内容在满足了我们需求的同时，也使我们寻找所需内容更加困难，在这种情况下个性化推荐应运而生。个性化推...

2018-04-11 21:39:02 433

转载 GBDT与RF的区别与联系

GBDT和RF简介GBDT（Gradient Boosting Decision Tree）DT + Boosting = GBDTGBDT是一种boosting算法。boosting工作机制：先从初始训练集训练处一个基学习器，然后在根据基学习器的表现对训练样本分布进行调整，使得先前的基学习器做错的训练样本在后续获得更多关注（增加错误样本权重），然后基于调整后的样本分布训练下一个基学习器，如此重复...

2018-03-15 16:35:50 4651

原创 HashingVectorizer-CountVectorizer-TfidfVectorizer的区别和联系

文本特征提取词袋（Bag of Words）表征文本分析是机器学习算法的主要应用领域。但是，文本分析的原始数据无法直接丢给算法，这些原始数据是一组符号，因为大多数算法期望的输入是固定长度的数值特征向量而不是不同长度的文本文件。为了解决这个问题，scikit-learn提供了一些实用工具可以用最常见的方式从文本内容中抽取数值特征，比如说：标记（tokenizing）文本以及为每一个可能的标记（tok...

2018-03-15 16:34:26 6288 1

原创 StratifiedKFold和Kfold的区别

StratifiedKFold用法类似Kfold，但是他是分层采样，确保训练集，测试集中各类别样本的比例与原始数据集中相同。例子：import numpy as np from sklearn.model_selection import KFold,StratifiedKFoldX=np.array([ [1,2,3,4], [11,12,13,14], [21,22,2...

2018-03-14 19:18:13 13162

转载 sklearn学习笔记（2）交叉验证

分类：机器学习（3）目录(?)[-]输出为StratifiedKFoldn_splits2random_stateNone shuffleFalse输出TRAIN 1 3 TEST 0 2结果1 2 3 0结果2 3 0 1结果2 3 0 1结果4 5 0 1 2 3link text 几种不同的CV策略生成器 cross_val_score中的参数cv可以接受不同的CV策略生成器作为参数，以...

2018-03-14 19:14:16 338

转载深度学习网络结构图

深度学习初探——入门DL主流框架作者实验楼关注2017.03.09 14:30 字数 2541 阅读 3294评论 0喜欢 2深度学习概念深度学习 (deep learning)：深度学习是机器学习中的一个分支，试图通过具有多个处理层的计算模型对数据进行多层抽象。这个抽象的结果即是数据一种表达，而深度学习也可看成表达学习（表征学习）的一种方法，深度学习的好

2017-09-12 11:42:57 7890 1

转载 Tensorflow四种Cross Entropy

TensorFlow四种Cross Entropy算法实现和应用：交叉熵是Loss函数的一种（也称为损失函数或代价函数），用于描述模型预测值与真实值的差距大小，常见的Loss函数就是均方平均差（Mean Squared Error），定义如下：平方差很好理解，预测值与真实值直接相减，为了避免得到负数取绝对值或者平方，再做平均就是均方平方差。注意这里预测值需要经过sigmoid激活函数，

2017-09-11 19:18:17 432

转载 Spark机器学习之模型选择和超参数调整

模型选择（超参数调谐）ML中的一个重要任务是模型选择，或使用数据找到给定任务的最佳模型或参数。这也叫调音。可以针对个体估算器（如Logistic回归）或包括多个算法，特征化和其他步骤的整个管道完成调整。用户可以一次调整整个流水线，而不是单独调整管道中的每个元素。MLlib支持使用CrossValidator和TrainValidationSplit等工具进行模型选择。这些工具需要以

2017-08-31 17:06:42 1028

原创 spark-broadcast&accumulator使用

累加器Accumulator是spark提供的累加器，顾名思义，该变量只能够增加。只有driver能获取到Accumulator的值（使用value方法），Task只能对其做增加操作（使用 +=）。你也可以在为Accumulator命名（不支持Python），这样就会在spark web ui中显示，可以帮助你了解程序运行的情况。使用Accumulator时，为了保证准确性，只使用一次acti

2017-08-31 08:54:50 352

原创 leetcode3二叉树系列

#从尾到头打印链表class Solution: def printLinkedListFromHeadToTail(self,linkedList): if not linkedList: if linkedList.next!=None: self.printLinkedListFromHeadToTail(linkedList.next) print(linkedList.next.val).

2021-05-25 10:03:45 254

转载 Python的访问限制

1、python中初始化实例属性classmethod, staticmethod, self_arr, _internal. __private_method,__private_attr 1 必须在__init__(self,…)方法内(注意：双下划线)初始化实例，第一个参数必须为self。 1 如需动态添加属性...

2018-12-26 21:15:01 918

原创 python编程总结

1. from sklearn.feature_extraction import DictVectorizer和pd.get_dummies类似，都是对数值特征直接使用，对类别特征one-hot编码，都有sparse和dense特征。但是如果想要按自己设置的类别进行，需要设置数值astype(int),类别astype(str)2. 如果行连接可以使用pd.concat,列连接最好使用np....

2018-11-12 08:10:45 556

原创 One class Classification

1. one - class SVM SVDD: https://blog.csdn.net/OrthocenterChocolate/article/details/405924032.one class svm;EllipticEnvelope;IsolationForest https://blog.csdn.net/sinat_26917383/article/details/7664...

2018-11-03 14:39:58 1069

转载多类分类(Multi-label classification)性能评价之宏平均(macro-average)与微平均(micro-average)

通常，我们在评价classifier的性能时使用的是accuracy考虑在多类分类的背景下accuracy = (分类正确的样本个数) / (分类的所有样本个数)这样做其实看上去也挺不错的，不过可能会出现一个很严重的问题：例如某一个不透明的袋子里面装了1000台手机，其中有600台iphone6, 300台galaxy s6, 50台华为mate7,50台mx4(当然，这些信息分类器是...

2018-10-28 18:36:57 8735 6

转载蒙特卡罗算法与拉斯维加斯算法比较

1 蒙特卡罗算法简介蒙特卡罗(Monte Carlo)算法并不是一种特定的算法，而是对一类随机算法的特性的概括。它的名字来源于赌城蒙特卡罗，象征概率。它的基本思想是通过大量随机样本，去了解一个系统，进而得到要计算的值。它非常强大灵活，又相当简单易懂，很容易实现。2 蒙特卡罗算法与拉斯维加斯算法比较随机算法分为两大类：蒙特卡罗算法和拉斯维加斯算法，都是以著名的赌城命名的，且都是通过随机采样...

2018-10-17 22:24:41 3617

转载蒙特卡罗算法和拉斯维加斯算法比较

蒙特卡罗算法并不是一种算法的名称，而是对一类随机算法的特性的概括。媒体说“蒙特卡罗算法打败武宫正树”，这个说法就好比说“我被一只脊椎动物咬了”，是比较火星的。实际上是ZEN的算法具有蒙特卡罗特性，或者说它的算法属于一种蒙特卡罗算法。那么“蒙特卡罗”是一种什么特性呢？我们知道，既然是随机算法，在采样不全时，通常不能保证找到最优解，只能说是尽量找。那么根据怎么个“尽量”法儿，我们我们把随机算法分...

2018-10-17 22:22:21 5512

原创蒙特卡罗方法的简单解释

蒙特卡洛方法（Monte Carlo method，也有翻译成“蒙特卡罗方法”）是以概率和统计的理论、方法为基础的一种数值计算方法，将所求解的问题同一定的概率模型相联系，用计算机实现统计模拟或抽样，以获得问题的近似解，故又称随机抽样法或统计试验法。上述就是蒙特卡洛方法的基本概念，比较抽象，下面结合实际工作中的理解，谈一谈对蒙特卡洛方法的一些认识。（1）首先，蒙特卡洛不是个人名，而是个地名，说...

2018-10-17 22:14:24 1592

原创图的遍历DFS&BFS

2018-10-16 21:57:54 344

转载局部最优和鞍点区分

真的结束于最优点吗？我们知道，在局部最优点附近，各个维度的导数都接近0，而我们训练模型最常用的梯度下降法又是基于导数与步长的乘积去更新模型参数的，因此一旦陷入了局部最优点，就像掉进了一口井，你是无法直着跳出去的，你只有连续不间断的依托四周的井壁努力向上爬才有可能爬出去。更何况梯度下降法的每一步对梯度正确的估计都在试图让你坠入井底，因此势必要对梯度“估计错很多次”才可能侥幸逃出去。那么从数学上看...

2018-10-14 19:58:10 6326 1

转载神经网络权重初始化总结

神经网络之权重初始化https://www.cnblogs.com/makefile/p/init-weight.html?utm_source=itdadao&utm_medium=referral权重初始化模型权重的初始化对于网络的训练很重要, 不好的初始化参数会导致梯度传播问题, 降低训练速度; 而好的初始化参数, 能够加速收敛, 并且更可能找到较优解. 如果权重一开始...

2018-10-13 22:25:21 2281

转载深度优化方法总结

伯克利人工智能实验室博客：http://bair.berkeley.edu/blog/下雨天：有些人能听见下雨的声音，有些事只是在奔跑中淋湿！We are all in the gutter, but some of us are looking at the stars.Oscar Wilde我们都生活在阴沟里，但仍有人仰望星空。——奥斯卡·王尔德！本文综述了几种常用的优化主要比较的是...

2018-10-01 20:42:30 672

原创深度学习中的优化算法

梯度下降沿着整个训练集的梯度方向下降。可以使用随机梯度下降很大程度地加速，沿着随机挑选的小批量数据的梯度下降。批量算法和小批量算法使用小批量的原因n个样本均值的标准差是σn√σn，其中σσ是样本值真实的标准差。分母n−−√n表明使用更多的样本来估计梯度的方法的回报是低于线性的。另一个促使从小数目样本中获得梯度的统计估计的动机是训练集的冗余。大量样本可能对梯度做出了非常相似的贡献。...

2018-10-01 20:07:12 1474

转载三大参数估计方法（MLE, MAP, BOA)

以PLSA和LDA为代表的文本语言模型是当今统计自然语言处理研究的热点问题。这类语言模型一般都是对文本的生成过程提出自己的概率图模型，然后利用观察到的语料数据对模型参数做估计。有了语言模型和相应的模型参数，我们可以有很多重要的应用，比如文本特征降维、文本主题分析等等。本文主要介绍文本分析的三类参数估计方法-最大似然估计MLE、最大后验概率估计MAP及贝叶斯估计。 1、最大似然估计MLE...

2018-10-01 11:21:36 9117

原创 MapReduce-ItemCF-4

u1, v1,1u1,v2,1u2,v3,1MR1（用户物品的倒排列表）key: useridvalue: itemid:score,itemid,scoreMR2(共献矩阵，输入为MR1的输出)key: itemid1,itemid2value:{userid1, userid2,userid3}MR3(共献矩阵和评分矩阵相乘)分布式缓存map预先存储共献...

2018-09-20 19:19:30 191

转载 Mapreduce-ItemCF-3

基于物品的协同过滤ItemCF数据集字段：1． User_id: 用户ID2． Item_id: 物品ID3． preference:用户对该物品的评分算法的思想：1．建立物品的同现矩阵A，即统计两两物品同时出现的次数数据格式：Item_id1:Item_id2 次数2．建立用户对物品的评分矩阵B，即每一个用户对某一物品的评分数...

2018-09-20 19:10:40 175

转载 MapReduce计算ItemCF-2

推荐系统的基本架构：实时推荐和离线推荐源码：github注：以下所有数据之间都是以 \t 隔开的，博客里显示效果不好数据集：1 101 51 102 31 103 32 101 22 102 32 103 52 104 23 101 23 104 43 105 53 107 54 101 54 103 34 104 44 106 45 1...

2018-09-20 19:04:51 395

转载 Mapreduce实现ItemCF

ItermCF的基本思想基于物品相似度的协同过滤推荐的思想大致可分为两部分：1.计算物与物之前的相似度 2.根据用户的行为历史，给出和历史列表中的物品相似度最高的推荐通俗的来讲就是：对于物品 A,根据所有用户的历史偏好,喜欢物品 A 的用户都喜欢物品 C,得出物品 A 和物品 C 比较相似,而用户 C 喜欢物品 A,那么可以推断出用户 C 可能也喜欢物品 C。Iter...

2018-09-20 18:57:58 677

原创 Dropout and DropConnect

最近看Fractional Max-pooling 时，中提到了Dropconnect，一时间忘记了，就找出原文看了一下。参考原文：Regularization of Neural Networks using DropConnect现在总结一下，其实在实验中我们经常使用的是dropout （(Hinton et al., 2012).）方法，这篇文章提出的dropconnect的...

2018-09-20 17:55:46 1646 1

原创网络号 IP地址子网掩码如何计算

1.Internet上每一台计算机都有唯一的地址来标识它的身份，即IP地址，使用域名其实也是要转化为IP地址的。2.IP地址分类：A类：000~127，默认子网掩码：255.0.0.0B类：128~191，默认子网掩码：255.255.0.0C类：192~223，默认子网掩码：255.255.255.0D类：224~239E类：240~255 3.假设现有一IP地址180.21...

2018-09-17 17:14:48 183329 2

转载 Kmeans中的K值选取

1. 最简单的方法：K≈sqrt(N/2)2. 拐点法：把聚类结果的F-test值（类间Variance和全局Variance的比值）对聚类个数的曲线画出来，选择图中拐点3. 基于Information Critieron的方法：如果模型有似然函数（如GMM），用BIC、DIC等决策；即使没有似然函数，如KMean，也可以搞一个假似然出来，例如用GMM等来代替4. 基于信息论的方法（J...

2018-09-16 10:41:14 20037 7

转载逻辑回归和离散特征

连续特征的离散化：在什么情况下将连续的特征离散化之后可以获得更好的效果？Q:CTR预估，发现CTR预估一般都是用LR，而且特征都是离散的。为什么一定要用离散特征呢？这样做的好处在哪里？A:在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：0、离散特征的增加和减少都很容易，易于模型的快速迭代。(离散...

2018-09-12 10:42:17 3717

转载八皇后问题

我这里贴链接算是在帮公众号做推广吗...好吧不废话了。我觉得文章里画的图解真的很详细易懂，本来想截图，然后一张张地用Java语言再解释一遍，但是担心涉及到知识产权和版权问题，出于尊重的原因。还是只贴链接吧。建议大家可以先看一下链接里的思路解释，对于理解下面的代码实现就会容易很多了。我们先以8*8的棋盘为例，进行八皇后问题的实现：一、如果只对总方案数进行计算：public clas...

2018-09-09 21:20:40 111

原创朋友圈数（DFS&BFS）

Friend Circles班上有 N 名学生。其中有些人是朋友，有些则不是。他们的友谊具有是传递性。如果已知 A 是 B 的朋友，B 是 C 的朋友，那么我们可以认为 A 也是 C 的朋友。所谓的朋友圈，是指所有朋友的集合。给定一个 N * N 的矩阵 M，表示班级中学生之间的朋友关系。如果Mi = 1，表示已知第 i 个和 j 个学生互为朋友关系，否则为不知道。你必须输出所有学生中的已...

2018-09-09 20:55:15 529

转载 2014年HULU笔试题

填空题：1、中序遍历二叉树，结果为ABCDEFGH，后序遍历结果为ABEDCHGF，先序遍历结果为? FCBADEGH 如下图所示：2、对字符串HELL0_HULU中的字符进行二进制编码，使得字符串的编码长度尽可能短，最短长度为？25；（哈弗曼编码）1*4+1*4+1*3+3*2+2*2+2*2=253、对长度12的有序数组进行二分查找，目标等概率出现在数组的每个位置上，则平均比...

2018-09-09 20:17:39 651

原创 The Maze 1, 2

https://blog.csdn.net/zshouyi/article/details/72974347https://blog.csdn.net/magicbean2/article/details/78744299

2018-09-09 19:32:43 197

自编码网络系列详解

空空如也