大数据与人工智能
学习笔记,包括吴恩达机器学习、上课笔记等
_4444yl
这个作者很懒,什么都没留下…
展开
-
TensorFlow Serving + Docker + Tornado机器学习模型部署
训练模型使用Titanic数据集搭建模型,预测乘客在Titanic号撞击冰山沉没后能否生存数据的准备Preparing DataSurvived:0代表死亡,1代表存活【y标签】Pclass:乘客所持票类,有三种值(1,2,3) 【转换成onehot编码】Name:乘客姓名 【舍去】Sex:乘客性别 【转换成bool特征】Age:乘客年龄(有缺失) 【数值特征,添加“年龄是否缺失”作为辅助特征】SibSp:乘客兄弟姐妹/配偶的个数(整数值) 【数值特征】Parch:乘客父母/孩子的个数原创 2020-10-23 14:08:14 · 715 阅读 · 0 评论 -
激活函数activation总结
激活函数在深度学习中扮演着非常重要的角色,它给网络赋予了非线性,从而使得神经网络能够拟合任意复杂的函数。非线性激活函数可以使神经网络随意逼近复杂函数。没有激活函数带来的非线性,多层神经网络和单层无异。目前,深度学习中最流行的激活函数为 relu, 但也有些新推出的激活函数,例如 swish、GELU 据称效果优于relu激活函数。tf.keras.activations.sigmoid将实数压缩到0到1之间,一般只在二分类的最后输出层使用。主要缺陷为存在梯度消失问题,计算复杂度高,输出不以0为中心原创 2020-10-23 14:07:37 · 3134 阅读 · 0 评论 -
Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
机器学习领域有个很重要的假设:IID独立同分布假设,就是假设训练数据和测试数据是满足相同分布的,这是通过训练数据获得的模型能够在测试集获得好的效果的一个基本保障。BatchNorm就是在深度神经网络训练过程中使得每一层神经网络的输入保持相同分布的。Batch Normalization的提出是为了解决随着网络深度加深,训练起来越困难,收敛越来越慢的问题。为什么深度神经网络随着网络深度加深,训练起来越困难,收敛越来越慢?这是个在DL领域很接近本质的好问题。很多论文都是解决这个问题的,比如ReLU激活函数,原创 2020-10-23 14:07:19 · 1155 阅读 · 0 评论 -
GNN和GGNN学习笔记
GNN对于图上每个节点被编码为嵌入向量,因此,节点可能是一个图,可以通过cnn进行计算,可能是一个词、一个嵌入,它可以是自己希望的任何东西,这是图神经网络的输入。对于F,GNN处理可以看作节点的特征提取,F通过不同的边类型与E和D连接,D和F有自己的初始向量。从F的邻居开始,做一些类似计算消息的操作,实际上是获得另一个向量。合并得到的邻居消息结合F节点当前状态,将更新t时刻的F节点状态(拥有自身和邻居的信息)。具体一点,x代表邻居信息,是由当前节点的边类型为K的邻居信息合并而成。对于图神原创 2020-10-23 14:06:47 · 2643 阅读 · 4 评论 -
Apriori算法
目录Apriori算法实现... 2一、实验背景... 2二、算法描述... 21.Apriori介绍... 22.连接步和剪枝步... 23.Apriori算法的步骤... 34.由频繁项集产生关联规则... 3三、实验目的... 41.42.4四、实验要求... 4五、实验环境... 41.操作系统:... 42.编译环境:......原创 2018-10-26 10:57:34 · 2339 阅读 · 0 评论 -
多项式回归与模型泛化
有时候,一次项表达式进行回归误差比较大。给定这样的数据集,以y = 0.5 * X^2 + X + 2加入噪声生成,其图像 用线性回归获取回归方程,并用预测结果对比实际情况,得到 红...原创 2020-02-18 16:13:42 · 289 阅读 · 0 评论 -
梯度下降总结
随机梯度下降法随机梯度下降算法在每一次计算之后便更新参数θ ,而不需要首先将所有的训练集求和,在梯度下降算法还没有完成一次迭代时,随机梯度下降算法便已经走出了很远。但是这样的算法存在的问题是,不是每一步都是朝着”正确”的方向迈出的。因此算法虽然会逐渐走向全局最小值的位置,但是可能无法站到那个最小值的那一点,而是在最小值点附近徘徊。 ...原创 2020-02-18 16:07:34 · 82 阅读 · 0 评论 -
人工智能AI-Introductin
目的:——熟悉AI项目开发的通用流程——掌握AI项目开发的基本技能——具备开展AI算法基础研究是基本能力机器学习项目的通用工作流程1、定义问题:软件架构设计、确定评价指标2、获取数据:自动化的方式3、研究数据:可视化方式、相关性研究等4、准备数据:数据清理、特征选择及处理5、研究模型:确定评估方法、列出可能的模型并训练,选择最有希望的3-5个模型6、微调模型...原创 2020-02-18 16:06:45 · 351 阅读 · 0 评论 -
大数据技术概述
大数据的概念4V:大量化volume、价值密度低value、快速化velocity、多样化variety。大量化每两年增长一倍,到了2020年,全球就会有35ZB数据量,Byte->KB->MB->GB->TB->PB->EB->ZB。多样化,结构化数据,保存在关系数据库中,具有规范的行和列的结构数据,只占人类数据量10%不到。90%是非结构化数据,存...原创 2019-11-14 19:10:29 · 2994 阅读 · 1 评论 -
AI-经典深度神经网络总结
从以下三个方面把握:1)网络整体结构是怎样的?2)创新点是什么?(包含网络结构的创新和比较新颖的激活函数等方法)3)创新点可以带来什么好效果?为什么?主要讨论CNN的发展,将按下图的CNN发展史进行描述: LeNet-5 池化层使用avg poo...原创 2019-11-08 20:15:38 · 1967 阅读 · 1 评论 -
吴恩达机器学习笔记-单变量线性回归(Linear Regression with One Variable)
模型表示第一个学习算法是线性回归算法。例如一个预测住房价格,我们要使用一个数据集,根据不同房屋尺寸所售出的价格,画出数据集在图上的表示。比方说,如果你朋友的房子是1250平方尺大小,你要告诉他们这房子能卖多少钱。那么,你可以做的一件事就是构建一个模型,也许是条直线,从下图数据模型上来看能以大约220000(美元)左右的价格卖掉这个房子。这就是监督学习算法的一个例子,对于不同尺寸的房屋,给出了对应...原创 2019-10-21 20:14:10 · 267 阅读 · 0 评论 -
吴恩达机器学习笔记-线性代数回顾(Linear Algebra Review)
矩阵和向量如下图是是4×2矩阵,即4行2列,让m为行,n为列,矩阵记作大写A,指第i行,第j列的元素。向量是一种特殊的矩阵,有行向量和列向量,下图是四维列向量(4x1)。 加法和标量乘法矩阵的加法:行列数相等的对应元素相加即可。某个数×矩阵:矩阵里面每个元...原创 2019-10-21 20:14:22 · 194 阅读 · 0 评论 -
吴恩达机器学习笔记-多变量线性回归(Linear Regression with Multiple Variables)
多维特征前面我们探讨了单变量(特征)的回归模型,现在我们对房价模型增加更多的特征,例如房间数楼层等,构成一个含有多个变量的模型,模型中的特征为。 我们记作:n代表特征的数量;代表特征矩阵中的第i行,即第i个特征实例。代表第i个特征实例中的第j个特征。因此支持多维特...原创 2019-10-21 20:14:32 · 218 阅读 · 0 评论 -
吴恩达机器学习笔记-向量化
在学习机器学习时,无论你是用Octave,还是MATLAB、Python、NumPy或Java C C++所有这些语言,它们都具有各种线性代数库,这些库文件都是内置的,是数值计算方面的博士或者专业人士开发的,已经经过高度优化,使用方便有效,运行速度也更快。在我们实现机器学习算法时,应当好好利用这些线性代数库或者数值线性代数库,而不是自己去做那些函数库可以做的事情。在Octave中直接可以实...原创 2019-10-21 20:14:43 · 413 阅读 · 0 评论 -
吴恩达机器学习笔记-正则化(Regularization)
过拟合问题如果我们有非常多的特征,我们通过学习得到的假设可能能够非常好地适应训练集(代价函数可能几乎为0),但是可能会不能推广到新的数据。 第一个模型是一个线性模型,欠拟合,不能很好地适应我们的训练集;第三个模型是一个四次方的模型,过于强调拟合原始数据,而丢失了算法的本质:预测新数据。我们可以看出,若给...原创 2019-10-21 20:16:07 · 471 阅读 · 0 评论 -
吴恩达机器学习笔记-神经网络:表述(Neural Networks: Representation)
非线性假设我们之前学的,无论是线性回归还是逻辑回归都有这样一个缺点,即:当特征太多时,计算的负荷会非常大。例如大于100个变量,我们希望用这100个特征来构建一个非线性的多项式模型,结果将是数量非常惊人的特征组合,即便我们只采用两两特征的组合,我们也会有接近5000个组合而成的特征。这对于一般的逻辑回归来说需要计算的特征太多了。 ...原创 2019-10-21 20:16:25 · 267 阅读 · 0 评论 -
吴恩达机器学习笔记-神经网络参数的反向传播算法
代价函数假设神经网络的训练样本有m个,每个包含一组输入x和一组输出信号y,L表示神经网络层数,Sl表示每层的neuron个数(表示输出层神经元个数),SL代表最后一层中处理单元的个数。将神经网络的分类定义为两种情况:二类分类和多类分类。二类分类:Sl=0,y=0ory=1表示哪一类;K类分类:SL=k,yi表示分到第i类。 ...原创 2019-10-21 20:17:13 · 256 阅读 · 0 评论 -
吴恩达机器学习笔记-逻辑回归(Logistic Regression)
分类问题在分类问题中,你要预测的变量y是离散的值,我们将学习一种叫做逻辑回归 (Logistic Regression) 的算法,这是目前最流行使用最广泛的一种学习算法。在分类问题中,我们尝试预测的是结果是否属于某一个类(例如正确或错误)。分类问题的例子如下:判断一封电子邮件是否是垃圾邮件;判断一次金融交易是否是欺诈;之前我们也谈到了肿瘤分类问题的例子,区别一个肿瘤是恶性的还是良性的。 ...原创 2019-10-21 20:17:27 · 634 阅读 · 0 评论 -
吴恩达机器学习笔记-应用机器学习的建议(Advice for Applying Machine Learning)
评估假设函数为了检验算法是否过拟合,我们将数据分成训练集和测试集,通常用70%的数据作为训练集,用剩下30%的数据作为测试集。很重要的一点是训练集和测试集均要含有各种类型的数据,通常我们要对数据进行“洗牌”,然后再分成训练集和测试集。 1.对于线性回归模型,我们利用测试集数据计算代价函数J...原创 2019-10-21 20:17:37 · 183 阅读 · 0 评论 -
吴恩达机器学习笔记-支持向量机(Support Vector Machines)
与逻辑回归和神经网络相比,支持向量机,或者简称SVM,在学习复杂的非线性方程时提供了一种更为清晰,更加强大的方式。它也是我们所介绍的最后一个监督学习算法。为了描述支持向量机,事实上,我将会从逻辑回归开始展示我们如何一点一点修改来得到本质上的支持向量机。 在逻辑回归中我们已经熟悉了这里的假设函数形式,和右边的S型激励函数。...原创 2019-10-21 20:17:47 · 221 阅读 · 0 评论 -
吴恩达机器学习笔记-聚类(Clustering)
K-Means AlgorithmK-均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的组。K-均值是一个迭代算法,假设我们想要将数据聚类成n个组,其方法为:首先选择K个随机的点,称为聚类中心(cluster centroids);对于数据集中的每一个数据,按照距离个中心点的距离,将其与距离最近的中心点关联起来,与同一个中心点关联的所有点聚成一类。计算每一个组的平均值...原创 2019-10-21 20:17:57 · 796 阅读 · 0 评论 -
吴恩达机器学习笔记-引言
引言日常生活中的机器学习算法使用,例如:使用谷歌或必应进行搜索,谷歌和微软使用良好的学习算法排序网页;使用脸书或苹果,其中的图片分类程序可以认识你朋友的照片;电子邮箱使用时,电子邮件垃圾邮件筛选器可以过滤大量的垃圾邮件。许多AI研究者认为,实现做出一个和人类一样聪明的机器的这个目标最好的方法是通过让机器试着模仿人的大脑学习。智能的机器,即机器可以做很多有趣的事情,如web搜索、照片标记、反垃...原创 2019-10-21 20:13:47 · 333 阅读 · 0 评论