人工智能
文章平均质量分 65
主要是个人人工智能的总结和实践的一些东西。
南巷旧梦
现在在读研究生,以前写的博客太幼稚了,xdm不用关注,转载直接转就行。已经不写很久了了。谢谢大家。
展开
-
线性回归和广义线性回归
预备公式: 求导 X是一个矩阵,θ是一个列向量。dXθ/dθ=XTdXθT/dθT=XTdXθT/dθ=X一、线性回归y=ax+b给出一个离散点,咱们想办法表示出a和b.(最小二乘法)多个变量的情况:考虑两个变量:咱们的未知数是x1,x2,把Living area和price看成x1,x2.然后咱们只需要求出θ就可以完成拟合。咱们的目的是让离散的点尽量的近。...原创 2020-04-13 17:48:03 · 1056 阅读 · 0 评论 -
凸优化
一、凸集集合C内任意两点间的线段均在集合C内,则称集合C为凸集。二、凸包集合C的所有点的凸组合形成的集合,叫做集合C的凸包。三、锥四、透视变换凸集的透视变换仍然是凸集。五、对偶问题...原创 2020-11-22 15:45:54 · 94 阅读 · 0 评论 -
数据之间的关系
1.看X,Y的相关性若Cov(X,Y)>0,它们的变化趋势相同,若Cov(X,Y)<0,它们的变化趋势相反;Cov(X,Y)=0,称X和Y不相关。2.看var(x)=σ2 var(y) = σ12,cov(x,y)<=σ2σ12如果等号成立,则这两个数据有相关性。我们可得:相关系数3.偏度衡量随机变量概率分布的不对称性。首先看一下中心距μk:三阶就是k=3四阶就是k=4。4.峰度:峰度通常被定义四阶中心矩除以方差的平方再减3。5.中心极限定理6.样本的距原创 2020-11-22 15:26:31 · 3198 阅读 · 0 评论 -
参数估计的评价准则
1.无偏性对于样本X1,X2…Xn去预测y,每一个不同的样本得到的预测结果y1都有可能是不同的,所以我们可以求y1的期望E(y1)。如果E(y1) = 要预测的数据 y那么就是无偏估计。2.均方误差准则mes越小越好...原创 2020-11-22 14:52:20 · 1172 阅读 · 0 评论 -
Kernel(核函数)
标题1.kernel介绍2.怎么学kernel1.kernel介绍机器学习有两个常见问题:1.加权。2.求相似性(距离)。一般来说,相似性高了权值就大了,但是具体怎么求?可以用1.k近邻(距离越近权越大)2.Nadaraya-Watson估计(距离越远权越大)f(x) = wTy其中w是 wii= К(xi,μ)其中К(xi,μ)是核函数,这里又叫相似函数。也就是求距离的一个方法。这也就是xi和其他x的距离。讲几个常用的kernel形式:1.基本高斯kernel:2.如果∑是对角原创 2020-11-19 22:25:34 · 7216 阅读 · 0 评论 -
贝叶斯分类器基本理论
作用:主要用于分类任务在相关概率都已知的条件下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记贝叶斯分类器1、贝叶斯决策论1.1、基本原理1、贝叶斯决策论1.1、基本原理假设有N种可能的类别标记,也就是y有多个可能取值,y={c1,c2,c3…},其中λij是cj被误分类成ci的损失(比如:ci = cj,λ = 0;ci != cj,λ = 1),然后最后我们需要的期望损失也就是:R(ci|x) = ∑(N,j=1) λij P(cj|x)解释:是样本x被分类成ci的期望损失。原创 2020-09-22 09:43:32 · 291 阅读 · 0 评论 -
机器学习初级入门(二)KNN
k近邻算法(KNN)是一种基本的分类和回归算法。理解:给定一个训练好的数据集,输入一个新的数据,在训练好的数据集中能找到与新的数据最邻近的k个数据。如果做分类的话,那就是这k个数据多数属于某个类,那么这个新的数据就属于某个类;如果做回归的话,就把这k个数据求平均值,结果就是回归的结果。KNN的三要素:k值的选择,距离度量以及分类决策。解释:k值就是找最近的数据数量,距离度量有很多种,比如:欧式距离,切比雪夫距离、信息熵(决策树用),决策分类就是用多数表决啊还是什么方法进行决策。算法:1.输入训练集原创 2020-07-08 22:02:16 · 484 阅读 · 0 评论 -
机器学习初级入门(一)感知机
理解:感知机是分类模型,其单个特征向量最终训练结果是{+1,-1}。(这里不用输入空间,输出空间等术语).函数:y=sign(wx+b)参数解析:w和b是感知机的模型参数(不了解不要紧,往下看),w是权值(权值向量,x是个特征向量),b是偏置。sign(x)是一个函数,当x>=0时为+1,否则为-1。几何解释:线性方程wx+b=0对应于空间中的一个超平面S,其中w是法向量,b是截距。这个超平面将空间划分为两部分,分别是正负两类。咱们建立模型的时候就是求w和b。x0到S的距离:y0=|wx0+原创 2020-07-07 21:08:22 · 414 阅读 · 0 评论 -
Tensorflow2.0入门教程(一)
之前写过一些机器学习的基础算法,发现大家都不感兴趣,痛定思痛了很久,决定深入浅出的写这一门学问。这里写目录标题1.下载2.tensorflow-kears2.1分类问题和回归问题2.1.1目标函数1.下载开始咱们先讲一下下载吧,注意事项:1.python3.6以上版本用tensorflow会很麻烦2.我是用anaconda来下载的tensorflow包3.下载spyder和各...原创 2020-05-14 15:44:49 · 983 阅读 · 0 评论 -
(机器学习之算法)凸优化
(博主感觉自己的总结能力有些问题,我写的太乱了,之前很大一部分时间都在内疚,没有勇气写博客,谢谢大家可以看一下我的博客,我一定努力把东西讲清楚。)深切哀悼抗击新冠肺炎斗争中的牺牲烈土和逝世同胞。愿逝者安息,愿生者奋发,愿祖国昌盛!!!!!一、凸集我们首先思考两个不等式:1.(a+b)/2 >=\sqrt{ab}...原创 2020-04-04 22:37:02 · 1643 阅读 · 0 评论 -
数据分析数据挖掘(五)
数据从 数据分析数据挖掘(三) 去找一、探索变量的关系1.事件相互独立的条件:P(AB)=P(A)P(B)则称为事件A和B相互独立,简称A与B独立。P(A)P(B)>0,若A与B独立的充分必要条件是P(A|B)=P(A),P(B|A)=P(B)。事件A的发生与B相互无关。2.导入库导入数据:import pandas as pdimport numpy as npimpo...原创 2020-03-07 18:46:11 · 499 阅读 · 0 评论 -
数据分析数据挖掘(四)
请从上一个博客下载我们需要处理的数据。一、复习常用的函数:import pandas as pdimport numpy as npimport matplotlib as mt#载入库from pandas import Series,DataFrame#载入模块data=pd.read_csv(r'C:\Users\13056\Desktop\tips.csv')print...原创 2020-03-05 19:36:43 · 355 阅读 · 0 评论 -
数据分析数据挖掘(三)
前面我自己写的我看着都头大,我看看能不能给大家写的精简点,好理解。我们需要的数据:链接:https://pan.baidu.com/s/1xr4x43bfEe4hVWYtwiFGRw提取码:yabw如果链接失效一定要在评论区说一下。一、数据的预处理1.数据分析的步骤:获取数据---->数据预处理---->数据分析---->数据挖掘2.数据预处理:数据分析和数据挖掘...原创 2020-03-02 20:32:22 · 380 阅读 · 0 评论 -
数据分析数据挖掘(二)
一、统计基础1.总体和样本:总体的分布一般来说是未知的,统计学的主要任务正是要对总体的未知分布,进行判断。由样本判断总体过程:数据资料的收集---->数据的整理、分析---->统计推断设总体的概率分布为p(x)=P{X=x},则样本的概率分布为:P(x1,x2,x3…,xn)=P{X1=x1,X2=x2…Xn=xn}。2.统计量:设X1,X2,…Xn是总体X的一个样本,则称此样...原创 2020-03-01 21:28:21 · 3133 阅读 · 0 评论 -
数据分析数据挖掘(一)
相信小伙伴已经会基本的数据处理了和可视化的问题了。我们现在要进行数据挖掘的学习了。一、数据的类型:模型:变量与变量之间的关系。数据分析:根据变量类型和以顶的假设,来确定变量与变量之间的关系。所有的模型都是错的,但有些是有用的。二、数据分析和数据挖掘的关系:1.数据的用途:记录、解释(理解)、预测、控制2.数据分析:统计、相关、回归;已知模型下的参数估计3.数据挖掘:发现知识;分类...原创 2020-03-01 14:02:29 · 671 阅读 · 0 评论 -
数据分析数据可视化(四)
1.基本统计分析:一般统计最小值,第一四分位值,中值,第三四分位置。最大值常用统计指标:计数,求和,平均值,方差,标准差描述性统计分析函数:describe()常用的统计函数import pandas data=pandas.read_csv('D:\BaiduNetdiskDownload\8\8.1\data.csv')print(data)print(data.score.d...原创 2020-02-29 19:08:55 · 578 阅读 · 0 评论 -
数据分析数据可视化(三)
1.绘制散点图:一个变量为横坐标,另一变量为纵坐标,利用散点的分布形态反应变量关系的一种图形。散点图绘图函数:plot(x,y,'.',color=(r,g,b));第一个参数,x,y:x,y轴的序列,。和.的分别,color可以用rgb定义也可以用英文字母定义。plt.xlabel('x轴标签')plt.ylabel('y轴标签')plt.frid((True)import matp...原创 2020-02-29 18:58:37 · 409 阅读 · 0 评论 -
数据分析数据可视化(二)
1.向量化计算:向量化计算是一种特殊的并行计算的方式,相比于一般程序在同一时间只能执行一个操作方式,它可以在同一时间执行多次操作,通常是对不同的数据执行同样的一个或一批指令,或者说把指令应用于一个数组/向量。2.数据导入:2.1.导入CSV文件:用read_csv导入csv文件。from pandas import read_csvdf=read_csv(r'C:\Users\130...原创 2020-02-28 19:29:58 · 477 阅读 · 0 评论 -
数据分析数据可视化(一)
需要学习的包:数据处理:pandas数据计算:Numpy数据可视化:matplotlib下载anaconda个人主要使用spyder1.简单的函数```python# -*- coding: utf-8 -*-"""Created on Tue Feb 25 21:20:28 2020@author: 13056"""#切片s="abcderfwadfeg"print...原创 2020-02-27 22:07:20 · 303 阅读 · 0 评论 -
机器学习笔记(六)数据分类
如果有看不懂一定要评论或者私聊,因为很多时候我感觉一些东西可有可无,这些笔记基本上是为了考研啊,很多教材也都是好几遍刷的,有代码就是我做某个项目正好用到。有很多人初学就看一些博客的很烦,我也是这么走来的,虽然是笔记,还是希望大家都能看懂的。谢谢大家在开始希望大家可以先了解一些概念:数据什么时候为正例?yi/1-yi- = m+/m-yi是数据i判别为正例的可能性,m+,m-是正例、反例数据的数量。如果满足上面公式那么数据就被分类为正例。1、LDA先说明:当两类数据同先验、满足高斯分布和协方差且原创 2021-03-10 10:50:20 · 621 阅读 · 0 评论 -
数据相关性分析
用到就记数据不符合正态分布的情况下1、spearman数据不符合正态分布的情况下1、spearman反应的是两个变量之间变化趋势的方向和程度,范围是[-1,1],0是没相关性,负数是负相关,正数是正相关,绝对值越大,相关性越强。其中n是指等级个数,d是指两列变量等级的差数。from scipy import statsstats.probplot(Fruit_tree1, dist="norm", plot=plt)plt.show()...原创 2021-03-09 23:38:43 · 3028 阅读 · 0 评论 -
阿里天池用Pandas揭秘美国选民的总统喜好附加题
= =我也不知道有没有杯子,大家权当热闹看看吧。第一个附加题是按州总捐款热力地图(前面的大家可以直接在天池看,这是个教程类的入门,前面的说实话没啥好看的,新手就好好看看)import seaborndata = c_itcont.groupby('STATE').sum().sort_values("TRANSACTION_AMT", ascending=False)[:10]#画出热力图seaborn.heatmap(data)第二个附加题是收到捐赠额最多的两位候选人的总捐赠额变化趋势n原创 2021-03-06 19:10:42 · 239 阅读 · 0 评论 -
机器学习笔记(五)回归模型
1、随机森林1、随机森林随机森林简单来说就是bagging+决策树,就是多颗决策树组成的森林。2、决策树的建立常见的决策树算法:ID3,使用的信息增益建立的决策树。C4.5,使用的信息增益率建立的决策树。CART,基尼系数。信息增益越大,表示特征对样本熵(表示混乱程度)的减少能力越强。3、bagging的使用从原始数据中使用有放回的方法抽取数据(Bootstraping),随机抽取n个样本,进行k轮,获得k个样本集,建立k个模型(随机森林的时候就是决策树),对于分类问题,我们用投票法原创 2021-03-01 10:09:17 · 413 阅读 · 0 评论 -
如何判断数据是否符合正态分布
用到了就记一下= =太多了时间长了慢慢忘了。1、Q-Q图我们先看看标准的正态分布图:stats.probplot(df1['3#3temp'], dist="norm", plot=plt)plt.show()结果:原创 2021-02-01 15:38:17 · 7715 阅读 · 0 评论 -
机器学习笔记(四)BP神经网络模型
写完才感觉自己可能用了很多术语= =大家听不懂就问就行,我之前可能写过但是很杂,我自己都感觉写的太乱了= =。标题1、基础概念2、结构特点3、网络模型4、人工神经网络简介4.1、神经元4.2、单层神经网络4.3、双层神经网络4.4、多层神经网络5、Bp神经网络6、实战1、基础概念人工神经网络的概念:其从信息处理角度对人脑神经元网络进行抽象,构建某种简单的模型,按不同的连接方式组成不同的网络。在工程与学术界我们通常把人工神经网络简称为神经网络或类神经网络。神经网络的概念:是一种运算模型,由大量的节点(原创 2021-01-26 21:49:02 · 8912 阅读 · 4 评论 -
机器学习实践笔记(三)时间序列数据预测
1、拿到数据咱们开始分析我们拿到数据的时候,时间序列是数据主要分为四类,1.长期趋势。2.季节变动。3.循环变动 4.不规则数据。给大家普及下(手动狗头):1.长期趋势:长期趋势是在很长时间实践按照某种特定趋势变化。简单来说,就是函数单调递减和函数单调递增。2.季节变动:由于自然条件和社会因素的影响,客观现象的统计数值在一年内出现的带有规律性的变化。3.循环变动:就是数据表现的是一个循环函数4.不规则数据:不规则变动是指由于意外的波动。而且这个意外是不经常的。具体演示一原创 2020-12-26 21:32:24 · 2343 阅读 · 1 评论 -
机器学习实践笔记(二)EOF
1、简单介绍:EOF是一种分析矩阵数据中的结构特征,提取主要数据特征量的一种方法。EOF又名PCA.(嘿嘿先这么想,其实在python里就一个函数鸭,PCA可以额外写一篇进行解释,这里只写一下应用啦)。Lorenz在1950年代首次将其引入气象和气候研究。2、原理选定要分析的数据,进行数据预处理,通常处理成距平的形式。得到一个数据矩阵Xm×n.数据大概就是这样的:这个原出处我也没找到,就是给大家看看数据格式。(1)把数据转换成距平的。(2)计算X与其转置矩阵XT的交叉积,得到方阵:Cm×m原创 2020-10-18 22:10:08 · 2874 阅读 · 4 评论 -
机器学习实践笔记(一)KNN
主要是参考机器学习实践(作者peter harrington)优点:精度高,对异常值不敏感,无数据输入假定。缺点:计算复杂度、空间复杂度高适用数据:数值型和标称型个人理解:数据型是连续数据,标称型离散数据。KNN基本原理写了一段时间了,没人看就没更新以后的。有兴趣或者没基础可以看看。KNN的步骤1、导入数据import numpy as npimport operatordata =np.array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])labels原创 2020-10-13 11:19:21 · 401 阅读 · 1 评论