机器学习
weixin_45664706
这个作者很懒,什么都没留下…
展开
-
Python中独热编码与虚拟变量
**1、pandas内置函数虚拟变量(dummy variables)**虚拟变量,也叫哑变量和离散特征编码,可用来表示分类变量、非数量因素可能产生的影响。① 离散特征的取值之间有大小的意义例如:尺寸(L、XL、XXL)离散特征的取值有大小意义的处理函数mappandas.Series.map(dict)参数 dict:映射的字典② 离散特征的取值之间没有大小的意义pandas...原创 2020-03-24 08:56:40 · 913 阅读 · 0 评论 -
数据属性的相关性——三大相关系数(pearson, spearman, kendall)
数据属性的相关性——三大相关系数(pearson, spearman, kendall)统计学中的三大相关性系数:pearson, spearman, kendall,他们反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1。0表示两个变量不相关,正值表示正相关,负值表示负相关,值越大表示相关性越强。person correlation coefficient(皮尔森相关性...原创 2020-03-11 14:30:02 · 9023 阅读 · 0 评论 -
centos安装anaconda
1、安装wget登录centos,Xshell登录,安装wgetyum install -y wget2、获取anaconda最新版地址https://www.anaconda.com/distribution/地址为:wget https://repo.anaconda.com/archive/Anaconda3-2019.10-Linux-x86_64.sh3、安装bas...原创 2020-03-11 09:53:13 · 181 阅读 · 0 评论 -
机器学习 - 统计学中的均值、方差、标准差
统计学里最基本的概念就是样本的均值、方差、标准差。首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述:均值:方差:标准差:均值描述的是样本集合的中间点,它告诉我们的信息是有限的。方差(variance)是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是各个数据分别与其平均数...转载 2020-03-04 14:02:30 · 795 阅读 · 0 评论 -
Python中的随机种子——random_state
random_state是一个随机种子,是在任意带有随机性的类或函数里作为参数来控制随机模式。当random_state取某一个值时,也就确定了一种规则。random_state可以用于很多函数,我比较熟悉的是用于以下三个地方:1、训练集测试集的划分 2、构建决策树 3、构建随机森林1、划分训练集和测试集的类train_test_splitX_train,X_test, y_train, y...原创 2020-03-04 12:43:42 · 1043 阅读 · 0 评论