自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 【无标题】

第三章 建模与模型评价第一节建模使用泰坦尼克号的数据集,完成泰坦尼克号存活预测的任务#第一步导入包import pandas as pd import numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom IPython.display import Imageimport os%matplotlib inline #matplotlib inline是IPython的魔法函数,可以在IPython

2022-03-25 00:59:55 2137

原创 第二章:数据清洗及特征处理

数据清洗与特征处理

2022-03-17 22:57:40 1424

原创 第一章:数据载入及初步观察

数据处理

2022-03-16 02:15:25 248

原创 数据分析-学术前沿趋势分析-论⽂数据统计

数据分析-学术前沿趋势分析任务1:论文数据统计任务说明任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量;任务内容:赛题的理解、使用 Pandas 读取数据并进行统计;任务成果:学习 Pandas 的基础操作;具体代码实现导入需要的python包#导入包import pandas as pd #数据处理,数据分析import matplotlib.pyplot as plt #画图工具import seaborn as sns #画图工具from bs4 import

2021-01-14 01:03:09 210

原创 函数与Lambda表达式

2020-08-03 01:31:09 88

原创 字典、集合和序列

2020-08-01 03:17:53 118

原创 列表

2020-07-29 02:09:23 91

原创 python之异常处理

感谢datawhale组织

2020-07-25 22:51:03 70

原创 条件循环结构

感谢datawhale组织提供的组队学习机会。

2020-07-23 18:41:09 109 1

原创 Python中变量、运算符、数据类型和位运算

感谢datawhale组织

2020-07-22 18:40:24 77

原创 方差分析

感谢datawhale组织

2020-06-30 22:41:15 172

原创 常见分布与假设检验

2020-06-27 22:26:44 367

原创 数理统计与描述性分析

感谢datawhale组织

2020-06-24 21:53:23 119

原创 随机事件和随机变量

第一部分1、随机现象:在一定条件下,一件事件,所得的结果不能预先完全确定,而只能确定是多种可能结果中的一种。2、随机试验:实现随机现象的过程,记为E。3、随机试验满足三个条件:(1)可以在相同条件下重复进行;(2)结果有多种可能性,并且所有可能结果事先已知;(3)作一次试验究竟哪个结果出现,事先不能确定。4、样本空间:随机试验的所有可能结果组成的集合。记为Ω5、样本点:试验的每一个可能结果。记为ω6、随机事件:样本空间Ω中满足一定条件的子集。用大写字母A,B,C…表示。PS:随机事件在随机

2020-06-22 20:07:06 2549

原创 深度学习基础

感谢伯禹教育、Datawhale组织的活动一、线性回归(1)模型为了简单起见,这里我们假设价格只取决于房屋状况的两个因素,即面积(平方米)和房龄(年)。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系:(2)数据集我们通常收集一系列的真实数据,例如多栋房屋的真实售出价格和它们对应的面积和房龄。我们希望在这个数据上面寻找模型参数来使模型的预测价格与真...

2020-02-14 18:35:25 120

原创 机器学习碎碎念之朴素贝叶斯

1、 相关概念生成模型:在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。常见的基于生成模型算法有高斯混合模型和其他混合模型、隐马尔可...

2020-01-21 20:46:06 230

原创 机器学习碎碎念之聚类

1、聚类是一种无监督学习的方法。思想:物以类聚。按照某一个特定的标准(比如距离),把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不再同一个簇内的数据对象的差异性也尽可能的大。2、理论上,同一组中的数据点应该具有相似的属性和/或特征,而不同组中的数据点应该具有高度不同的属性和/或特征。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。3、性能度量...

2020-01-18 16:51:53 206

原创 机器学习碎碎念之决策树

1、决策树是一种基本的分类与回归方法。三大步:特征选择、决策树的生成、决策树的修剪。2、生成决策树的过程也是特征选择的过程,即:选择哪个特征作为树的分割点。它遵循if-then条件,我也整不明白的说法是在特征空间与类空间上的条件概率分布。3、决策树中有两种结点:叶子结点和非叶子节点,其中叶子结点代表条件,非叶子节点代表所属类别。4、信息熵越小,数据的稳定性越好,机器学习得到的结果越准确。信息...

2020-01-18 16:20:10 164

原创 机器学习碎碎念之逻辑回归

1、逻辑回归要做的事情:取出最大概率对应的类别,将数据二分类。2、逻辑回归做事的流程:逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。包含逻辑回归的假设、逻辑回归的损失函数、逻辑回归的求解方法、逻辑回归的目的、逻辑回归如何分类。3、逻辑回归的原理:通过划定一个阈值,y值大于这个阈值的是一类,y值小于这个阈值的是另外一类。4、任何模...

2020-01-13 17:50:42 196

原创 机器学习碎碎念之线性回归

1、线性回归的字面解释线性:输入和输出变量之间的关系为一次方函数,即在空间上是一条直线。回归:在模型(函数、关系式、映射关系等)中输入数据,输出的结果是连续的值,这个过程叫回归。ps:回归是典型的监督学习。线性回归:在N维空间中使用直线方程拟合数据的过程。2、损失函数线性回归的过程是拟合空间的点使之成为一条直线。一千个人有一千种拟合的方式,需要评判的标准。最常用的损失函数形式如下:我...

2020-01-10 23:51:58 137

原创 机器学习的碎碎念之概述

1、Arthur Samul (1956)提出机器学习的概念:Field of study that gives computers the ability to learn without being explicitly programmed2、机器学习不是一个特定的算法,而是很多算法的总称,它让计算机在数据中学习进而预测。常见的算法有线性回归、支持向量机、决策树、随机森林、GBDT、...

2020-01-09 23:05:42 203

原创 Rstudio中修改工作路径的三种方法

Rstudio中修改工作路径的三种方法使用setwd()函数作用:起到临时更改路径的作用,只对当前的Rstudio窗口有效。一旦窗口关闭,又会回到默认路径下。getwd()函数是获取当前路径的函数。global options设置(如图所示)首先在tools菜单栏下,点击global options选项然后在default working directory 中可以修改默认工作...

2019-01-13 21:07:35 24992

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除