机器学习
文章平均质量分 75
许大博
这个作者很懒,什么都没留下…
展开
-
【无标题】
第三章 建模与模型评价第一节建模使用泰坦尼克号的数据集,完成泰坦尼克号存活预测的任务#第一步导入包import pandas as pd import numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom IPython.display import Imageimport os%matplotlib inline #matplotlib inline是IPython的魔法函数,可以在IPython原创 2022-03-25 00:59:55 · 2156 阅读 · 0 评论 -
第二章:数据清洗及特征处理
数据清洗与特征处理原创 2022-03-17 22:57:40 · 1469 阅读 · 0 评论 -
第一章:数据载入及初步观察
数据处理原创 2022-03-16 02:15:25 · 287 阅读 · 0 评论 -
数据分析-学术前沿趋势分析-论⽂数据统计
数据分析-学术前沿趋势分析任务1:论文数据统计任务说明任务主题:论文数量统计,即统计2019年全年计算机各个方向论文数量;任务内容:赛题的理解、使用 Pandas 读取数据并进行统计;任务成果:学习 Pandas 的基础操作;具体代码实现导入需要的python包#导入包import pandas as pd #数据处理,数据分析import matplotlib.pyplot as plt #画图工具import seaborn as sns #画图工具from bs4 import原创 2021-01-14 01:03:09 · 243 阅读 · 0 评论 -
函数与Lambda表达式
原创 2020-08-03 01:31:09 · 113 阅读 · 0 评论 -
字典、集合和序列
原创 2020-08-01 03:17:53 · 130 阅读 · 0 评论 -
列表
原创 2020-07-29 02:09:23 · 106 阅读 · 0 评论 -
python之异常处理
感谢datawhale组织原创 2020-07-25 22:51:03 · 80 阅读 · 0 评论 -
条件循环结构
感谢datawhale组织提供的组队学习机会。原创 2020-07-23 18:41:09 · 158 阅读 · 1 评论 -
Python中变量、运算符、数据类型和位运算
感谢datawhale组织原创 2020-07-22 18:40:24 · 105 阅读 · 0 评论 -
方差分析
感谢datawhale组织原创 2020-06-30 22:41:15 · 181 阅读 · 0 评论 -
常见分布与假设检验
原创 2020-06-27 22:26:44 · 401 阅读 · 0 评论 -
数理统计与描述性分析
感谢datawhale组织原创 2020-06-24 21:53:23 · 135 阅读 · 0 评论 -
随机事件和随机变量
第一部分1、随机现象:在一定条件下,一件事件,所得的结果不能预先完全确定,而只能确定是多种可能结果中的一种。2、随机试验:实现随机现象的过程,记为E。3、随机试验满足三个条件:(1)可以在相同条件下重复进行;(2)结果有多种可能性,并且所有可能结果事先已知;(3)作一次试验究竟哪个结果出现,事先不能确定。4、样本空间:随机试验的所有可能结果组成的集合。记为Ω5、样本点:试验的每一个可能结果。记为ω6、随机事件:样本空间Ω中满足一定条件的子集。用大写字母A,B,C…表示。PS:随机事件在随机原创 2020-06-22 20:07:06 · 2697 阅读 · 0 评论 -
深度学习基础
感谢伯禹教育、Datawhale组织的活动一、线性回归(1)模型为了简单起见,这里我们假设价格只取决于房屋状况的两个因素,即面积(平方米)和房龄(年)。接下来我们希望探索价格与这两个因素的具体关系。线性回归假设输出与各个输入之间是线性关系:(2)数据集我们通常收集一系列的真实数据,例如多栋房屋的真实售出价格和它们对应的面积和房龄。我们希望在这个数据上面寻找模型参数来使模型的预测价格与真...原创 2020-02-14 18:35:25 · 148 阅读 · 0 评论 -
机器学习碎碎念之朴素贝叶斯
1、 相关概念生成模型:在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。条件概率分布可以由生成模型根据贝叶斯定理形成。常见的基于生成模型算法有高斯混合模型和其他混合模型、隐马尔可...原创 2020-01-21 20:46:06 · 250 阅读 · 0 评论 -
机器学习碎碎念之聚类
1、聚类是一种无监督学习的方法。思想:物以类聚。按照某一个特定的标准(比如距离),把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不再同一个簇内的数据对象的差异性也尽可能的大。2、理论上,同一组中的数据点应该具有相似的属性和/或特征,而不同组中的数据点应该具有高度不同的属性和/或特征。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。3、性能度量...原创 2020-01-18 16:51:53 · 227 阅读 · 0 评论 -
机器学习碎碎念之决策树
1、决策树是一种基本的分类与回归方法。三大步:特征选择、决策树的生成、决策树的修剪。2、生成决策树的过程也是特征选择的过程,即:选择哪个特征作为树的分割点。它遵循if-then条件,我也整不明白的说法是在特征空间与类空间上的条件概率分布。3、决策树中有两种结点:叶子结点和非叶子节点,其中叶子结点代表条件,非叶子节点代表所属类别。4、信息熵越小,数据的稳定性越好,机器学习得到的结果越准确。信息...原创 2020-01-18 16:20:10 · 178 阅读 · 0 评论 -
机器学习碎碎念之逻辑回归
1、逻辑回归要做的事情:取出最大概率对应的类别,将数据二分类。2、逻辑回归做事的流程:逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。包含逻辑回归的假设、逻辑回归的损失函数、逻辑回归的求解方法、逻辑回归的目的、逻辑回归如何分类。3、逻辑回归的原理:通过划定一个阈值,y值大于这个阈值的是一类,y值小于这个阈值的是另外一类。4、任何模...原创 2020-01-13 17:50:42 · 225 阅读 · 0 评论 -
机器学习碎碎念之线性回归
1、线性回归的字面解释线性:输入和输出变量之间的关系为一次方函数,即在空间上是一条直线。回归:在模型(函数、关系式、映射关系等)中输入数据,输出的结果是连续的值,这个过程叫回归。ps:回归是典型的监督学习。线性回归:在N维空间中使用直线方程拟合数据的过程。2、损失函数线性回归的过程是拟合空间的点使之成为一条直线。一千个人有一千种拟合的方式,需要评判的标准。最常用的损失函数形式如下:我...原创 2020-01-10 23:51:58 · 165 阅读 · 0 评论 -
机器学习的碎碎念之概述
1、Arthur Samul (1956)提出机器学习的概念:Field of study that gives computers the ability to learn without being explicitly programmed2、机器学习不是一个特定的算法,而是很多算法的总称,它让计算机在数据中学习进而预测。常见的算法有线性回归、支持向量机、决策树、随机森林、GBDT、...原创 2020-01-09 23:05:42 · 239 阅读 · 0 评论