机器学习实战
XB_please
谢谢
展开
-
机器学习——逻辑回归常见面试题整理
逻辑回归1.介绍逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯队下降来求解参数,来达到将数据二分类的目的。2.逻辑回归的损失函数和梯度下降参数迭代方法逻辑回归的损失函数是它的极大似然函数参数迭代方法3.逻辑回归为什么使用对数损失而不用平方损失损失函数一般有四种,平方损失函数,对数损失函数,HingeLoss0-1损失函数,绝对值损失函数。将极大似然函数取对数以后等同于对数损失函数。在逻辑回归这个模型下,对数损失函数的训练求解参数的速度是比较快的。至于原因大家可原创 2020-11-22 21:32:54 · 2092 阅读 · 0 评论 -
树模型(1)——决策树常见面试题整理
决策树1.决策树的原理决策树是一种树结构,从根节点出发,每个分支都将训练数据划分成了互不相交的子集。分支的划分可以以单个特征为依据,也可以以特征的线性组合为依据。决策树可以解决回归和分类问题,在预测过程中,一个测试数据会依据已经训练好的决策树到达某一叶子节点,该叶子节点即为回归或分类问题的预测结果。从概率论的角度理解,决策树是定义在特征空间和类空间上的条件概率分布。每个父节点可以看作子树的先验分布,子树则为父节点在当前特征划分下的后验分布。2.信息增益和信息增益率的理解1)信息熵:信息熵用来度原创 2020-11-20 19:35:57 · 1181 阅读 · 0 评论 -
决策树案例学习(Python实现)
一、介绍决策树(Decision Tree)是有监督学习中的一种算法,并且是一种基本的分类与回归的方法。有分类树和回归树两种。决策树的算法本质是树形结构,我们可以把决策树看成是一个if-then规则的集合。将决策树转换成if-then规则的过程是这样的:由决策树的根节点到叶节点的每一条路径构建一条规则路径上中间节点的特征对应着规则的条件,叶节点的类标签对应着规则的结论决策树的路径或者...原创 2020-04-08 15:01:19 · 2325 阅读 · 0 评论 -
k-近邻算法案例学习(Python实现)
一、介绍k-近邻算法(K-Nearest Neighbour algorithm),又称KNN算法,是数据挖掘技术中原理最简单的算法。工作原理:给定一个已知标签类别的训练数据集,输入没有标签的新数据后,在训练数据集中找到与新数据最邻近的k个实例,如果这k个实例的多数属于某个类别,那么新数据就属于这个类别。简单理解为:由那些离X最近的k个点来投票决定X归为哪一类。二、k-近邻算法的步骤(1)...原创 2020-04-06 16:33:57 · 1036 阅读 · 3 评论 -
机器学习任务的一般流程及必要步骤
目录1.数据收集2.数据预处理与特征工程2.1 数据清理2.2 数据集成2.3 数据规约2.4 数据变换3.模型的选择与训练4.模型的评估与优化处理机器学习问题,通常分为以下几步:1 数据收集通常,我们拿到一个具体的领域问题后,可以使用网上一些具有代表性的、大众经常会用到的公开数据集。相较于自己整理的数据集,显然大众的数据集更具有代表性,数据处理的结果也更容易得到大家的认可...原创 2019-10-26 15:31:22 · 11775 阅读 · 0 评论 -
集成模型对泰坦尼克号乘客是否生还进行预测
import pandas as pd#利用pandas的read_csv模块直接从互联网收集泰坦尼克号乘客数据titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')#人工选取pclass,age,sex作为判别乘客是否生还的的特征x = titanic[[...原创 2019-05-29 17:02:45 · 348 阅读 · 0 评论 -
k近邻分类器之鸢尾花数据实战
读取iris数据集细节资料#导入iris数据加载器from sklearn.datasets import load_iris#使用加载器读取数据并存入变量irisiris = load_iris()#查验数据规模iris.data.shape(150, 4)#查看数据说明。print(iris.DESCR)… _iris_dataset:Iris plants dat...原创 2019-05-23 17:24:50 · 1067 阅读 · 0 评论 -
使用支持向量机分类处理器处理Scikit-learn内部集成的手写体数字图片数据集
手写体数据读取from sklearn.datasets import load_digits#从通过数据加载器获得手写体数字的数码图像数据并储存在digits变量中digits = load_digits()#检视数据规模和特征维度digits.data.shape(1797, 64)手写体数据分割代码样例from sklearn.model_selection import ...原创 2019-05-22 20:25:06 · 754 阅读 · 0 评论 -
机器学习实战之良/恶性乳腺癌肿瘤数据分析
良/恶性乳腺癌肿瘤数据预处理#导入numpy和pandas包import pandas as pdimport numpy as np#创建特征列表column_names = ['Sample code number','Clump Thickness','Uniformity of Cell Size','Uniformity of Cell Shape','Marginal Ad...原创 2019-05-21 16:06:29 · 7027 阅读 · 3 评论 -
决策树模型之泰坦尼克号乘客是否生还预测
泰坦尼克号乘客数据查验import pandas as pd#利用pandas的read_csv模块直接从互联网收集泰坦尼克号乘客数据titanic = pd.read_csv('http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt')#观察前几行数据,可以发现,数据种类各异,数值型,类别型,甚至还有缺失数据...原创 2019-05-24 19:33:18 · 935 阅读 · 0 评论