松阁~-CSDN博客

统计学习方法chapter2感知机模型概述感知机是二分类的线性分类模型，输入为实例的特征向量，输出为实例的类别，取+1和-1两类值。感知机是典型的判别模型，通过感知机所学习到的分离超平面将训练数据进行线性划分。我们基于误分类的损失函数，利用常见的优化方法即梯度下降法对损失函数进行极小化，进而求出我们的感知机模型，感知机中的分类超平面和支持向量机中的最大间隔超平面类似；而且感知机模型后续发展到神经网络中的基础神经元。...

2020-10-02 20:25:00 140

原创 Python学习（一）

Python学习（一）异常处理当程序中存在bug而引发对应的异常时，异常处理程序将会被启动，从而恢复程序的正常运行。Python标准异常总结BaseException：所有异常的基类Exception：常规异常的基类StandardError：所有的内建标准异常的基类ArithmeticError：所有数值计算异常的基类FloatingPointError：浮点计算异常OverflowError：数值运算超出最大限制ZeroDivisionError：除数为零AssertionE

2020-09-07 13:49:43 150

原创 Learning Spark（Ⅰ）

Part 1spark概述spark是基于内存的计算框架，可以帮助我们构建大型的，低延迟的数据分析应用程序spark的几个特点1.运行速度快。基于内存的计算，经常在内存中读写数据；有向无环图的执行引擎可以进行优化2.容易使用。可支持多种开发语言，Java，python，scala，R3.通用性SQL查询：Spark SQL流式计算：Spark Streaming机器学习：Spark MLib图算法组件：Spark的GraphX4.运行模式多样spark操作类型更多，表达能力更强（相较

2020-09-04 01:18:23 430

原创统计学习方法chapter1

统计学习方法chapter1统计学习概述对象 object统计学习的对象为数据，从数据出发，提取数据的特征（特征工程），抽象出数据的模型（建立模型），发现数据中的知识，又回到对数据的分析与预测中去（回归/分类）用途 purpose用于对数据的预测与分析方法 method统计学习的方法是基于数据构建概率统计模型从而对数据进行预测和分析（即整合对象和用途），统计学习主要由监督学习，无监督学习，半监督学习，强化学习等组成。术语 onym模型：从输入到输出的映射假设空间：模型的集合概率模型：

2020-09-04 00:57:29 200

原创 (NO.1)利用sklearn进行鸢尾花分类

文章目录利用sklearn进行鸢尾花分类preheat联库版本查询practicesummary利用sklearn进行鸢尾花分类preheat联库sklearn是基于Numpy和Scipy的机器学习库，在利用sklearn进行实际应用时常会和以下的几个库联合使用Numpy:是Python中用于科学计算的基础包之一。在sklearn中，numpy数组是基本的数据结构(类似的有DataFrame)，numpy的核心功能是ndarray类，即多维数组/张量，注意：scikit-learn的输入数据必须

2020-09-01 00:37:21 6936

原创 Summary of learning data analysis（四）

Summary of learning data analysis（四）数据可视化在进行数据可视化时，经常会使用到两个可视化库，seaborn库和matplotlib库difference&connectionseaborn库使用matplotlib库作为底层，正如某位大牛所言“matplotlib试着让表达简单的事情更加简单，表达困难的事情变得可能，那么seaborn就是让表达困难的事情变得简单”，使用matplotlib库最大的困难是其默认的各种参数，而seaborn则避免这个问题。简而

2020-08-25 22:30:03 402

原创 Summary of learning data analysis（三）

Summary of learning data analysis（三）本次学习内容主要涉及利用一些方法如concat方法进行数据合并以及利用groupby进行分组统计，关于concat等合并方法在《利用Python进行数据分析(第二版)》中已做详细说明，其中的学习注释便不再搬运到此处，至于groupby函数的基本使用，与SQL语句中的groupby类似，不再赘述。本次博文仅贴写一些代码。## 导入基本库import pandas as pdimport numpy as np## 数据加载t

2020-08-23 17:02:36 225

原创 Learning machine learning algorithm(二)

Machine Learning——decision treePrinciple决策树(decision tree)：是一种基本的分类和回归方法，在分类问题中，表示基于特征对数据进行分类的过程，可以认为是if-then的集合，也可以认为是定义在特征空间与类空间上的条件概率分布。直观说明决策树，顾名思义，树为形，决策为本。事实上，其原理类似于问答猜测结果，根据一系列问题，进行猜测最终得到正确答案。上图表示一个决策树流程，正方形代表判断模块，椭圆（即叶子节点）代表终止模块，表示已经得出结果，可以终止

2020-08-22 17:59:35 354

原创 Summary of learning data analysis（二）

Summary of learning data analysis（二）数据清洗及特征处理1.缺失值观察与处理##缺失值观察df.isnull.sum() #查看每个特征缺失值的个数#df.isnull().mean() #查看每个特征下缺失值所占比例#df.info()##缺失值处理##常用dropna()和fillna()两函数df_drop = df.dropna(subset=['Age']) #subset: 对特定的列进行缺失值删除处理##向下填充d

2020-08-21 17:50:53 277

原创 Learning machine learning algorithm(一)

Machine Learning——logistic regressionProblem 1：如何理解coef_和intercept_两个模型参数Solution 1：对于线性回归和逻辑回归，其目标函数为：f(x) =w0+w1x1+wxx2+…如果有激活函数sigmoid，增加非线性变化，则为分类即逻辑回归；如果没有激活函数，则为线性回归。而对于coef_和intercept两个模型参数，常做如下用法lr = LogisticRegression()lr.coef_ #除w0外的其

2020-08-20 05:34:21 560

原创 Summary of learning data analysis（一）

Summary of learning data analysis（一）Problem 1:如何解决read_csv()和read_table()两函数读取csv格式文件造成的差异？solution 1:首先需要了解csv格式文件的特点：csv(Comma-Separated Values)文件是一种逗号分隔值的文件,而read_csv()函数读取以’,‘分割的文件到dataframe(以下简称df),read_table()函数读取以’/t’(即tab)分割的文件到df，两个函数的主要差别在于分隔符默

2020-08-19 05:02:14 268

松阁

原创必知前置知识

原创统计学习方法chapter2