自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(38)
  • 收藏
  • 关注

转载 线性可分支持向量机(SVM)详细解析 | 统计学习方法学习笔记 | 数据分析 | 机器学习

本文包括:支持向量机简介 线性可分支持向量机模型的形式 函数间隔和几何间隔 间隔最大化问题(最大间隔法) 对偶算法 利用KKT求最优w和b 其它有关数据分析,机器学习的文章及社群1.支持向量机简介:支持向量机是一种二分类模型,与感知机类比,其相同之处在于它也是需要找到一个超平面对数据集进行分割,区别在于,感知机模型得到的超平面空间中可以有无穷个超平面,但支持向量机仅含有一个,这一个超平面与样本点的间隔是最大化的。支持向量机学习方法包含三种模型,其一为线性可分支持向量机,要求训练集线

2022-09-11 12:04:58 1024

转载 改进的迭代尺度法(IIS)详细解析 | 统计学习方法学习笔记 | 数据分析 | 机器学习

为了更好的理解,我们再看下标i还出现在权值和权值的更新值上,这说明实际上每一个特征函数fi(x, y)都对应了一个权值wi,对于一个特定的实例来说,如果它符合f1(x, y)的规则,那么权值w1就会作用在这个实例上,也就是说在预测或者分类的时候,模型会考虑f1(x, y)所代表的特征,如果该实例不符合f2(x, y),那么w2就不会作用在这个实例上,毕竟f2(x, y)=0,这样模型在预测或分类时,就不会考虑f2(x, y)所代表的特征,毕竟这个实例都没有这个特征,又为什么要去考虑它呢?

2022-09-03 13:32:47 353 1

转载 最大熵模型详细解析 | 统计学习方法学习笔记 | 数据分析 | 机器学习

本文包括:最大熵模型简介 最大熵的原理 最大熵模型的定义 最大熵模型的学习 其它有关数据分析,机器学习的文章及社群1.最大熵模型简介:最大熵原理认为,学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合,所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。离散随机变量X的概率分布是P(X),则其熵是:式中,|X|是X的取值个数,当且仅当X的分布是均匀分布时右边的等号成立。这就是说,当X服从均匀分布时,.

2022-05-31 09:24:10 935

转载 逻辑斯蒂回归详细解析 | 统计学习方法学习笔记 | 数据分析 | 机器学习

本文包括:重要概念 逻辑斯蒂回归和线性回归 二项逻辑斯谛回归模型 逻辑斯蒂回顾与几率 模型参数估计 多项逻辑斯谛回归 其它有关数据分析,机器学习的文章及社群1.重要概念:在正式介绍逻辑斯蒂回归模型之前,需要先对一些基本概念有所了解,如果明白这些概念可以直接跳过。分布函数和密度函数:对于一个连续型随机变量,密度函数是指该变量在其可取值范围内为一个特定值的概率,分布函数即在一个特定值和小于该特定值的范围内出现的概率,可以理解为密度函数的面积比率。用逻辑斯蒂分布举例来说(下图),.

2022-05-30 13:58:03 1033

转载 朴素贝叶斯(NBM)之后验概率最大化的含义 | 统计学习方法

朴素贝叶斯 - 贝叶斯估计Python复现:[舟晓南:朴素贝叶斯(Bayes)模型python复现 - 贝叶斯估计;下溢出问题]在《统计学习方法》一书中,详细说明了后验概率最大化与期望风险最小化之间的关系,深入地说明了后验概率最大化的含义,但其中的推导过程有所省略,这篇文章作为补充说明。后验概率最大化的含义:书中提到,朴素贝叶斯法将实例分到后验概率最大的类中,这等价于期望风险最小化。要明白什么是期望风险最小化,首先要明白什么是期望。期望是指某件事大量发生后的平均结果,反应了随机变量平

2022-05-26 16:58:11 635

转载 朴素贝叶斯模型(NBM)详细解读 | 统计学习方法学习笔记 | 数据分析 | 机器学习

本文包括:走近朴素贝叶斯 - 上帝到底掷不掷骰子 重要概念 贝叶斯公式的一般形式 朴素贝叶斯的基本方法 贝叶斯估计 其它有关数据分析,机器学习的文章及社群朴素贝叶斯 - 贝叶斯估计Python复现:舟晓南:朴素贝叶斯(Bayes)模型python复现 - 贝叶斯估计;下溢出问题1.走近朴素贝叶斯 - 上帝到底掷不掷骰子:上帝到底掷不掷骰子,这个问题精准地概括了相对论和量子力学之间的矛盾,即我们这个世界到底是决定的,还是概率的。上帝掷骰子吗?在我们的生活中,概率的思想实

2022-05-23 11:56:22 3200

转载 k近邻(KNN)模型详细解读 | 统计学习方法学习笔记 | 数据分析 | 机器学习

人是群居动物,这不仅是因为整个社会运转需要各种各样的人才进行劳动分工和资源交换,还因为人本性上需要认同感,不仅是身份认同,还希望对他的行事风格的,性格的,爱好的,外表的等等方面的认同。

2022-04-26 18:25:33 1904

转载 感知机模型(Perceptron)的收敛性解读 | 统计学习方法 | 机器学习

在《统计学习方法》的感知机算法章节中,作者提出了一个问题,即如何证明一个线性可分的数据集,可以在有限次的迭代后得到这个分离超平面。我们称在有限次迭代后获得分离超平面的性质为感知机算法的收敛性。对于一个线性不可分的数据集,感知机模型将进入无法收敛的状态,即无法获得一个可以将所有实例正确分类的分离超平面,而是在迭代过程中进入震荡。

2022-04-23 14:01:51 777

转载 感知机模型(Perceptron)详细解读 | 统计学习方法学习笔记 | 数据分析 | 机器学习

感知机模型(Perceptron)详细解读 | 统计学习方法学习笔记 | 数据分析 | 机器学习

2022-04-21 10:03:38 1088

原创 查询优化:MySQL索引及其使用技巧 | 数据分析学习历程全记录

本文包含以下内容:数据分析师为什么要了解索引什么是索引索引的优势和劣势索引的分类索引的设计原则复合索引数据分析师为什么要了解索引:数据分析师的工作是对数据进行处理和分析,其第一步便是从数据库中查询想要的数据,对于很多人来说,这一步看起来并不是特别重要。但事实上一个好的数据分析师需要知道如何优化自己的查询效率,特别是对于巨量数据而言,一个经过优化的查询语句可以节省大量的资源和时间。由此可见,虽然数据分析师并不会对索引本身进行直接操作,但是在查询时会直接使用到索引,因此明白索引的概念及其

2020-08-26 12:40:59 141

原创 MySQL的执行逻辑和表的结构 | 数据分析学习历程全记录

该篇文章包含以下几部分:MySQL的执行逻辑表的结构MySQL的执行逻辑很多人在最初开始学习SQL语言时会产生一个误解,将SQL误认为就是MySQL,但事实上SQL是一种语言,而MySQL是数据库管理系统(DBMS),一种建立用户和数据库之间的联系的系统。因为MySQL技术成熟,经典且被广泛运用,因此很多课程中都是以MySQL为例子对SQL语言和DBMS的结构进行讲解,但并不代表所有的DBMS的结构都相同,但其框架不会有很大的差别。下图是从MySQL官网中下载的图片,展示了MySQL的运行逻

2020-08-25 15:56:30 278

原创 转行数据分析师如何开始学习SQL | 工科生三个月转行数据分析学习心得

本文包含以下内容:什么是SQL及相关概念数据分析师学习SQL的哪些部分学习资源推荐练习网站推荐什么是SQL及相关概念在了解SQL之前,先思考一个问题:当我们在浏览网页的时候,页面中的信息,或者说“数据”,来自于哪里?答案就是页面中的数据来自于公司的数据库。对于用户来说,其看到的是网页中显示的信息,比如某品牌某型号手机的价格是3999元,页面的感官非常具有设计感,不同的颜色不同的字体以及不同的手机图片,让人忍不住剁手的欲望。而对于数据分析师而言,从公司的数据库中提取的数据的展现形式,是

2020-08-25 15:51:42 337

原创 求职数据分析师岗位,简历应该如何写?|工科生三个月成功转行数据分析心得浅谈

我是一个从本科到研究生一直在读材料工程的学生,用了大约3个月的时间成功转行,想要谈一谈学习心得本篇是关于简历的。以下心得是以我的个人经历总结而来,仅供参考。本文分为以下几个方面:一.转行前情况二.目前情况三.简历的通用注重点四.细化到数据分析师,简历中应该注意什么五.其他关于数据分析的转行文章之所以写下转行前情况和目前情况,是让大家可以与自己的情况做一个对比,方便之后计划的制订。一. 在开始学习数据分析之前,我的情况是:国内某211大学本科,学习材料工程,在这个阶段打下了高数和线性代数

2020-05-31 16:55:39 3377 1

原创 如何转行和学习数据分析 | 工科生三个月成功转行数据分析心得浅谈

我是一个从本科到研究生一直在读材料工程的学生,用了大约3个月的时间成功转行,想要谈一谈学习心得。以下心得只是以我的个人经历总结而来,仅供参考。本文分为以下几个方面:1. 转行前情况2. 学习过程大致情况3. 数据分析岗位介绍4. 硬技能学习5. 简历和面试技巧一. 在开始学习数据分析之前,我的情况是:国内某211大学本科,学习材料工程,在这个阶段打下了高数和线性代数的底子。国外...

2020-05-04 13:27:39 971

原创 数据分析统计学原理第十四章:简单线性回归 | 我的统计学原理复习日记

因变量( dependent variable):被预测的变量自变量( independent variable):用来预测因变量值的一个或多个变量简单线性回归( simple linear regression):包括一个自变量和一个因变量,二者之间的关系可以用一条直线近似表示。回归模型( regression model):描述y如何依赖于x和误差项的方程描述y的期望值E(y)如何依...

2020-05-04 12:31:16 1556

原创 数据分析统计学原理第十三章:实验设计与方差分析 | 我的统计学原理复习日记

统计研究可以分为实验性研究与观测性研究两类。在实验性统计研究中,数据是通过实验产生的。一项实验首先要从确定一个我们感兴趣的变量开始。然后确定并控制一个或多个其他变量,这些其他变量与我们感兴趣的变量是相关的;与此同时,收集这些变量如何影响我们感兴趣的那一个变量的数据。在观测性研究中,我们经常是通过抽样调查,而不是控制一项实验来获取数据。一些好的设计原则仍然会得到使用,但严格控制一项实验性统计研究往...

2020-04-19 15:34:25 2271

原创 数据分析统计学原理第十二章:多个比例的比较、独立性及拟合优度检验 | 我的统计学原理复习日记

个或多个总体比例的相等性的检验例子:三个或多个总体比例相等性的卡方检验的一般步骤多重比较方法我们使用卡方检验得到三个汽车车主总体的总体比例不全相等的结论。因此,有些总体比例之间存在差异,而且研究表明雪佛兰羚羊、福特 Fusion和本田雅阁车主中顾客品牌忠诚度不全相同。为了说明总体比例之间存在的差异,我们先计算三个样本比例。由于卡方检验表明总体比例不全相等,因此,我们尝试性地确定哪...

2020-04-18 17:17:28 6383

原创 数据分析统计学原理第十一章:总体方差的统计推断 | 我的统计学原理复习日记

一个总体方差的统计推断样本方差是总体方差的点估计区间估计利用卡方分布建立总体方差的置信区间估计根据下式可以得到区间估计上式可转变为则总体方差的区间估计式为假设检验例子:汇总两个总体方差的统计推断在一些统计应用中,我们可能想比较两个不同生产工序生产出来的产品质量的方差、两种不同装配方法所需装配时间的方差或者两种加热装置温度的方差。例子:汇总...

2020-04-15 11:03:01 503 1

原创 数据分析统计学原理第十章:两总体均值和比例的推断 | 我的统计学原理复习日记

两总体均值之差的推断:总体标准差1和2已知的情况为了进行有关差异的统计推断,我们从总体1中抽取一个容量为n1的简单随机样本,从总体2中抽取另一个容量为n2的简单随机样本。由于这两个样本是相互独立抽取的,因此被称为独立简单随机样本( independent simple random samples)总体平均值之差的区间估计两个总体均值之差的点估计量总体均值之差的假设检验两总体均值之...

2020-04-14 10:46:36 1526

原创 数据分析统计学原理第九章:假设检验 | 我的统计学原理复习日记

假设检验是一种在统计推断中来确定是否应拒绝关于总体参数值的方法。在假设检验中,我们首先对总体参数做一个尝试性的假设,该尝试性的假设被称为原假设( null ypothesis),记作H0,然后,定义另一个与原假设的内容完全对立的假设,称之为备择假设( alternative hypothesis),记作Ha,假设检验的过程就是根据样本数据对这两个对立的假设H0和Ha进行检验。假设的选择将研...

2020-04-13 16:23:21 1996 1

原创 数据分析统计学原理第八章:区间估计 | 我的统计学原理复习日记

我们发现点估计量是用于估计总体参数的样本统计量。例如,样本均值是总体均值的点估计量,样本比率是总体比率的点估计量。因为我们不可能期望点估计量能给出总体参数的精确值,所以经常在点估计上加减一个被称为边际误差( marginal of error)的值来计算区间估计( interval estimate)。区间估计的一般形式如下:总体均值的区间估计:总体标准差已知情形计算样本的标准差需要95...

2020-04-11 14:18:22 3414

原创 数据分析统计学原理第七章:抽样和抽样分布 | 我的统计学原理复习日记

我们选取样本是为了收集推断所需的数据,并且回答关于总体的研究问题。抽样结果提供的仅仅是相应总体特征值的估计。样本只包含了总体的一部分,可以预见会有抽样误差。抽样总体( sampled population):从中抽取样本的总体抽样框( frame):用于抽选样本的个体清单从有限总体的抽样在从有限总体抽样时,统计学家建议采用概率抽样,因为基于概率抽样的样本可以对总体进行有效的统计推断。若...

2020-04-09 11:41:35 3168

原创 数据分析统计学原理第六章:连续型概率分布 | 我的统计学原理复习日记

离散型随机变量和连续型随机变量之间最根本的区别在于,二者在概率计算上是不同的。对一个离散型随机变量,概率函数f(x)给出了随机变量x取某个特定值的概率。而对连续型随机变量,与概率函数相对应的是概率密度函数( probability density function),也记作f(x).不同的是,概率密度函数并没有直接给出概率。但是,给定区间上曲线f(x)下的面积是连续型随机变量在该区间取值的概率。因...

2020-04-08 14:51:20 1491

原创 数据分析统计学原理第五章:离散型概率分布 | 我的统计学原理复习日记

随机变量(random variable):对试验结果的数值描述实际上,随机变量将每一个可能出现的试验结果赋予一个数值,随机变量的值取决于试验结果。随机变量根据取值可分为离散型或连续型。离散型随机变量(discrete random variable):随机变量为离散的连续型随机变量(continuous random variable):随机变量为某一区间或多个区间内的任意值对于离散...

2020-04-07 19:49:05 1226

原创 数据分析统计学原理第四章:概率基础 | 我的统计学原理复习日记

概率(probability):对事件发生的可能性的数值度量随机试验(random expriment):随机试验是一个过程,它所产生的试验结果是完全确定的,在每一次重复或者试验中,出现哪种结果完全由偶然性来决定样本空间(sample space):随机试验的样本空间是试验所有结果组成的一个集合掷色子的样本空间:样本点(sample point):一种特定的试验结果多步骤试验(mult...

2020-04-07 17:20:52 992

原创 数据分析统计学原理第三章:数值方法 | 我的统计学原理复习日记

样本统计量(sample statistics):数据来自样本的计算的度量总体参数(population parameters):数据来自总体的计算的度量点估计量(point estimator):总体参数的样本统计量平均数(mean)样本平均数总体平均数平均数容易受极端值的影响加权平均数(weighted mean)例子:中位数(median):对变量中心位置的一种度量...

2020-04-07 15:42:43 1401

原创 数据分析统计学原理第一章:频数统计 | 我的统计学原理复习日记

频数分布(frequency distribution):在几个互不重叠的组别中,每一组项目的个数相对频数分布(relative frequency distribution)百分数频数分布(percent frequency distribution)条形图(bar chart)饼图(pie chart)对数量型数据的频数分布步骤:1. 确定互不重叠组的组数2. 确定每组的宽度...

2020-04-07 11:43:48 7068

原创 数据分析统计学原理第一章:基本概念 | 我的统计学原理复习日记

个体(element):搜集数据的实体变量(variable):个体中所感兴趣的特征测量值:每个个体的每一变量的值观测值(observation):某一个体得到的测量值集合名义尺度(nominal scale):无顺序无等级,比如:成员,非成员顺序尺度(ordinal scale):有顺序有等级意义,数据的间隔无意义,比如:A级,B级间隔尺度(interval scale):具有顺序数...

2020-04-07 10:06:55 1817

原创 sqlzoo use null 题目及答案

List the teachers who have NULL for their department.select namefrom teacherwhere dept is nullNote the INNER JOIN misses the teachers with no department and the departments with no teacher.S...

2020-03-28 16:57:42 242

原创 sqlzoo more join 题目及答案

List the films where the yr is 1962 [Show id, title]SELECT id, title FROM movie WHERE yr=1962Give year of ‘Citizen Kane’.select yrfrom moviewhere title = 'Citizen Kane'List all of the S...

2020-03-28 16:53:21 404

原创 sqlzoo join 题目及答案

The first example shows the goal scored by a player with the last name ‘Bender’. The * says to list all the columns in the table - a shorter way of saying matchid, teamid, player, gtimeModify it to ...

2020-03-28 16:41:31 628

原创 sqlzoo sum and count 题目及答案

Show the total population of the world.SELECT SUM(population)FROM worldList all the continents - just once each.select distinct continentfrom worldGive the total GDP of Africaselect sum...

2020-03-28 16:33:05 335

原创 sqlzoo self join 题目及答案

How many stops are in the database.select count(*)from stopsFind the id value for the stop ‘Craiglockhart’select idfrom stopswhere name = 'Craiglockhart'Give the id and the name for the ...

2020-03-28 16:27:53 456 1

原创 sqlzoo select in select 题目及答案

List each country name where the population is larger than that of ‘Russia’.select namefrom worldwhere population > ( select population from world where name = 'Russia');Show the count...

2020-03-28 16:23:24 636

原创 sqlzoo select from world 题目及答案

Read the notes about this table. Observe the result of running this SQL command to show the name, continent and population of all countries.SELECT name, continent, population FROM world;How to ...

2020-03-28 16:18:38 631

原创 sqlzoo select from nobel 题目及答案

Change the query shown so that it displays Nobel prizes for 1950.SELECT yr, subject, winnerFROM nobelWHERE yr = 1950;Show who won the 1962 prize for Literature.SELECT winnerFROM nobelWHERE...

2020-03-28 16:15:42 537

原创 sqlzoo select basics 题目及答案

The example uses a WHERE clause to show the population of ‘France’. Note that strings (pieces of text that are data) should be in ‘single quotes’;Modify it to show the population of GermanySELECT ...

2020-03-28 16:10:23 195

原创 sqlzoo self join 最后一题

原题:Find the routes involving two buses that can go from Craiglockhart to Lochend.Show the bus no. and company for the first bus, the name of the stop for the transfer,and the bus no. and company fo...

2020-03-27 20:49:13 310

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除