Foina数据分析狮-CSDN博客

原创 ModuleNotFoundError: No module named ‘xgboost‘ windows下初次安装xgboost

在打比赛的时候小伙伴遇到了，Import xgboost出现错误：ModuleNotFoundError: No module named 'xgboost'的问题。然后在anaconda prompt中安装也出现错误，我只能帮他远程解决了。现将解决问题的办法写下来，希望能帮助更多小伙伴。环境说明：anaconda。1. 检查python版本（1）win+R （2）输入 cmd，回车（3）python 即可查看python版本，我的python版本是3.72.下载python对应的x

2020-07-13 18:07:10 3720

原创假设检验（一）

1. 假设检验的基本原理1.1怎样提出假设假设检验对总体参数提出假设的基础上，利用样本信息来判断假设是否成立的统计方法。原假设/零假设研究者想收集证据予以推翻的假设，用Ho表示。等号总是放在原假设上。原假设表达的含义：参数没有变化、变量之间没有关系或总体分布与某一理论分布无差异。备择假设研究者想收集证据予以支持的假设，用H1表示。备择假设表达含义：总体参数发生变化、变量之间有某种关系或总体分布与某一理论分布有差异。双侧检验/双尾检验如果备择假...

2020-06-10 22:39:16 1852

原创区间估计——置信区间

1. 区间估计1.1 区间估计总体参数估计的一个区间，确信该区间将参数值纳入其中。区间估计的形式：点估计±边际误差1.2 置信区间区间估计中，由样本估计量构造出的总体参数在一定置信水平下的估计区间。区间的最小值是置信下限，区间的最大值是置信上限。1.3 置信水平/置信度/置信系数假定抽取100个样本，构造100个置信区间，这100个置信区间中有95%的区间包含了总体参数的真值，5%没包含，95%被称为置信水平。如果将构造置信区间的步骤重复多次，置信区间中包含总体参数真

2020-06-09 19:28:43 8801 1

原创抽样与抽样分布——中心极限定理、点估计

1. 抽样1.1简单随机样本从容量为N的总体中，抽取一个容量为n的样本，如果容量为n的样本中，每一个可能的样本都以相等的概率被抽取，那么该样本为简单随机样本。1.2随机样本从一个无限总体中抽取一个容量为n的样本，如果满足：（1）每个抽取的个体都来自同一个总体；（2）每个个体的抽取都是独立的。则该样本是一个随机样本。2.点估计2.1参数总体的数字特征记为参数。例如总体均值、标准差、比率。2.2样本统计量为了估计总体参数，计算相应的样本特征-----样本统计量。例如...

2020-06-08 21:11:58 5025 1

原创掌握excel这个技巧，让你的工作事半功倍（三）

前两期共给大家分享6个操作小技巧。这一期我再来分享几个快速选中区域的技巧：a.选中全部数据b.选中任意区域的数据c.选中整列数据d.ctr+shift+向下箭头选中区域e.按条件选中数据快速选中数据区域a：选中全部数据鼠标放置在数据区域的任意单元格上，然后按下Ctrl+A，即可快速选中整个数据区域。b：选中任意区域的数据很多时候，我们是想要选中想要的一部分数据，该怎么办呢？方法1）按住鼠标左键拖拽法当数据量小的情况下，拖拽鼠标是最方便的操作。.

2020-06-07 22:06:22 227

原创掌握excel这三个技巧，让你的工作事半功倍（二）

上一期讲了复制副本、重排窗口、交换列，这三个技巧，这一期还是讲三个小技巧，喜欢的话分享给朋友，点右下角看一看的小花花~1.调整宽度：单选、多选2.快速到达表格最下、最上3.冻结首行1.调整宽度几年前我还是个职场新人的时候，同事看我处理一份excel数据，我调整宽度的时候，是这样的：然后我就被他鄙视了，他说这样调整，什么时候才能调整到适当的宽度，然后他教我一个方法：将鼠标放在要调整的列的行号右边，鼠标变成带有横向双箭头的十字架形状，然后双击，就可以把表格调整到该列最宽.

2020-06-07 22:00:55 440

原创掌握excel这三个技巧，让你的工作事半功倍（一）

在数据分析师的日常工作中，我们会经常处理excel表格，这一期我来分享几个我工作中经常使用的小技巧，掌握这几个技巧，可以让你节省很多时间。1.复制副本2.重排窗口3.交换列1.复制副本拿到一个任务，要处理招聘网站的数据。可以选择复制该文件再粘贴，在新的文件里进行处理，但是往往需要做数据比对或者要求新处理的数据和原始数据在一个文件。那么你需要这样的技巧：右键点击sheet名字--单击移动或复制--勾选建立副本--移至最后，出现的副本中右键重命名修改名称2.重排窗口

2020-06-07 21:57:22 394

原创浅谈数据分析流程和思路

一、流程1、为什么分析？首先，你得知道为什么分析？弄清楚此次数据分析的目的,避免不符合目标反复返工。2、分析目标是谁？确定好分析维度和指标。3、想达到什么效果？通过分析各个维度，找到真正的问题。4、需要哪些数据？涉及的数据，很多，需要哪些源数据？例如采购，采购总额？零部件行业竞争度？货款周期？采购频次？库存备货数？客户地域因子？客户规模？等等列一个表。5、如何采集？还是拿采购举例：数据库中供应商信息采集,平时供应商各种信息录入,产品特性录入等。6、如何整理？e

2020-06-03 21:36:29 834

原创天池二手车交易价格预测--赛题理解与数据探索性分析

一、赛题理解1.1赛题概述赛题以预测二手车的交易价格为任务，该数据来自某交易平台的二手车交易记录，总数据量超过40w，包含31列变量信息，其中15列为匿名变量。具体的数据表如下：SaleID - 销售样本IDname - 汽车编码regDate - 汽车注册时间model - 车型编码brand - 品牌bodyType - 车身类型fuelType - 燃油类型gearbo...

2020-03-24 21:15:59 624

原创描述性统计

数据分布特征可以从以下三个方面来描述：数据的水平，反应数据的集中程度；数据的差异，反应数据的离散程度；数据的分布形状，反应数分布的偏态和峰态。1. 水平的度量描述数据水平的统计量：平均数、中位数、分位数、众数。1.1 平均数（均值）1.1.1 概念简单平均数样本数据 x1,...

2020-02-23 02:45:11 1815

原创 MySQL ifnull

ifnull用法

2020-02-18 20:16:59 192

原创 Mysql limit 和 offset

SQL Limit子句这篇文章讲的很好

2020-02-18 19:56:08 140

原创 SQL 按指定顺序排列

问题：table-------nobel(yr, subject, winner)找1984年的获奖者（winner），按照获奖项目(subject)升序排列，获奖项目一样的，按照获奖者升序排列，并且当获奖项目是Chemistry和Physics的放在后面，并升序排列。（该问题来源–学SQL语句特别好的网站sqlzoo：SELECT from Nobel Tutorial）查询语句：解...

2019-11-18 00:21:22 1503

原创贝叶斯网络

这篇讲的很清楚：贝叶斯网络

2019-11-12 23:19:08 264

原创朴素贝叶斯（二）模型、推导、拉普拉斯平滑

写给自己：快速过算法的话，朴素贝叶斯算法看1 朴素贝叶斯模型定义：基于贝叶斯定理和特征条件独立假设的分类方法。贝叶斯定理（可以参考我的上篇文章朴素贝叶斯（一）知识准备—条件概率、全概率、贝叶斯公式）条件独立假设—后面会介绍贝叶斯模型是通过训练集学习联合分布P（X,Y），从而进一步求解后验概率P（Y | X）贝叶斯模型是生成模型。下面我们先来看变量表示变量表示...

2019-11-12 22:33:03 569

原创朴素贝叶斯（一）知识准备---条件概率、全概率、贝叶斯公式

1 条件概率设A,B是两个事件，且P(B)>0,则在事件B发生的条件下，事件A发生的条件概率为：P(A∣B)=P(A,B)P(B)P(A|B)=\frac{P(A,B)}{P(B)}P(A∣B)=P(B)P(A,B) 一般说到条件概率这一概念的时候，事件A和事件B都是同一实验...

2019-11-11 23:19:57 977

原创机器学习中的评估方法

评估方法在实际任务中，我们希望得到的是泛化误差小的学习器，理想的解决方案是对模型的泛化误差进行评估，然后选择泛化误差最小的那个学习器。但是，泛化误差指的是模型在所有新样本上的适用能力，我们无法直接获得泛化误差。因此，通常我们采用一个测试集来测试学习器对新样本的判别能力，然后以测试集上的测试误差作为泛化误差的近似。显然：我们选取的测试集应尽可能与训练集互斥，下面用一个小故事来解释...

2019-10-15 13:51:58 451

原创机器学习中的性能度量

最常见的性能度量在回归任务中，即预测连续值的问题，最常用的性能度量是“均方误差”（mean squared error）,很多的经典算法都是采用了MSE作为评价函数：在分类任务中，即预测离散值的问题，最常用的是错误率和精度，错误率是分类错误的样本数占样本总数的比例，精度则是分类正确的样本数占样本总数的比例，易知：错误率+精度=1。 ...

2019-10-15 13:11:54 577

原创隐马尔可夫模型(2) 概率计算方法

1直接计算方法10.10的推导P(I∣λ)=P(i1,i2,...,iT∣λ)P(I|\lambda)=P(i_1,i_2,...,i_T|\lambda)P(I∣λ)=P(i1,i2,...,iT∣λ) =P(i1∣λ)∗P(i2∣i1,λ)∗P(i3,i4,...,iT∣λ)=P(i_1|\lambda)*P(i_2|i_1,\lambda)*P(i_3,i_4...

2019-08-14 17:57:18 657

原创隐马尔可夫模型(1)基本概念

1.隐马尔可夫模型基本概念1.1隐马尔可夫模型定义1.1.1基本概念状态序列(Y)：隐藏的马尔可夫链随机生成的状态序列，称为状态序列。观测序列(X)：每个状态生成一个观测，而由此产生的观测的随机序列，称为观测序列。马尔可夫模型:是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列，再由各个状态生成一个观测而产生观测随机序列的过程。1.1.2形式定义...

2019-08-13 17:33:39 583

原创 NLP之文本表示-词袋模型

一文本表示文本表示是自然语言处理的开始。含义：把字词处理成向量或矩阵，以便计算机能进行处理。按照细粒度划分，一般可分为字级别、词语级别和句子级别的文本表示。eg：刘诗诗实在太可爱了，我想娶”这句话拆成一个个的字：｛刘，诗，实，在，太，可，爱，了，我，想，娶｝，然后把每个字用一个向量表示，那么这句话就转化为了由11个向量组成的矩阵。文本表示分为离散表示和分布式表示。离散表示的...

2019-07-01 17:51:31 2750

转载自然语言处理（NLP）知识结构总结

原文：https://blog.csdn.net/meihao5/article/details/79592667?tdsourcetag=s_pcqq_aiomsg一、自然语言处理概述1）自然语言处理：利用计算机为工具，对书面实行或者口头形式进行各种各样的处理和加工的技术，是研究人与人交际中以及人与计算机交际中的演员问题的一门学科，是人工智能的主要内容。...

2019-06-26 09:37:15 554

原创决策树（CART算法）

分类问题中，假设有K个类，样本点属于第k类的概率为pkp_kpk，则概率分布的基尼指数定义为： &...

2019-06-19 14:56:14 360

原创决策树（ID3、C4.5）

决策树是什么决策树由结点(node)和有向边(directed edge)组成。结点有两种类型：内部结点(internal node)和叶结点(leaf node)。内部结点表示一个特征或属性。叶结点表示一个类，是无法再拆分的结点。决策树构造过程把决策树看成一个if-then规则的集合，将决策树转换成if-then规则的过程是这...

2019-06-17 15:13:35 495

原创信息熵交叉熵相对熵

参见：https://www.zhihu.com/question/41252833https://www.cnblogs.com/liaohuiqiang/p/7673681.html

2019-06-12 17:49:44 233

原创 Softmax

模型进行多分类时，就要用到softmax。训练样本是：{(x(1),y(1)),...,(x(m),y(m))}\lbrace{(x^{(1)},y^{(1)}),...,(x^{(m)},y^{(m)})}\rbrace{(x(1),y(1)),...,(x(m),y(m))}，值得注意...

2019-06-08 23:44:08 4402

原创 LR逻辑斯蒂回归（对数几率回归）

从LR模型的三要素出发。模型模型引入如果在线性模型 ( z=wTx+bz = w^T x + bz=wTx+b) 的基础上做分类，比如二分类任务，即y∈{0,1}y \in \{0,1\}y∈{0,1}.最直观的，可以将线性模型的输出值再套上一个函数 y=g(z)y = g(z)y=g(z)，最简单的就是“单位阶跃函数”.y={0z<00.5z=01z>0y= ...

2019-05-31 19:01:38 481

原创概率分布、概率分布函数

随机变量概率函数概率函数是用函数的形式表示概率 Pi=P(X=ai)(i=1,2,3,4,5,6)P_i=P(X=a_i)(i=1,2,3,4,5,6)Pi=P(X=ai)(i=1,2,3,4,5,6)在这个函数里，自变量 X 是随机变量的取值，因变量 PiP_iPi是取值的概率。它就代表了每个取值的概率，所以顺理成章的它就叫做了X的概率函数。从公式上来看，概率函数一次只能表示一...

2019-05-31 13:48:02 11884

原创线性回归及正规方程和梯度下降求解及正则化

目录1.定义2.求解3.回归性能评估4.总结线性回归是最为简单、易用的回归模型。从某种程度上限制了使用，尽管如此，在不知道特征之间关系的前提下，我们仍然使用线性回归器作为大多数系统的首要选择。1.定义回归：目标值是连续值；分类：目标值是离散值。线性回归：通过一个或者多个自变量(特征)与因变量(目标值)之间进行建模的回归分析。其中特点为一个...

2019-03-04 11:11:24 1916

原创使用excel2007做聚光灯

版本：excel2007操作1.选中需要做聚光灯的区域；2.点击条件格式-新建规则-使用公式确定要设置格式的单元格；3.在下图中的为符合此公式的值设置格式中，输入：=OR(CELL("row")=ROW(),CELL("col")=COLUMN()),点击确定；.4.同时按键Alt+F11，弹出VBA界面，按F7，选择Worksheet，在End Sub前加Calcu...

2019-02-25 15:25:47 2306 1

原创 python DataFrame创建及基本操作

1.DataFrame创建pandas.DataFrame(data=None, index=None, columns=None, dtype=None, copy=False)data：numpy ndarray(结构化或同类)，dict或DataFrame，Dict可以包含Series，数组，常量或类似列表的对象index：dataframe的索引，如果没有自定义，则默认为Ra...

2018-12-26 18:01:19 36725 1

原创 Pandas Series的创建和索引

1.Series对象 : 包含index和values不指定索引import pandas as pds1 = pd.Series(['小黄'， 20， '小黄'])s1s1.indexs1.values#结果'''0 小黄1 202 男dtype: object''''''RangeIndex(start=0, stop=3, step...

2018-12-26 13:32:43 1017

原创 python 字典

1.字典(Dictionary)字典是无序的,所以不能像列表和元组那样索引切片；字典可遍历，迭代；语句：d = {key1 : value1, key2 : value2 } 字典是key<->value对组成，用：分割，元素之间用，分割；字典的值可以改变，键是唯一的，如果有重复的键值对，后出现覆盖先出现的；字典的值可以是任意类型，键不能是list。#创建字典的方...

2018-12-18 16:39:15 149

原创 python 元组

1.元组(tuple)的定义任何数据类型都可以放在元组里面。元组的格式：元组名 = （元素1，元素2，...）。eg：my_tuple = (1, 3, 5) 定义一个空的元组： my_tuple = ()Python的元组和列表类似，不同之处在于元组中的元素不能修改(因此元组又称为只读列表)，且元组使用小括号而列表使用中括号。2. 元组操作（1）元组中只包含一个元素时，需要...

2018-12-18 15:48:03 185

原创 python列表

一、.列表列表:可查询、可变、可迭代。列表创建：my_list1 = [1, 2, 3, 'a', 'b', [4, 2, 1] ] ####列表的元素可以不统一 my_list2 = [] ####空列表二、.列表操作汇总操作含义 1.<list>+<list> 连接 2.&...

2018-12-17 15:59:32 255

原创矩阵求导

矩阵求导这块儿特别容易迷糊。推荐维基百科的矩阵推导的公式：https://en.wikipedia.org/wiki/matrix_calculus，很全面，易查表。

2018-12-05 22:02:36 176

原创 python import和from ...import...的区别

import 模块：导入一个模块，相当于导入的是一个文件夹，是个相对路径。from…import：导入了一个模块中的一个函数，相当于导入的是一个文件夹中的文件，是个绝对路径。所以在使用过程中，这两者有些差别。import 某模块模块名.函数名比如math。import mathmath.sqrt(2)#不能直接写sqrt，必须是math.函数名from模块名i...

2018-11-27 20:27:29 380

原创 python 加载graphics库

环境：Anacanda3问题：在pycharm中import graphics显示无法找到graphics。解决办法：只需在https://zhidao.baidu.com/share/2557e265076d47ceca38b959813c17a9.html下载graphics.py,将graphics.py拷贝到Anaconda3\Lib\site-packages目录下，重新加载即可...

2018-11-27 20:02:35 1751

原创 matlabgui 读取任意路径下的excel，txt，m等文件

我们常用的软件，比如word，就有打开任意路径下word文件的功能，matlabgui也可以实现这样的功能。我们做一个gui界面，需要导入任意路径下excel文件，并对读取的excel数据进行各种分析。。。。我们的界面实现如下功能：点击按钮，即可选择要导入的excel文件，文件的路径及名称会显示在静态文本框中。 ...

2018-11-23 11:04:18 24906 7

转载三维空间中圆的参数方程及matlab程序画图

原文链接：三维空间中圆的参数方程三维空间中，以点为圆心、以向量为法向量、半径为 r 的圆（见下图），它的参数方程为：其中，与分别对应单位向量与，它们既垂直于，又互相垂直；随着从0变化到，通过参数方程可以得到圆上每一个点的坐标。与是满足既垂直于，又互相垂直的任意单位向量。怎么样快速得到满足条件的与呢？这时候应该充分利用叉乘运算的特点，因为两个向量的叉乘结果只要不为零，叉乘结果总是垂直于原来...

2018-11-06 15:45:31 24321 1

空空如也

空空如也