自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 Python机器学习(Scikit Learn)

快来更新

2019-08-22 15:15:58 150

原创 python数据分析(scipy)

快来更新!!

2019-08-22 14:33:40 172

原创 python——jupyter notebook

因为用太多了,太熟悉了,也忘记从什么时候开始的,就直接写一些便捷方式吧Jupyter Notebook 快捷键新增的单元格,双击选中这个单元格,快捷键DD就可以删除了。写好的单元格,想直接执行这个单元格,并把光标移动到下一个单元格,快捷键Shift+Enter键就可以了。写好的单元格,想直接执行这个单元格,不需要把光标移动到下一个单元格,快捷键Ctrl+Enter键就可以了。命令模...

2019-08-22 14:32:25 221

原创 数据分析报告结构

一、背景介绍:1、说明研究问题,阐述问题的重要性2、经常需要介绍行业背景,详述业务问题二、数据来源说明:1、数据途径:公开句到/爬虫/问卷等2、说明样本量大小,每条数据的含义3、可以制作数据说明表三、描述性分析:(尽量有逻辑有重点)1、分组维度可视化展示2、简要描述分析ps:常见的图表类型基本上以下六种涵盖了绝大部分的使用场景:曲线图用来反映...

2019-08-22 14:15:59 3821

原创 python数据分析(Matplotlib)

(1)plt.show()函数默认情况下,matplotlib.pyplot不会直接显示图像,只有调用plt.show()函数时,图像才会显示出来。plt.show()默认是在新窗口打开一幅图像,并且提供了对图像进行操作的按钮。不过在ipython命令行中,我们可以将它插入notebook中,并且不需要调用plt.show()也可以显示:%matplotlib notebook...

2019-08-21 17:55:02 2992 1

原创 Python数据分析(Pandas)

pandas基础数据结构,有以下两种:Series,与array很像也和list相同,Series能保存不同的种数据类型,包括字符串、bool值、数字等等。DataFrame,二维的表格型数组结构,以下内容以DataFrame为主。Series初始化(类型转换)s=pd.Series([1,2,3,np.nan,6.8])索引-行标签,查看值 a.values,a[0],切片都和n...

2019-07-23 11:31:09 1207

原创 python数据分析(Numpy)

python内置函数abs(-1),输出1,取绝对值。max(a),min(a),取最大值最小值,sum(a)求和,等等。(需要积累)自定义函数Numpy导入有三种情况import numpy import numpy as np (推荐)from numpy import *数组上的数学操作a[1,2,3]列表上每个元素都加1,可以用列表生成式[x+1 ...

2019-07-21 14:39:17 673

原创 Python数据分析(基础介绍)

https://www.bilibili.com/video/av42252246?from=search&seid=17890797489073473022B站上的视频,重拾开始学习的热情。jupyter notebook新增的单元格,双击选中这个单元格,快捷键DD就可以删除了。写好的单元格,想直接执行这个单元格,并把光标移动到下一个单元格,快捷键Shift+Enter键就可以了...

2019-07-20 23:48:53 343

原创 分界线——新开始

2019年7月1日,入手一台联想-小新-14-2019-i7。2019年7月2日,开始装机使用,安装了日常使用的软件,QQ、微信、钉钉、WinRAR、Notepad++、谷歌浏览器、火狐浏览器、百度网盘、网易云音乐、WPS2016都安装在了C盘。目前还差视频的软件。接下来,需要把双系统装好,再把R、Python、SPSS、Eviews等专业软件装好。...

2019-07-02 10:12:36 137

原创 《大数据挖掘与统计机器学习》

统计前期看模型所得结果的性质,都是手工计算,得到置信区间、相合性等等。这些性质有时候依赖于中心极限定理或大样本定理得到的当样本趋于无穷的理论性质。(ps:中心极限定理是说样本的平均值约等于总体的平均值。不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。)统计学习方法分为两种,有监督学习和无监督学习。有监督学习,数据中有明确的目标变量Y,如果Y是连续型...

2019-07-01 11:48:05 1488

原创 实习总结

2019年5月开始在武汉某公司大数据部,做大数据开发的实习生,方向是数据挖掘和预测建模方向。目标用户流失预测模型,保证召回率。因为是用户流失预测,所以线性用逻辑回归,非线性用XGboost算法。因为流失与不流失容易数据不平衡,类别基本只要超过4:1就是数据不平衡了,所以需要用过采样、欠采样等方法来处理数据。#欠采样def down_sample(train):train1=train[...

2019-06-19 17:13:28 205 4

转载 python数据分析中常用的库

Python是数据处理常用工具,可以处理数量级从几K至几T不等的数据,具有较高的开发效率和可维护性,还具有较强的通用性和跨平台性,这里就为大家分享几个不错的数据分析工具,需要的朋友可以参考下Python是数据处理常用工具,可以处理数量级从几K至几T不等的数据,具有较高的开发效率和可维护性,还具有较强的通用性和跨平台性。Python可用于数据分析,但其单纯依赖Python本身自带的库进行数据分析还...

2019-06-12 13:07:13 503

原创 魏夏的电脑系统指南

因为工作原因,很久没写博客。今天来更新一下,详细讲解如何安装双系统。想用tensorflow,结果ubuntu系统下python3.7不能支持,所以搞了半天系统崩了。。。最终决定重新安装。我刚好重新安装个win10,把C盘整理一下。我关注了个微信公众号:软件安装管家。里面很多软件都有,也比较齐全,都是正品。一、安装win10系统1.在微软官网下载win10官方正版镜像。2.下载软碟通...

2019-06-11 16:58:50 339 2

原创 多元统计分析

多元正态分布图表聚类分析判别分析主成分分析因子分析对应分析典型相关分析

2019-04-23 21:14:31 2099

原创 统计基础之概率论与数理统计(完结)

1、随机变量及其分布:1.1、离散型随机变量(0-1分布、二项分布、泊松分布、几何分布)1.1、0-1分布0—1分布就是n=1情况下的二项分布。1.1.2、二项分布(伯努利分布)二项分布就是重复n次独立的伯努利试验。如果存在X~B(n, p)这样一个二项分布,也就是说X是呈现出二项分布的随机变量,n表示试验的总数,p表示每个试验中得到成功结果的概率,那么X的期望值E(X)=np,方差V...

2019-04-14 01:15:07 33704

原创 数据挖掘需要掌握的技能

工程能力( 1 )编程基础:需要掌握一大一小两门语言,大的指 C++ 或者 Java ,小的指Python 或者 shell 脚本;需要掌握基本的数据库语言;建议:MySQL + python + C++ ;语言只是一种工具,看看语法就好;推荐书籍:《C++ primer plus 》( 2 )开发平台: Linux ;建议:掌握常见的命令,掌握 Linux 下的源码编译原理;推荐书...

2019-04-13 14:09:40 7148 1

原创 数据分析之数据可视化

绘制统计图:用图形的形式来表达数据。条形统计图、扇形统计图、折线统计图线型图柱形图:柱状图绘制的是x坐标对应的y取值,在plot代码中加入kind=‘bar’就可以得到垂直柱状图,‘barh’则是水平柱状图。直方图:直方图histogram是一种可以对值的频率进行离散化显示的柱状图。可以通过调用Series或者DataFrame的hist函数得到。数据点被分割到离散的,间隔均匀的面元中...

2019-04-11 20:37:34 2729

原创 统计基础

概率介绍离散型概率分布和连续型概率分布抽样和抽样分布区间估计假设检验总体均值和比例的统计推断总体方差的统计推断描述数据集常用的4个指标:平均值、四分位数、标准差、标准分。四分位数在图表上表现为箱线图如图,用python绘制箱线图。这里我们着重理解箱线图的原理及其应用,这部分的基础知识很重要。箱线图的作用:直观的看到数值平均情况并识别出异常值;用于不同数组间比较。波动大小也相...

2019-04-11 00:23:26 195

原创 小魏的学习路线(未完待续)

数据运营与数据挖掘根据我的理解,数据分析师的层次分为取数、报表、分析报告、落地指导。取数和报表基本是用SQL和可视化的工具,只要掌握了工具的使用,基本踏入了数据分析的大门。再高层次一些,就要在数据的基础上进行加工,产出一些有质量的分析报告,给出一定的数据分析结论。更高层次一些,就要在项目或者工作中通过数据发现问题,从而指导业务方。但是无论是取数还是落地指导都需要和业务方沟通,了解清楚业务方的需求...

2019-04-08 23:44:06 153

原创 自我定位与职业规划(完结)

Part1 自我定位:本科:本人本科是在一所非常普通的大学,学习统计学专业,理学学士。并在本科期间辅修了经济学,最后以专业第一的成绩保研于武汉某211高校。硕士:专业为应用统计(大数据方向),属于专硕,两年制,2020年毕业。(自我认为不会再继续往下深造)Part2 职业规划:本科专业:统计学(辅修经济学)硕士研究生专业:应用统计(大数据方向)① 业务统计分析人员:理解企业数据,发...

2019-04-08 23:43:07 6163

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除