数据分析
文章平均质量分 91
数佳
prompt
展开
-
Hadoop集群搭建
目录一、一、安装部署3台联网的服务器1. 下载VMware Workstation Pro https://www.vmware.com/cn/products/workstation-pro/workstation-pro-evaluation.html安装VMware Workstation Pro2. 下载CentOS-7-x86_64-DVD-2009.iso https://mirrors.aliyun.com/centos/7/isos/x86_64/安装...原创 2021-08-07 23:37:37 · 1013 阅读 · 1 评论 -
[三] 3 图表绘制工具:Matplotlib -- 图表绘制之箱形图
目录九、箱形图九、箱形图箱形图又称为盒须图、盒式图或箱线图,它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。中位数:按顺序排列的一组数据中居于中间位置的数上四分位数Q3:一组数据排序后处于75%((1+n)/4*3)位置上的值下四分位数Q1:一组数据排序后处于25%((1+n)/4)位置上的值四分位距IQR=Q3-Q1内限:最大值Q3+1.5IQR,最小值Q1-1.5IQR外限:最大值Q3+3IQR,最小值Q1-3IQR异常值:内限与外限之间,中度异常,在外限以外,原创 2021-04-10 12:24:08 · 1557 阅读 · 2 评论 -
[三] 3 图表绘制工具:Matplotlib -- 图表绘制
目录一、plt.plot()二、柱状图、堆叠图1、plt.plot(kind = 'bar/barh', stacked = True)2、plt.bar()三、面积图 plt.plot.area()四、填图 plt.fill()、plt.fill_between()五、饼图 plt.pie()六、直方图 plt.hist()、密度图 plt.plot(kind = 'kde')1、直方图 plt.hist()2、堆叠直方图 DataFrame.plot.hist(stacked=True)七、散点图1、散原创 2021-04-09 20:41:14 · 687 阅读 · 0 评论 -
[三] 3 图表绘制工具:Matplotlib -- plot、subplots
目录一、plt.plot()一、plt.plot()原创 2021-03-31 21:30:46 · 326 阅读 · 0 评论 -
[三] 3 图表绘制工具:Matplotlib -- 设置样式
目录一、图表窗口大小 figsize二、图名、图例、轴、网格一、图表窗口大小 figsizedf = pd.DataFrame(np.random.rand(10, 2), columns = ["A", "B"])# 绘图方式1# plt.plot(df)# plt.figure(figsize = (6, 4))# 绘图方式2df.plot(figsize=(6,4))二、图名、图例、轴、网格...原创 2021-03-23 23:00:02 · 433 阅读 · 0 评论 -
[三] 3 图表绘制工具:Matplotlib -- 图表窗口
目录Matplotlib,使用Python进行可视化,以2D为主,支持Python、Numpy、Pandas基本数据结构,运营高效且有较丰富的图表库。原创 2021-03-21 23:50:33 · 357 阅读 · 0 评论 -
[三] 2 数据分析工具:Pandas -- IO工具
目录原创 2021-03-20 15:33:37 · 207 阅读 · 2 评论 -
[三] 2 数据分析工具:Pandas -- Group By: split-apply-combine
目录一、分组Group ByGroup By功能:根据某些条件将数据拆分成组对每个组独立应用函数将结果合并到一个数据结构中一、分组df.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)...原创 2021-03-13 18:10:31 · 260 阅读 · 0 评论 -
[三] 2 数据分析工具:Pandas -- 运算
目录一、数学和统计方法一、数学和统计方法原创 2021-03-09 19:35:22 · 149 阅读 · 0 评论 -
[三] 2 数据分析工具:Pandas -- 时间序列
目录一、Python时间模块 datetime1、datetime.date2、datetime.datetime3、datetime.timedelta4、dateutil.parser.parse二、一、Python时间模块 datetime廖雪峰的官方网站>Python教程>常用内建模块>datetime1、datetime.dateimport datetimetoday = datetime.date.today()today # 2021-01-24type(原创 2021-01-24 17:20:07 · 284 阅读 · 0 评论 -
[三] 2 数据分析工具:Pandas -- 数据结构
Pandas是Python的核心数据分析支持库,提供了快速、灵活、明确的数据结构,旨在简单、直观地处理关系型、标记型数据。Pandas基于NumPy开发,可以与其它第三方科学计算支持库完美集成。Pandas的主要数据结构是Series(一维数据)与DataFrame(二维数据),这两种数据结构足以处理金融、统计、社会科学、工程等领域里的大多数典型用例。Pandas可直接读取数据并做处理,高效简单;兼容各种数据库;支持各种分析算法。import numpy as npimport pandas as p原创 2020-12-11 20:33:22 · 412 阅读 · 0 评论 -
[三] 1 科学计算工具:NumPy
目录一、ndarray数组的属性及创建1、ndarray的属性2、创建ndarray数组1) array()函数NumPy是Python中科学计算的基础包。它提供多维数组对象ndarray,各种派生对象(如掩码数组和矩阵),以及用于数组快速操作的各种API(包括数学、逻辑、形状操作、排序、选择、输入输出、离散傅立叶变换、基本线性代数,基本统计运算和随机模拟等)。一、ndarray数组的属性及创建1、ndarray的属性import numpy as npar = np.array([[1,2,3原创 2020-09-26 18:21:12 · 883 阅读 · 0 评论 -
[二] 基础语言入门:Python
廖雪峰的Python教程本章内容笔记只记录廖雪峰的Python教程中没有的内容。一、环境搭建1、Python仅安装Python可在官网下载Python3.x安装包https://www.python.org/downloads/IDLE是一个纯Python下的基本的IDE。IDLE脚本编程详解2、Anaconda为了使用Python工具包,直接安装Anacondahttps:...原创 2020-04-04 21:27:01 · 383 阅读 · 0 评论 -
[一] 数据能做什么?
网易云课堂,城市数据团,数据分析师,笔记优秀数据分析师的三个特点好奇:是数据分析师进步的动力。从数据中发现问题,没有数据时,创造性地解决问题。谨慎:是数据分析师成熟的标志。没有完美的数据完美的方法,多维数据比较印证。责任:是数据分析师存在的意义。对个人、企业、社会的责任。数据的价值,取决于使用它的人。避免对数据可视化的误解数据分析的工作流《数据之美——一本书学会可...原创 2020-04-01 22:32:27 · 341 阅读 · 0 评论 -
Ubuntu18.04双系统安装
大数据技术原理与应用 第二章 大数据处理架构Hadoop 学习指南一、Ubuntu18.04双系统安装1.下载Ubuntu 18.042.把U盘格式化为ntfs格式再制作启动盘,否则“安装程序向硬盘复制文件时遇到错误:[Error 5] Input/output error”3.Rufus制作U盘启动盘4.从磁盘中分出可用空间,24G5.下载EasyBCD6.安装U...原创 2019-07-21 10:10:10 · 221 阅读 · 0 评论