数据可视化(Ⅰ)基础概念

⼀个图表胜过千⾔万语

一、三种获得数据洞察的方法

1.计算并汇总统计信息(Statistics)
均值(mean),中值(Median),标准差(Standard Deviation)等
2.跑模型(Models)
线性回归(Linear Regression),逻辑回归(Logic Regression)等
3.绘制图表(Plots)
散点图(Scatter),柱状图(Bar),直方图(Histogram)等

二、区分连续变量和分类变量

1.连续变量:

在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。

2.分类变量:

其变量值是定性的,表现为互不相容的类别或属性。分类变量又有两种子类,它们是无序分类变量和有序分类变量。

2.1 无序分类变量(Unordered Categorical Variable)

指所分类别或属性之间无程度和顺序的差别,它又可分为:
① 二项分类,如性别(男、女),药物反应(阴性和阳性)等。
② 多项分类,如血型(O、A、B、AB),职业(工、农、商、学、兵)等。

  • 对于无序分类变量的分析,应先按类别分组,清点各组的观察单位数,编制分类变量的频数表,所得资料为无序分类资料,亦称计数资料
2.2 有序分类变量(Ordinal Categorical Variable)

指各类别之间有程度的差别。如尿糖化验结果按 -、±、+、++、+++ 分类;疗效按治愈、显效、好转、无效分类。

  • 对于有序分类变量,应先按等级顺序分组,清点各组的观察单位个数,编制有序变量(各等级)的频数表,所得资料称为等级资料

三、示例

数据集“The Datasaurus Dozen”。
Datasaurus:数据侏罗纪(恐龙)

import pandas as pd
df_saurus_dozen = pd.read_csv('/data/course_data/visualization/datasaurus_dozen_wide.tsv',sep='\t', header=[0, 1])
from bokeh.plotting import show, output_notebook, figure
from bokeh.layouts import grid, gridplot
columns = df_saurus_dozen.columns
plots = []
for i in range(13):
    p = figure()
    p.axis.visible = False
    x = df_saurus_dozen[columns[2*i]]
    y = df_saurus_dozen[columns[2*i+1]]
    p.scatter(x, y, size=2)
    plots.append(p)
plots = [[None     , plots[ 3], None    ],
         [plots[ 0], plots[ 1], plots[ 2]],
         [plots[ 4], plots[ 5], plots[ 6]],
         [plots[ 7], plots[ 8], plots[ 9]],
         [plots[10], plots[11], plots[12]]]
grid = gridplot(
    plots, toolbar_location='right',
    plot_width=200, plot_height=200
)
output_notebook()
show(grid)

在这里插入图片描述

四、其他

比特币网址
https://coinmarketcap.com/currencies/bitcoin/historical-data/?start=20160101&end=20200512

  • 6
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值