自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 ETL工具kettle要点总结

Excel输出。

2024-03-27 15:16:24 945 1

原创 Spark类SQL要点总结

df.filter((df['product_type'] == '办公用品') & (df['quantity'] > 10)).show(3)# df.where((df['region'].isin(['华南', '华北'])) & (df['price'] > 100)).show(3).when(df['profit'] == 0, '持平').otherwise('亏损').alias('state')(df.withColumnRenamed('order_id', '订单编号')

2024-03-26 16:31:51 808

原创 Spark大数据分析要点

​ Spark是基于Scala语言开发的,专为大规模数据处理而设计的快速通用的计算引擎​ Python中Apache Spark的接口。

2024-03-22 15:15:16 743 1

原创 Hive数仓要点2

- 窗口函数() over(partition by 分组字段 order by 排序字段 rows|range between ... and ...)-- 如果distribute by和sort by为同一字段, 那么cluster by等价于distribute by+sort by。lead(),超前,向前(未来)偏移/向下(表的下方)偏移 lag(),滞后,向后(过去)偏移/向上(表的上方)偏移。cluster by '分区及局部排序字段' | distribute by '分区字段'

2024-03-21 16:37:34 363 1

原创 Hive数仓要点1

- 分区就是分文件夹(目录)存储-- 分桶就是分文件存储-- 通俗来讲, 就是将数据按指定字段的各项划分到不同的文件中。insert into test.student values(2, '二爷'), (3, '皇叔');name string comment '姓名',name string comment '姓名',name string comment '姓名',sex string comment '性别')sex string comment '性别')

2024-03-20 16:37:00 528 1

原创 Matplotlib作图要点总结

plt.plot(x, y, color='blue', linestyle='-', marker='o', mfc='white', label='销量')plt.plot(x, y2, label='鼠标', color='g', marker='.', mfc='r', ms=8, alpha=0.7)x, y1, y2, y3 = df['月份'], df['键盘'], df['鼠标'], df['音响']labels=[str(x) + '年' for x in df['年份']],

2024-03-18 17:32:15 593

原创 Pandas要点

tb.resample('M').agg({'数量': 'sum', '销售额': 'mean'}).to_period('M')df[['性别','年龄']] = df['用户信息'].str.split(',',expand=True)df.groupby('一级分类')[['数量','金额']].agg(['mean','sum'])df.groupby(['一级分类','二级分类'])[['数量','金额']].sum()

2024-03-07 22:03:17 593 1

原创 Numpy要点总结

按列求和:arr.sum(axis=1) (每行的列元素求和)新增一列:np.append(arr1,[[7],[8]],axis=1)6.1sum() 按行求和:arr.sum(axis=0) (每列的行元素求和)新增一行:np.append(arr1,[[7,8],axis=0])重塑前后的元素个数必须一致。3.14.1 数组的赋值:相同的对象,相同的数据,取别名,没有拷贝。3.14.2 数组的视图:不同的对象,相同的数据,浅拷贝。3.14.3 数组的复制:不同的对象,不同的数据,浅拷贝。

2024-03-07 10:27:10 735 1

原创 Tableau要点总结

例:求单均金额,先求各订单ID的销售额,得到一个汇总表后,再求各地区的平均销售。AVG({INCLUDE [订单 ID]: SUM([销售额])}){EXCLUDE [地区], [类别]: SUM([销售额])}INCLUDE:维度增强,相当于二次透视,先按照公式中的字段先分。合计百分比/总额百分比:总计百分比、行汇总百分比、列汇总百分比。1.1.3页面:播放器,播放,向前/后播放,播放速度(三级)EXCLUDE:维度削弱,删除筛选功能,(ALL)销售额=SUM([利润])/SUM([销售额])

2024-03-06 10:46:51 899

原创 PowerPivot基础知识

FILTER将一个表表达式作为第一个参数,并遍历该表的所有行,检查第二个参数中提供的条件。ALLSELECTED相对清除筛选功能,根据筛选器(透视表筛选,切片器等,表中所有数据)而变。关系函数,将事实表的指定列关联到维度表,返回的是一个表,通常和SUMX搭配使用。筛选器函数,清除指定表/列的筛选功能,保留其他表/列的筛选功能。筛选器函数,除了指定列之外,清除其他列的筛选条件。('销售表'[金额]),'地区表'[区域]=筛选器函数,清除指定表(或列)的筛选功能。('产品表','产品表'[产品大类]=

2024-03-02 15:23:47 491

原创 powerquery知识点

文本聚合:没有现成的控件,需要手动修改公式Text.Combine([销售代表],"、"所有行:以指定字段分组聚合,将同一组的数据包装为Table结构(可展开)。2.6 统计信息:每行数据各字段之间的值计算,横向操作。4.2 将一个文件夹下的多个工作薄合并至一个工作表中。左反链接:左表存在,右表不存在的数据。右反连接:右表存在而左表不存在的数据。左连接:左表有,右表没有的数据。右链接:右表有,左表没有的数据。内连接:左表有右表也有的数据。透视:将某字段的各项值转为新的字段。全连接:两张表全量数据。

2024-03-01 14:39:35 300

原创 Excel要点总结

基本字段:年份 基本项:上一个。数组公式:一数组为参数的公式,通过一个公式输入多组数值,可能返回多组数值。当最大值大于Q3+1.5IQR,上限值取Q3+1.5IQR。环比增长率(差异百分比):(本月-上月)/上月。定位空值:F5>定位条件>空值,Ctrl+Enter补全。同比增长率(差异百分比):(本月-去年同月)/去年同月。普通折线图:坐标轴,图例,数据标签,标题,趋势线。基本字段:月份 基本项:上一个。上限值:Q3+1.5IQR,值。上四分位数(Q3):0.75。

2024-02-29 14:33:42 415

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除