PowerQuery处理列名包含合并单元格的几种思路

一直没能说服公司小伙伴不要用合并单元格,因此我接收到的原始表格总是充满了各种合并单元格。最头痛的是列名有合并的。比如下面这样的(且不说这难看的屎黄):

 

merged_cells.png

列名有合并单元格也就罢了,关键是这合并单元格也是动态的——不同时间提交过来的表格,合并单元格的具体内容会有变化。真是整死个人么也幺哥,整死个人么也幺哥……
目前总结了四种方法:

一、釜底抽薪法

最牛逼最有效的当然是说服提供表格的小伙伴停止使用坑爹的合并单元格(以及莫名其妙的底纹)。

二、自己辛苦手动修改法

就是每次收到excel表格后,我自己手动取消合并单元格,把列名整理成合规的格式。
但作为一个超级懒人,每次来了一个表格都要手动改半天,太不优雅了。于是有了第三种方法。

三、利用list.zip()函数合成重命名列名表达式法

用powerquery大法,引入数据源后,合并单元格会被打散。以下是关键步骤:
1.将合并单元格的第一行提升为表格标题,这样一来,之前是合并单元格的列名会变成类似于“column5”、“column6”之类的,其他都是正常的列名。而第二行的数据,正常列名下面的值变成了null,以“columnX”开头的列下面是我们要提取出来的列名,如截图中“投放媒体”下面的四个值。
2.利用powerquery访问行的方法,得到表格第一行的值,基本函数是Record.FieldValues()。
3.然后将第二步得到的list和Table.ColumnNames()函数获取的表格列名用List.Zip()函数进行合并,得到一个包含list的list,为叙述方便,将其命名为M。这时用List.Transform(M,Combiner.CombineTextByDelimiter(""))将M中每个子list的元素合并成一个,这样我们就得到一个近似于完美的目标表格列名。之所以说,近似完美,是因为M进行这样的变换后(命名为MM),其中包含“Column6百度信息流作”这样的元素,我们需要将“Column6”这样的字母和数字去掉,只保留文本。
4.于是用List.Transform(MM,each Text.Remove(_,List.Union({{"A".."z"},{"0".."9"}})))将数字和字母去掉,保留中文。
5.这样我们就得到一个TargetColumnName的list。再次用List.Zip()函数构造重命名列名的表达式:Table.RenameColumns(table,List.Zip({OriginalColumnName,TargetColumnName}))。
6.这样就基本完成了表格的重命名工作。不过还留下了一个小尾巴,就是“投放媒体”对应索引位置的第二行值是类似于“网站制作”这样的,所以最后还要把“投放媒体”这样的批量替换掉。

这个方法繁琐且留有尾巴,我还是想找一个更优雅的办法来解决合并单元格动态命名的问题。于是有了终极大法。

四、终极大法:Table.TransformColumnNames()函数大法

这个函数太复杂,我也没完全搞懂,主体结构是:

Table.TransformColumnNames(table as table, nameGenerator as function, optional options as nullable record) as table

爬网并试验,最后得出了下面的这个表达式:

Table.TransformColumnNames(#"Promoted Headers",each if Text.Contains(_,"Column") then Record.FieldValues(#"Promoted Headers"{0}){(List.PositionOf(Table.ColumnNames(#"Promoted Headers"),_))} else if _="投放媒体" then Record.FieldValues(#"Promoted Headers"{0}){(List.PositionOf(Table.ColumnNames(#"Promoted Headers"),_))} else  _)

超级长的一行代码,我的思路是,利用if...then...else结构,逐一判断表格列名的每一个元素是否包含“Column”,如果包含,那么它就是需要变换的列名,如果不包含,那么就(暂时)不做任何操作。

那么,怎么变换呢?还是最基础的思路,用列名对应的表格第一行的值来代替。怎么知道当前列名的索引位置是多少呢?用List.PositionOf()来获取。获取到索引位置后,就很简单了,用Table{0}{索引位置}就可以得到列名对应的第一行的值。

完成。

  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
PowerBI系列之Power Query专题1.  获取数据 数据源种类介绍和获取Excel数据源输入数据和拷贝数据:创建辅助表解析Json/XML数据格式获取Web网页数据和URL添加动态参数连接数据的四种模式:Import、DirectQuery、Live Connection、Dual双 属于混合模式连接数据库:Sql server、 Mysql(直连但是必须先安装一个mysql插件)DirectQuery直连查询:Sql serverODBC方式获取数据表关联或多个Sql或调用存储过程获取数据SQL中动态传参和自定义函数: sql中使用参数或数据库名称使用参数连接Sharepoint和OneDrive数据源连接Dataset和Dataflow 替换本地数据源为Sharepoint数据源并保留数据处理操作 终止当前数据刷新Loading:Cancel Query数据源设置-重置数据连接凭证PBIDS连接数据源创建和使用报表模块(输入或值列表)利用报表模板和参数控制线下报表数据权限DirectQuery启用自动页面刷新和更改检测管理聚合表提高DirectQuery查询性能动态M查询参数提高DirectQuery查询性能添加数据刷新时间 DateTime.LocalNow()和Getdate()2.  数据清洗和M语言M语言和官方文档介绍PowerQuery中查阅M函数:=#shared, Ctrl+Space提示数据清洗之常用技能:提升标题、更改数据类型、保留删除错误或空行,删除重复项、选择列和删除列、填充单元格合并列、拆分、提取、替换、条件替换、添加自定义列,添加条件列、添加索引列、分组、添加年月日列、追加和合并查询透视和逆透视以及转置合并单元格的Excel文件处理导入文件夹中多Excel文件并合并解决多文件合并中列顺序不一致使用参数和函数批量导入文件 文本中提取中文、英文、数字等处理双引号转义 列拆分详解解决列名改变错误解决列丢失错误动态显示、排序和重命名列为所有列名添加前缀列名字母大写和分隔符调整Trim标题列中的多余空格如何处理load数据错误为什么load的Excel数据有null空行为什么load的Excel数据标题在第二行灵活添加占位符规范同类相似数据数据按多列排序为分组添加Index序号分组内值合并诊断工具分析数据处理过程PowerQuery小技巧分享 新冠病例活动轨迹地图标识 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值