举个栗子~Tableau 技巧(241):用 Python 脚本提取文本内容中的关键词

经常有数据粉反馈:在处理文本内容的时候,是否有快速提取内容关键词的方法呢?

方法有的,可以试试 Python。这里,我们来分享:如何在 Tableau 中利用 Python 脚本从文本内容提取关键词。

图片

今天的栗子,一睹为快吧~

在这里插入图片描述

本期《举个栗子》,我们要给大家分享的 Tableau 技巧是:用 Python 脚本提取文本内容中的关键词。

为方便学习,栗子使用自拟的文本数据。掌握栗子方法后,数据粉可尝试使用自己的数据源。懒癌患者可通过以下链接获取栗子数据源:

https://www.dkmeco.com/cms/course/detail/630

具体步骤如下:

1、安装好 Python 环境,并安装扩展包 Tabpy (Tableau的分析扩展程序)、jieba (结巴分词包)、re (正则包)。

图片

启动 Tabpy 服务,步骤请参考☞ 举个栗子!Tableau 技巧(201):在 Prep 中调用 Python 处理复杂数据

2、打开 Tableau Desktop,连接栗子数据。

图片

单击顶部菜单栏“帮助”,下拉菜单选择:设置和性能-管理分析扩展程序连接,弹窗中选择:TabPy,然后如下配置并保存连接。

图片

3、单击字段右上角 ▼ 按钮,下拉菜单选择:创建计算字段。

图片

将字段命名为:tags,键入函数:
SCRIPT_STR("

import jieba.analyse # 导入jieba

import re # 导入re 正则表达式

#使用正则表达式过滤掉不可见的字符,如换行等,以避免报错

content = [re.sub(‘\s’,‘’, str) for str in _arg1]

#使用jieba从内容提取关键词,只提取权重最高的3个名词

tags = [jieba.analyse.extract_tags(c, topK=3, allowPOS=(‘n’)) for c in content]

#将提取结果的格式处理成字符串,以返回给Tableau

result = [‘,’.join® for r in tags]

return result

",

attr([Brief]))

图片

然后,再单击窗口右下角的“默认表计算”,在弹窗中将“根据以下因素计算:”的值设置为:Name。

新建工作表,将字段“Name”和“tags”以此拖放至行,在视图中的文本表中,可以看到:关键词已经从文本中提取出来啦!

图片
本期的 Tableau 技巧,你 Get 到了吗?
下一期,再见~
在这里插入图片描述

文章部分信息来源于网络,如有侵权请告知

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值