GBASE南大通用技术分享:关于GBase UP词频-逆文本频率算法的演示用例

本文介绍了GBASE南大通用自主研发的大数据平台产品GBaseUP,它集成了MPP数据库、事务数据库和Hadoop技术,适用于各种业务场景。同时,文中展示了如何使用TF-IDF算法进行数据预处理,为后续的分析如朴素贝叶斯建模提供基础.
摘要由CSDN通过智能技术生成

GBASE南大通用技术分享:

GBase UP是GBASE南大通用自主研发的融合了GBase 8a MPP、GBase 8s、开源Hadoop生态系统的大数据平台产品,兼顾大规模分布式并行数据库集群系统、稳定高效的事务数据库,以及Hadoop生态系统的多种大规模结构化与非结构化数据处理技术,能够适应OLAP、OLTP和NOSQL三种计算模型的业务场景,是构建企业数据平台的重要基础设施。

关于GBase UP的词频-逆文本频率(TF-IDF)算法的演示用例

TF-IDF 的输入数据是已经分好词的文章,如下所示:

TF-IDF 对得到的这些词语,计算其 TF-IDF 值,并将之输出。GBASE南大通用GBase UP TF-IDF 算法包含两个参数,tf_idf(soruce,target),分别表示输入和输出路径。

TF-IDF 算法作为一种特征处理方法,通常作为预处理手段,后续会根据该算法的处理结果进 行进一步处理。请参考【朴素贝叶斯算法】一节。

TF-IDF 得到的结果示例如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值