GBASE南大通用技术分享:
GBase UP是GBASE南大通用自主研发的融合了GBase 8a MPP、GBase 8s、开源Hadoop生态系统的大数据平台产品,兼顾大规模分布式并行数据库集群系统、稳定高效的事务数据库,以及Hadoop生态系统的多种大规模结构化与非结构化数据处理技术,能够适应OLAP、OLTP和NOSQL三种计算模型的业务场景,是构建企业数据平台的重要基础设施。
关于GBase UP的词频-逆文本频率(TF-IDF)算法的演示用例
TF-IDF 的输入数据是已经分好词的文章,如下所示:
TF-IDF 对得到的这些词语,计算其 TF-IDF 值,并将之输出。GBASE南大通用GBase UP TF-IDF 算法包含两个参数,tf_idf(soruce,target),分别表示输入和输出路径。
TF-IDF 算法作为一种特征处理方法,通常作为预处理手段,后续会根据该算法的处理结果进 行进一步处理。请参考【朴素贝叶斯算法】一节。
TF-IDF 得到的结果示例如下: