spark
文章平均质量分 56
大猛犸
这个作者很懒,什么都没留下…
展开
-
基于Yarn的Spark完全分布式搭建
限于机器个数限制,本次搭建3个节点的集群,其中包含1个master节点(Hdfs namenode and yarn resourceManger)和三个(包括Master)slave节点(hdfs datanode 和Yarn nodeManger) 本次搭建,启动了keberos安全验证 版本 sottware version jdk jdk11 hadoop hadoop-3.2.2.tar.gz spark spark-3.1.1-bin-hadoop3.2.tgz原创 2021-04-22 15:42:45 · 702 阅读 · 2 评论 -
TF-IDF单词逆文档频率
概述 在文本挖掘中用于衡量一个单词在该文档中的重要性。声明单词ttt,.文档ddd,文档集合DDD,单词ttt在文档ddd中出现的频率为TF(t,d)TF(t,d)TF(t,d),DF(t,D)DF(t,D)DF(t,D)表示多少文档含有该单词。如果我们只用TFTFTF衡量单词的重要性,很容易过度重视在一个文档经常出现但是带有很少信息量的单词,例如停用词,语气词,礼貌用词等。TD-IDF提出了一种他的解决办法: IDF(t,D)=log∣D∣+1DF(t,D)+1,IDF(t, D) = \log \fr原创 2021-04-04 13:57:42 · 888 阅读 · 0 评论 -
spark idea scala开发环境配置
书写pom文件 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.or.原创 2021-04-03 15:53:12 · 222 阅读 · 0 评论