机器学习
计算机-周卓
主要从事高性能计算集群运维
展开
-
Kmeans、Kmeans++、Birch和KNN四种聚类算法对二维坐标点的聚类分析对比实验
0 写在前面(数据集和源代码)本文章涉及到的数据集合所有代码均上传在此处:https://download.csdn.net/download/zhouzhuo_csuft/10494273;点击此处直接打开链接;一共有四个代码文件,分别是Kmeans、Kmeans++、Birch和KNN算法,四个算法对同一个数据集聚类分析进行对比试验。(本代码是本人自己书写,全部可用!)1 引言近年来,机器学习...原创 2018-06-23 11:18:42 · 17187 阅读 · 4 评论 -
通俗理解TF-IDF文本分析算法
TF-IDF是一种文本词频(文本特征提取)统计算法概念:词频(TF):一个词语在文本中出现的频率;文本总数(D):所搜集的所有文本数;含关键字文本数(Dw):含有某个词(关键字)的文本数目;公式:情景假设:现搜集了D个文件,要分析某文件某关键词w的TF-IDF词频TF(w)=某词w在所有文件中出现的次数/该文件的总词数含有w词的文本共有Dw个,则IDF(w)=log(D/Dw+1...原创 2018-08-22 17:23:49 · 2434 阅读 · 0 评论 -
SparkingH2O安装与测试
是一个可扩展的H2O机器学习算法平台,它与Spark的功能相结合。 它允许用户将使用Scala / R / Python语言来调用它。在安装它时需要注意版本与spark版本一致,由于本人的spark平台为2.3版本,即对应安装2.3版的Sparkling Water安装步骤如下:1、下载Spark_H2O安装包sparkling-water-2.3.284_nightly.zip(下载地址...原创 2018-10-14 22:12:10 · 1220 阅读 · 1 评论