2016年08月_young_so_nice

09月 08月 07月 06月 05月 04月 03月

原创使用webcollector爬取微博信息

需求：给定若干个关键字将关键字依次搜索，将所有关键字搜索到的微博信息，存入到仓库。本程序是在webcollector的基础上改动的。程序中有详细的解释。import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.InputStreamRea

2016-08-27 17:00:37 2351 1

原创 java读取文件并且制定编码

按行读取文件，并指定编码，输出编码。import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.InputStreamReader;import java.util.ArrayList;import java.util.List;public class T

2016-08-27 14:11:41 825

原创利用ALS算法做用户产品推送

ALS 是什么？ ALS 是交替最小二乘（alternating least squares）的简称。在机器学习的上下文中，ALS 特指使用交替最小二乘求解的一个协同推荐算法。它通过观察到的所有用户给产品的打分，来推断每个用户的喜好并向用户推荐适合的产品。协同过滤常被应用于推荐系统，旨在补充用户-商品关联矩阵中所缺失的部分。 MLlib当前支持基于模型的协同过滤，其中用户和商品通过一

2016-08-16 15:12:01 3576 2

原创 MLlib学习Basic Statistics

首先介绍：Summary statistics 1、summary statistics（汇总统计） Summary statistics提供了基于列的统计信息，包括6个统计量：均值、方差、非零统计量个数、总数、最小值、最大值。import org.apache.spark.{SparkContext, SparkConf}import org.apache.spark.mllib.

2016-08-15 13:04:13 519

原创 PCA算法的理解，和在kneans中的运用

PCA简单的说，它是一种通用的降维工具。在我们处理高维数据的时候，了能降低后续计算的复杂度，在“预处理”阶段通常要先对原始数据进行降维，而PCA就是干这个事的本质上讲，PCA就是将高维的数据通过线性变换投影到低维空间上去PCA的原理就是将原来的样本数据投影到一个新的空间中，相当于我们在矩阵分析里面学习的将一组矩阵映射到另外的坐标系下。通过一个转换坐标，也可以理解成把一组坐标

2016-08-12 10:57:15 1780

原创 SVD算法实战应用解析

svd底层是怎么实现的就不去细说了，我们先来谈谈到底可以利用svd来做什么。通过调用svd算法，我们可以得到各个属性的特征值，这个特征值越大对我们判断的影响就越大。特征比较小的时候，我们可以直接忽略该特征进行对事物的判断，判断结果也能比较精准，在这里就体现了svd算的降维。下面通过调用mlib的svd算法和kmeans算法来，证实svd降维的准确性。 1，首先调用svd算法对数据进行特

2016-08-11 14:51:54 2394 1

原创 k-means算法原理以及Scala调用MLlib实现

聚类属于无监督学习，以往的回归、朴素贝叶斯、SVM等都是有类别标签y的，也就是说样例中已经给出了样例的分类。而聚类的样本中却没有给定y，只有特征x，比如假设宇宙中的星星可以表示成三维空间中的点集聚类的目的是找到每个样本x潜在的类别y，并将同类别y的样本x放在一起。比如上面的星星，聚类后结果是一个个星团，星团里面的点相互距离比较近，星团间的星星距离就比较远了。

2016-08-10 11:08:30 3459 2

原创 SparkR遇到的问题之找不到路径

第一次在sparkR运行单词计数，遇到到下面问题。16/08/09 11:42:07 ERROR RBackendHandler: collect on 40 failedError in invokeJava(isStatic = FALSE, objId$id, methodName, ...) : org.apache.hadoop.mapred.InvalidInputExcepti

2016-08-09 11:53:56 1797

原创 Svm算法理解以及MLlib实现

首先SVM算法它也是一种分类算法，类似于贝叶斯分类算法，但是在底层的实现还是不同，它可以用更少的样本，训练出更高精度的模型。支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中支持向量机方法是建立在统计学习理论的VC

2016-08-08 14:51:16 2917

原创 Scala实现工资单计算器

在这个案列里利用Scala的map和fold，模拟进行了一个简单的工资计算。object FoldExmple { case class Emplee( name:String, title:String, annualSalary:Double,

2016-08-05 14:32:21 1012

原创 R语言学习记录图形的绘制（二）

开启一个新窗口 dev.new() 输入数据 dose<- c(20,30,40,45,60) drugA<- c(16,20,27,40,60) drugB<- c(15,18,25,31,40) 绘图的样式： plot(dose,drugA,type="p") > plot(dose,drugA,type="l"

2016-08-03 16:16:57 1747

原创 R语言学习记录（一）

1，创建向量 a<-c(1,2,5,3,6,-2,4) 2，查找元素 a[c(2,4)] 3，创建矩阵 y<- matrix(1:20,nrow=5,ncol=4) cells <- c(1,26,24,68) > rnames <-c("R1","R2") > cnames <-c("c1","c

2016-08-03 13:13:05 551

原创 Scala???????

?Scala?????,??????,???,??,?????,?????????????,????????????????,????????????????????????,???????????????????????????????????????????,?????????boolean??????? def Macthing(): Unit ={ val bools=Seq

2016-08-02 12:17:45 735