- 博客(5)
- 资源 (14)
- 收藏
- 关注
原创 python3爬取<盘龙>英文版(wuxiaworld.com)
闲来无事, 不, 其实我事很多. 但是看到一个好玩的东西就手痒了. www.wuxiaworld.com 国外的中文奇幻小说翻译网站在这个网站上, 我看过且发誓以后再也不会看的 盘龙 赫然在目…思索良久, 本着学习英语, 天天向上的态度, 我决定把它下载下来, 好好把玩一番.但是, 这个网站是不提供下载的, 而且是每一章一个网页. 八百多章, 科科… 于是决定写个爬虫爬下来, 分析一下盘
2016-12-20 20:45:05 8784
原创 TD-IDF在spark中的使用(ml方式)
上一篇 文章提到了TD-IDF的原理和大致使用方式, 现在我写了一个比较完整的例子来展示一下, 该例子包含了数据导入(为了统一, 将文件导入了数据库),处理, 以及结果导出功能.import org.apache.spark.mllib.linalg.Vectorimport com.zte.bigdata.vmax.machinelearning.common.{LogSupport, Crea
2016-12-20 10:56:34 4097 3
原创 TF-IDF原理及使用
一. 什么是TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率). 是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。上述引用总结就
2016-12-18 17:03:50 161436 11
翻译 Spark RDD 到 LabelPoint的转换(包含构造临时数据的方法)
题目: 将数据的某个特征作为label, 其他特征(或其他某几个特征)作为Feature, 转为LabelPoint参考: http://www.it1352.com/220642.html首先构造数据import scala.util.Random.{setSeed, nextDouble}setSeed(1)case class Record(foo: Double, target: D
2016-12-15 21:00:55 9757 3
原创 scala中反射的简单应用
以下是在scala里利用java api写的反射. 之后会更新scala自己的反射机制// A.scala, 存放被反射的类package aaaclass A{ def fun1(a:String) = print(a) def fun2() = print("fun2") val t = 1}//B.scala,主程序入口object B extends App { va
2016-12-02 14:45:10 7332
完全用Linux工作
2012-11-10
程序员羊皮卷.pdf
2010-11-30
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人