
Big Data
闲狗
为了过上优雅从容的狗生。
-
原创 大数据系列学习教程
厦门大学数据库实验室大数据系列学习教程:http://dblab.xmu.edu.cn/blog/HBase入门学习教程:https://blog.csdn.net/nosqlnotes/article/details/79647096HBase 深入浅出:https://www.ibm.com/developerworks/cn/analytics/library/ba-cn...2018-04-08 15:27:09254
0
-
原创 HDFS之脱贫攻略
1 开场白1.1 文件系统(File System)是啥文件系统是操作系统中统一管理信息资源的一种软件,管理文件的存储,检索,更新,提供安全可靠的共享和保护手段,方便用户使用。通过统一的命名空间——目录树来定位管理文件。1.2 常见的文件系统Windows —— FAT16文件系统,FAT32文件系统,NTFS文件系统......2 HDFS(Hadoop Dist...2018-08-13 16:13:231525
0
-
转载 TF-IDF与余弦相似性的应用(三):自动摘要
来源于阮一峰的博文:http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html有时候,很简单的数学方法,就可以完成很复杂的任务。这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。今天,依然继续这个主题。讨论如何通过词频,对文章进...2018-07-26 16:33:1093
0
-
转载 TF-IDF与余弦相似性的应用(二):找出相似文章
来源于阮一峰的博文:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相...2018-07-26 16:21:1174
0
-
转载 TF-IDF与余弦相似性的应用(一):自动提取关键词
来源于阮一峰的博文:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机...2018-07-26 16:20:0654
0
-
转载 贝叶斯推断及其互联网应用(二):过滤垃圾邮件
来源于阮一峰的博文:http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_two.html七、什么是贝叶斯过滤器?正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法,主要有"关键词法"和"校验码法"等。前者的过滤依据是特定的词语;后者则是计算邮件文本的校验码,再与已知的垃圾邮件进行对比。它们的识别效果都不理想,而...2018-07-26 11:48:10184
0
-
转载 贝叶斯推断及其互联网应用(一)
来源于阮一峰的博文:http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.html一、什么是贝叶斯推断贝叶斯推断(Bayesian inference)是一种统计学方法,用来估计统计量的某种性质。它是贝叶斯定理(Bayes' theorem)的应用。英国数学家托马斯·贝叶斯(Thomas Bayes)在...2018-07-25 17:19:501320
0
-
原创 协同过滤算法学习笔记
(通过观看慕课网Hadoop进阶总结出来的笔记:http://www.imooc.com/learn/890)一. 余弦相似度其他的相似度种类1.切比雪夫距离 2.欧式距离 3.皮尔森系数 4.曼哈顿距离 5.杰卡德距离二. 基于物品的协同过滤算法ItemCF算法思想:给用户推荐那些和他们之前喜欢的物品相似的物品1.用户行为与权重例子:用户:A,B,C商品:1,2,3,4,5,6...2018-04-16 11:07:03331
0
-
原创 Docker学习笔记
一. What is Docker?1. 官方解释:Docker is the world's leading software containerization platform2. Docker公司开发,开源,托管在Github,跨平台3. Docker属于Linux容器的一种封装,提供简单易用的容器使用接口。二. Docker解决的问题1. 更高效地利用系统资源由...2018-04-24 10:22:40155
0