数据科学原理
文章平均质量分 93
如是Rushy
研究方向:优化理论与近似算法,运筹学,数据科学与工程
展开
-
WordCount词频统计
WordCount词频统计from educoder实训实训项目地址:https://www.educoder.net/shixuns/aekgf6pz/challenges本关任务词频统计是最能体现MapReduce思想的程序,结构简单,上手容易。词频统计的大致功能是:统计单个或者多个文本文件中每个单词出现的次数,并将每个单词及其出现频率按照<k,v>键值对的形式输出,其基本执行流程如下图所示:由图可知:输入文本(可以不只一个),按行提取文本文档的单词,形成行<k1,v原创 2020-12-23 08:53:43 · 11707 阅读 · 0 评论 -
HDFS文件读写
Hadoop分布式文件系统(HDFS)是hadoop上部署的存储架构。有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。为了熟练应用hadoop,必须对HDFS文件进行创建和读写等操作。本关任务利用HDFS文件系统开放的API对HDFS系统进行文件的创建和读写要求:在HDFS的路径/user/hadoop/下原创 2020-12-23 09:03:53 · 2128 阅读 · 1 评论 -
倒排索引和利用PageRank算法进行网页排序
第三章 倒排索引前面通过词频统计,已经可以找出高频率的“关键词”了,这些词汇出现的频率很高以至于很难直接对其所在的文档进行查找。必须借助一定的关系模型表示单词与文本的关系,然后才可以实现快速搜索查找。单词-文档矩阵是表达这种包含关系的最简洁的概念模型。每列代表文档包含了哪些单词,比如文档1包含了词汇1和词汇4,而不包含其它单词。每行代表了哪些文档包含了某个单词。比如对于词汇1来说,文档1和文档4中出现过单词1,而其它文档不包含词汇1。搜索引擎的索引其实就是实现“单词-文档矩阵”的具体数据结构。可以有原创 2020-12-23 09:16:39 · 2093 阅读 · 0 评论