- 博客(0)
- 资源 (17)
- 收藏
- 关注
Data-Intensive Text Processing with MapReduce Jimmy Lin and Chris Dyer
Contents
1 Introduction
1.1 Computing in the Clouds
1.2 Big Ideas
1.3 Why Is This Dierent?
1.4 What This Book Is Not
2 MapReduce Basics
2.1 Functional Programming Roots
2.2 Mappers and Reducers
2.3 The Execution Framework
2.4 Partitioners and Combiners
2.5 The Distributed File System
2.6 Hadoop Cluster Architecture
2.7 Summary
3 MapReduce Algorithm Design
3.1 Local Aggregation
3.1.1 Combiners and In-Mapper Combining
3.1.2 Algorithmic Correctness with Local Aggregation
3.2 Pairs and Stripes
3.3 Computing Relative Frequencies
3.4 Secondary Sorting
3.5 Relational Joins
3.5.1 Reduce-Side Join 64
3.5.2 Map-Side Join 66
3.5.3 Memory-Backed Join 67
3.6 Summary
4 Inverted Indexing for Text Retrieval
4.1 Web Crawling
4.2 Inverted Indexes
4.3 Inverted Indexing: Baseline Implementation
4.4 Inverted Indexing: Revised Implementation
4.5 Index Compression
4.5.1 Byte-Aligned and Word-Aligned Codes 80
4.5.2 Bit-Aligned Codes 82
4.5.3 Postings Compression 84
4.6 What About Retrieval?
4.7 Summary and Additional Readings
5 Graph Algorithms
5.1 Graph Representations
5.2 Parallel Breadth-First Search
5.3 PageRank
5.4 Issues with Graph Processing
5.5 Summary and Additional Readings
6 EM Algorithms for Text Processing
6.1 Expectation Maximization
6.1.1 Maximum Likelihood Estimation 115
6.1.2 A Latent Variable Marble Game 117
6.1.3 MLE with Latent Variables 118
6.1.4 Expectation Maximization 119
6.1.5 An EM Example 120
6.2 Hidden Markov Models
6.2.1 Three Questions for Hidden Markov Models 123
6.2.2 The Forward Algorithm 125
6.2.3 The Viterbi Algorithm 126
6.2.4 Parameter Estimation for HMMs 129
6.2.5 Forward-Backward Training: Summary 133
6.3 EM in MapReduce
6.3.1 HMM Training in MapReduce 135
6.4 Case Study: Word Alignment for Statistical Machine Translation
6.4.1 Statistical Phrase-Based Translation
6.4.2 Brief Digression: Language Modeling with MapReduce
6.4.3 Word Alignment
6.4.4 Experiments
6.5 EM-Like Algorithms
6.5.1 Gradient-Based Optimization and Log-Linear Models
6.6 Summary and Additional Readings
7 Closing Remarks
7.1 Limitations of MapReduce
7.2 Alternative Computing Paradigms
7.3 MapReduce and Beyond
2012-06-13
计算机体系结构量化研究方法(第4版)英文版
Computer Architecture
A Quantitative Approach
Fourth Edition
John L. Hennessy
Stanford University
David A. Patterson
University of California at Berkeley
2010-06-03
Apriori--Java
▲ Java实现的Apriori算法
▲工程名: Apriori
▲输入:1. 文本文件(放到工程目录下)
格式:每行输入一个事务,每个事务均由整数组成,每个item中间用空格隔开。
2. 控制台输入最小支持度与最小置信度。
▲输出:控制台输出第k个频繁集和强关联规则。
强关联规则也写到工程目录下out.txt文件中。
2010-06-03
算法分析与设计(算法导论)答案Solutions for Introduction to algorithms
Solutions for Introduction to algorithms
second edition
2010-04-01
计算机网络实验指导书
计算机网络实验指导书实验一 以太网数据帧的构成 1
实验二 地址转换协议 4
实验三 网际协议IP 7
实验四 Internet控制报文协议ICMP 13
实验五 Internet组管理协议IGMP 17
实验六 用户数据报协议UDP 21
实验七 传输控制协议TCP 25
实验八 简单网络管理协议SNMP 30
实验九 动态主机配置协议DHCP 38
实验十 域名服务协议DNS 41
实验十一 邮件协议SMTP、POP3、IMAP 46
实验十二 超文本传输协议HTTP 50
实验十三 TELNET与FTP 54
实验十四 路由信息协议RIP 59
实验十五 开放式最短路径优先协议OSPF 64
附录一 仿真编辑器的使用方法 70
附录二 协议分析器的使用方法 77
2009-12-18
java数据结构课程设计——简易GPS导航(最优路径)源码+文档
主要实现查找任意两地点间最短路径并获得其长度,添加地点,删除地点,添加路线,删除路线操作
该系统带有模拟地图的加权无向图,直观的表现各地点间的关系及所做操作的响应结果
可通过鼠标操作或文本输入的形式输入相关信息
该系统还可获取当前时间,帮助信息,菜单栏选项设有热键
获得最短路径的主要思想:贪婪算法
数据结构: 二维数组存储加权无向图
ArrayList存储地点,路径的相关信息
2009-10-23
《计算机网络》(第4版)AndrewS[1].Tanenbaum著清华出版社课后答案【khdaw_lxywyl】
《计算机网络》(第4版)AndrewS[1].Tanenbaum著清华出版社课后答案【khdaw_lxywyl】
2009-10-22
java计算器源码+文档
数据库课程设计计算器——主要实现四则混和运算,简单科学计算,数制间转换,获取系统时间,另有帮助选项并设有热键
类Calculator为程序主体部分,包括GUI的设计,各功能键的响应处理,各种异常的处理及帮助信息的设置
主要思想:1)将中缀表达式转化为后缀表达式 2):根据后缀表达式计算表达式结果
数据结构:堆栈(使用JAVA中util包中Stack类)
列表(使用JAVA中util包中ArrayList类)
界面良好,代码完整可直接运行,文档很好哦!
2009-10-22
java数据库课程设计——图书馆管理系统源码,数据库备份,文档
数据库课程设计--图书馆管理系统:实现图书馆的管理员管理和用户查询等功能,界面良好,感觉舒适。包括源码,数据库备份和课程设计文档,完整可运行。
2009-10-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人