大数据学习资源整理

大数据定义与5V特征:
“大数据”(Big data)研究机构Gartner定义:是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

大数据国内发展历程:
2015年9月,国务院印发《促进大数据发展行动纲要》(以下简称《纲要》),系统部署大数据发展工作。部署三方面主要任务:一要加快政府数据开放共享,推动资源整合,提升治理能力;二要推动产业创新发展,培育新兴业态,助力经济转型;三要强化安全保障,提高管理水平,促进健康发展。到2020年,培育10家国际领先的大数据核心龙头企业,500家大数据应用、服务和产品制造企业。
“工信部信息化和软件服务业司牵头组织编制的《大数据产业发展规划(2016-2020年)》将在年内(2016年)出台。”工信部信息化和软件服务业司司长谢少锋日前出席大数据与信息安全企业家峰会时透露,新一代信息技术产业加速变革,市场应用需求处于爆发期,大数据产业迎来重要的发展机遇。
未来…

大数据国内市场机遇:
2016年5月,贵阳大数据交易所发布《2016年中国大数据交易产业白皮书》,预计2016年末中国大数据产业市场规模将达到2485亿元。随着各项政策的落实,到2020年,中国大数据产业规模或达13626亿元的高点。

启示:
作为一名软件开发人员了解并学习掌握大数据处理方法、与时俱进提升大数据技术技能非常迫切!现整理大数据学习资源列表供学习了解参考,后续将推出大数据开发技术内容(spark)。

大数据源:

政府部门:
中国国家统计局:http://www.stats.gov.cn/english/statisticaldata/AnnualData/
北京市政务数据资源网:BjData.gov.cn
上海政府数据服务网:DataShanghai.gov.cn
中国环境监测站: http://www.cnemc.cn/

企业:
数据堂:http://datatang.com/
MLcomp:http://mlcomp.org/
Amazon: http://aws.amazon.com/datasets
Yahoo: http://webscope.sandbox.yahoo.com/index.php

研究团体:
北京城市实验室:http://www.beijingcitylab.com/
CITYIF: http://www.cityif.com/
Konect: http://konect.uni-koblenz.de/
Stanford: http://snap.stanford.edu/data/index.html
香港城市大学互联网挖掘实验室:http://weblab.com.cityu.edu.hk/blog/

数据可视化:
http://www.dituhui.com/

相关话题:
http://www.quora.com/Where-can-I-find-large-datasets-open-to-the-public

大数据技术资源列表:

  • 框架

  • 分布式编程

  • 分布式文件系统

  • NewSQL数据库

  • 机器学习

  • 基准测试

  • 搜索引擎与框架

框架

  • Apache Hadoop:分布式处理架构,结合了 MapReduce(并行处理)、YARN(作业调度)和HDFS(分布式文件系统);

  • Tigon:高吞吐量实时流处理框架。

分布式编程

  • AddThis Hydra :最初在AddThis上开发的分布式数据处理和存储系统;

  • AMPLab SIMR:用在Hadoop MapReduce v1上运行Spark

  • Apache Beam:为统一的模型以及一套用于定义和执行数据处理工作流的特定SDK语言;

  • Apache Crunch:一个简单的Java API,用于执行在普通的MapReduce实现时比较单调的连接、数据聚合等任务;

  • Apache DataFu:由LinkedIn开发的针对Hadoop and 和Pig的用户定义的函数集合;

  • Apache Flink:具有高性能的执行时间和自动程序优化;

  • Apache Gora:内存中的数据模型和持久性框架;

  • Apache Hama:BSP(整体同步并行)计算框架;

  • Apache MapReduce :在集群上使用并行、分布式算法处理大数据集的编程模型;

  • Apache Pig :Hadoop中,用于处理数据分析程序的高级查询语言;

  • Apache REEF :用来简化和统一低层大数据系统的保留性评估执行框架;

  • Apache S4 :S4中流处理与实现的框架;

  • Apache Spark :内存集群计算框架;

  • Apache Spark Streaming :流处理框架,同时是Spark的一部分;

  • Apache Storm :Twitter流处理框架,也可用于YARN;

  • Apache Samza :基于Kafka和YARN的流处理框架;

  • Apache Tez :基于YARN,用于执行任务中的复杂DAG(有向无环图);

  • Apache Twill :基于YARN的抽象概念,用于减少开发分布式应用程序的复杂度;

  • Cascalog:数据处理和查询库;

  • Cheetah :在MapReduce之上的高性能、自定义数据仓库;

  • Concurrent Cascading :在Hadoop上的数据管理/分析框架;

  • Damballa Parkour :用于Clojure的MapReduce库;

  • Datasalt Pangool :可选择的MapReduce范例;

  • DataTorrent StrAM :为实时引擎,用于以尽可能畅通的方式、最小的开支和对性能最小的影响,实现分布式、异步、实时的内存大数据计算;

  • Facebook Corona :为Hadoop做优化处理,从而消除单点故障;

  • Facebook Peregrine :MapReduce框架;

  • Facebook Scuba :分布式内存数据存储;

  • Google Dataflow :创建数据管道,以帮助其分析框架;

  • Netflix PigPen :为MapReduce,用于编译成Apache Pig;

  • Nokia Disco :由Nokia开发的MapReduc获取、转换和分析数据;

  • Google MapReduce :MapReduce框架;

  • Google MillWheel :容错流处理框架;

  • JAQL :用于处理结构化、半结构化和非结构化数据工作的声明性编程语言;

  • Kite :为一组库、工具、实例和文档集,用于使在Hadoop的生态系统上建立系统更加容易;

  • Metamarkets Druid :用于大数据集的实时e框架;

  • Onyx :分布式云计算

  • Pinterest Pinlater :异步任务执行系统;

  • Pydoop :用于Hadoop的Python MapReduce和HDFS API;

  • Rackerlabs Blueflood :多租户分布式测度处理系统;

  • Stratosphere :通用集群计算框架;

  • Streamdrill :用于计算基于不同时间窗口的事件流的活动,并找到最活跃的一个;

  • Tuktu :易于使用的用于分批处理和流计算的平台,通过Scala、 Akka和Play所建;

  • Twitter Scalding:基于Cascading,用于Map Reduce工作的Scala库;

  • Twitter Summingbird :在Twitter上使用Scalding和Storm串流MapReduce;

  • Twitter TSAR :Twitter上的时间序列聚合器。

分布式文件系统

NewSQL数据库

  • Actian Ingres:由商业支持,开源的SQL关系数据库管理系统;

  • Amazon RedShift:基于PostgreSQL的数据仓库服务;

  • BayesDB:面向统计数值的SQL数据库;

  • CitusDB:通过分区和复制横向扩展PostgreSQL;

  • Cockroach:可扩展、地址可复制、交易型的数据库;

  • Datomic:旨在产生可扩展、灵活的智能应用的分布式数据库;

  • FoundationDB:由F1授意的分布式数据库;

  • Google F1:建立在Spanner上的分布式SQL数据库;

  • Google Spanner:全球性的分布式半关系型数据库;

  • H-Store:是一个实验性主存并行数据库管理系统,用于联机事务处理(OLTP)应用的优化;

  • Haeinsa:基于Percolator,HBase的线性可扩展多行多表交易库;

  • HandlerSocket:MySQL/MariaDB的NoSQL插件;

  • InfiniSQL:无限可扩展的RDBMS;

  • MemSQL:内存中的SQL数据库,其中有优化的闪存列存储;

  • NuoDB:SQL / ACID兼容的分布式数据库;

  • Oracle TimesTen in-Memory Database:内存中具有持久性和可恢复性的关系型数据库管理系统;

  • Pivotal GemFire XD:内存中低延时的分布式SQL数据存储,可为内存列表数据提供SQL接口,在HDFS中较持久化;

  • SAP HANA:是在内存中面向列的关系型数据库管理系统;

  • SenseiDB:分布式实时半结构化的数据库;

  • Sky:用于行为数据的灵活、高性能分析的数据库;

  • SymmetricDS:用于文件和数据库同步的开源软件;

  • Map-D:为GPU内存数据库,也为大数据分析和可视化平台;

  • TiDB:TiDB是分布式SQL数据库,基于谷歌F1的设计灵感;

  • VoltDB:自称为最快的内存数据库。

更多内容至:http://www.devstore.cn/essay/essayInfo/6462.html

推荐,最强大数据学习与最佳实践资料合集,基础+架构+治理+案例,共100份。 一、基础篇 快手EB级HDFS挑战与实践 Hive任务开发规范 一文看懂Hadoop生态圈 资料-CentOS7搭建Hadoop-2.7.7集群 ClickHouse官方中文文档 ETL流程、数据流图及ETL过程解决方案 Google-MapReduce中文版_1.0 Hadoop安装及分布式部署 Hadoop精选面试题和MapReduce编程企业级编程实践 HDFS-part2-原理详解 HDFS核心内容及命令-2020 hive安装 hive语法和常用函数 Kafka安装 kylin安装 mapreduce调优指南 sqoop安装 二、架构篇 Flink-1.11 Hive集成与批流一体 ClickHouse在苏宁用户画像场景的实践 优酷大数据 OLAP 技术选型 阿里数据湖选型 各种系统架构图与详细说明 关于BI工具选型的参考依据 Apache Doris在京东搜索实时OLAP中的应用 ClickHouse官方中文文档 ClickHouse原理解析与应用实践 Doris竞品对比 Doris在美团外卖数仓架构中业务实践与改进思路 DorisDB原理剖析 和应用实践篇2021 Flink 流批一体的技术架构以及在阿里的实践 Flink实时仓库实践 Hadoop开源相关,Flink,Kylin等集群搭建2021 KylinCloud+Hudi实践 三、数仓篇 传统数仓与大数据数仓区别 模板-事实表梳理 模板-维度梳理 模板-业务梳理 模板-指标体系梳理 模板1-数据仓库项目计划 模板2-命名规范 模板3_访谈提问和沟通记录单模板 模板4_公共数据资源管理调研模板 模板5_公共数据资源管理分析模板 模板6-报表需求梳理 内部分享-基于 Hudi 和 Kylin 构建准实时高性能数据仓库 商业银行数据仓库系统V2.0 数据仓库建设方案 数据仓库建设规范模板 数据仓库整体设计方案模板 Hadoop构建数据仓库实践 四、治理篇 快手从模型规范开始的数据治理实践 第12章元数据管理-DAMA-DMBOK:数据管理知识体系 权限管理设计方案 数据安全模板-访问权限梳理表 数据治理服务解决方案 数据治理及数据资产化创新实践-京东 万振龙:数据治理与大数据平台设计 主数据管理实践白皮书(1.0版) Apache atlas使用说明文档 atlas安装 CDH启用kerberos身份认证和sentry权限管理 DAMA-部委级数据治理项目经验分享 GrowingIO 2020指标体系与数据采集 GrowingIO公开课:搭建业务+数据一体化的指标体系 IBM 数据治理统一流程 ISO38500 IT治理国际标准 ISO_IEC_38500_2008_version_PDF 五、案例篇 字节Apache Flink在字节跳动的实践 Hudi on Flink在顺丰的实践应用-蔡适择 滴滴Flink在滴滴出行的应用与实践 阿里基于Flink的实时计算平台 菜鸟在物流场景中基于Apache Flink的流计算实践 腾讯clickhouse实践 Clickhouse玩转每天千亿数据-趣头条 微博基于Flink的机器学习实践 快手稳定性体系建设 快手元数据平台化建设及应用场景 快手指标规范化及OneService平台化实战 Apache Flink 在美团的实践与应用 快手服务治理平台+KESS+的设计理念和实战 快手数据中台建设:大数据服务化之路 快手离线数据全链路分级保障平台化建设 快手万亿级实时 OLAP 平台的建设与实践 ClickHouse在快手的大规模应用与架构改进 美团点评酒旅数据仓库建设实践 美团酒旅数据治理实践 美团外卖为何使用Doris创建数据仓库 内部分享-基于 Hudi 和 Kylin 构建准实时高性能数据仓库 实时数据产品实践——美团大交通战场沙盘 ClickHouse在苏宁用户画像场景的实践 腾讯云clickhouse性能调优实践 融合趋势下基于 Flink Kylin Hudi 湖仓一体的大数据生态体系 ClickHouse 在头条的技术演进 Doris的用户画像人群应用-会议组 Doris在美团外卖数仓架构中业务实践与改进思路 Flink 在 OPPO 的平台研发与应用实践 Flink实时仓库实践 Flink在滴滴的应用实践
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值