Azure HDInsight理论篇

什么是 Azure HDInsight?

Azure HDInsight 是 Hadoop 组件的云分发版。
可以通过 Azure HDInsight 轻松、快速且经济有效地处理大量数据。
可以使用 Hadoop、Spark、Hive、LLAP、Kafka、Storm 等最常用的开源框架。
可以通过这些框架启用各种各样的方案,例如提取、转换和加载 (ETL);数据仓库操作;机器学习;IoT。

什么是大数据?

与以前相比,大数据的收集量在增加,收集速度在加快,收集格式在增多。
大数据可以是历史数据(即已存储的数据),也可以是实时数据(即从数据源流式传输的数据)。

为何应使用 Azure HDInsight?

  • 云原生
    可以使用 Azure HDInsight 在 Azure 上为 Hadoop、 Spark、 交互式查询 (LLAP)、 Kafka、 Storm、 HBase 创建优化群集。 HDInsight 还在所有生产工作负荷上提供端到端 SLA。
  • 低成本且可缩放
    可以通过 HDInsight 纵向缩放 工作负荷。 可以通过创建按需群集来降低成本,只为自己使用的资源付费。 还可以生成数据管道,使作业可操作化。 使计算和存储分离,提高性能和灵活性。
  • 既安全又合规
    HDInsight 允许通过 Azure 虚拟网络、加密以及与 Azure Active Directory 集成来保护企业数据资产。 HDInsight 还满足最常用的行业和政府符合性标准。
  • 监视
    Azure HDInsight 集成 Azure Monitor 日志,可以通过单个界面来监视所有群集。
  • 工作效率
    Azure HDInsight 允许将各种适用于 Hadoop 和 Spark 的高效工具与首选的开发环境配合使用。 这些开发环境包括 Visual Studio、VSCode、Eclipse 和 IntelliJ,可以提供 Scala、Python、R、Java 和 .NET 支持。 数据科学家也可以使用 Jupyter 和 Zeppelin 等常用 Notebook 进行协作。
  • 可扩展性
    可以使用脚本操作通过安装的组件(Hue、Presto 等)来扩展 HDInsight 群集,具体方法是:添加边缘节点或集成其他大数据认证应用程序。 HDInsight 允许通过单击部署方式无缝集成最常用的大数据解决方案。

使用 HDInsight 的方案

  • 批处理 (ETL)
    提取、转换和加载 (ETL) 是指将非结构化或结构化数据从异类数据源中提取出来, 转换成某种结构化格式,然后加载到数据存储中这一过程。 可以将转换的数据用于数据科学或数据仓库。
  • 数据仓库
    可以使用 HDInsight 对任何格式的结构化或非结构化数据执行 PB 规模的交互式查询。 也可以通过生成模型将其连接到 BI 工具。
  • 物联网 (IoT)
    可以使用 HDInsight 处理从各种设备实时接收的流数据。
  • 数据科学
    可以使用 HDInsight 生成从数据中提取关键见解的应用程序。 也可在此基础上使用 Azure 机器学习来预测业务的未来趋势。
  • 混合
    可以使用 HDInsight 将现有的本地大数据基础结构扩展到 Azure,充分利用云的高级分析功能。

HDInsight 中的群集类型

  • Apache Hadoop
    一个框架,使用 HDFS、YARN 资源管理和简单的 MapReduce 编程模型并行处理和分析批处理数据。
  • Apache Spark
    一种开源并行处理框架,支持使用内存中处理来提升大数据分析应用程序的性能。
  • Apache HBase
    构建于 Hadoop 上的 NoSQL 数据库,用于为大量非结构化和半结构化数据(可能为数十亿行乘以数百万列)提供随机访问和高度一致性。
  • ML Services
    用于托管和管理并行分布式 R 进程的服务器。 它可让数据科研人员、统计人员和 R 程序员根据需要访问 HDInsight 上可缩放的分布式分析方法。
  • Apache Storm
    分布式实时计算系统,用于快速处理大型数据流。 Storm 以 HDInsight 中的托管群集形式提供。
  • Apache 交互式查询
    用于实现更快的交互式 Hive 查询的内存中缓存。
  • Apache Kafka
    一种开源平台,用于生成流式处理的数据管道和应用程序。 Kafka 还提供了消息队列功能,可用于发布和订阅数据流。

HDInsight 中的编程语言

  • 默认编程语言支持
    Java、Python、.NET、Go
  • Java 虚拟机 (JVM) 语言
    Clojure、Jython (Python for Java)、Scala
  • Hadoop 特定的语言
    用于 Pig 作业的 Pig Latin、用于 Hive 作业的 HiveQL 和 SparkSQL
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Microsoft’s Big Data Platforms The world of data is changing in a big way and expectations about how to interact and analyze that data are changing as a result. Microsoft offers a broad and scalable portfolio of data storage capabilities for structured, unstructured, and streaming data—both on-premises and in the cloud. Microsoft has been present in the traditional BI space through the SQL Server platform which scales quite satisfactorily into the hundreds of gigabytes range without too much need for specialist hardware or clever configuration. Since approximately 2010, Microsoft has also offered a couple of specialist appliances to scale higher: the SQL Server Fast Track Data Warehouse for anything up to 100 terabytes, and the SQL Server Parallel Data Warehouse (PDW) for anything entering the petabyte scale. However, these platforms only deal with relational data and the open-source movement overtook Microsoft (and indeed many other vendors) with the emergence of Hadoop. Microsoft did have a similar platform internally called Dryad but, shortly before Dryad was expected to go live, it was dropped in favor of creating a distribution of Hadoop in conjunction with Hortonworks.1 2 From that decision point, various previews of the platform were made available as on-premises or cloud versions. Early in 2013, the HDInsight name was adopted for the preview (replacing the original “Hadoop on Azure” name) and the cloud platform became generally available in October 2013. The on-premises version is, at the time of this writing, still in preview with no firm release date. Aspects of these technologies are working their way back into the relational world: The 2.0 version of the Parallel Data Warehouse features support for Hadoop including a language called PolyBase that allows queries to include relational and nonrelational data in the same statements.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值