2017年05月_OReillyData

原创为大数据带来交互式的BI

编者注：Kyligence的联合创始人和CEO Luke Han在2017年5月22-25日举行的Strata Data伦敦大会上做题为“Apache Kylin在中国的使用案例”的演讲。基于Hadoop的SQL一直在被持续地改进，但是一个查询要等几分钟到几小时还是非常得正常。在这篇博文里，我们将会介绍开源的分布式分析引擎Apache Kylin。重点介绍它是如何以数量级加速大数据查询，以

2017-05-31 10:08:44 785

原创使用大数据推动东南亚前行 [session]

讲师：Feng Cheng (Grab), Edwin Law (Grab) 11:15–11:55 Friday, 2017-07-14 数据工程和架构 (Data engineering and architecture) 英文讲话地点：紫金大厅B 观众水平：Non-technical 必要预备知识 A basic understanding of ride-haili

2017-05-26 17:15:26 1630

原创 Apache Hadoop 3.0的特性和开发进展的更新 [session]

讲师：Andrew Wang (Cloudera), Daniel Templeton (Cloudera) 11:15–11:55 Friday, 2017-07-14 Hadoop内核&发展 (Hadoop internals & development) 英文讲话地点：多功能厅2 观众水平：Beginner 必要预备知识 A high-level understanding

2017-05-26 17:15:26 347

原创使用R和Apache Spark处理大规模数据 [session]

讲师：Xiaoyong Zhu (Microsoft) 11:15–11:55 Friday, 2017-07-14 数据科学&高级分析 (Data science & advanced analytics) 地点：多功能厅5B＋C 观众水平: 中级必要预备知识 A basic understanding of R, Spark, and machine learning 您将学

2017-05-26 17:15:26 236

原创 Spinach: 使用Spark SQL进行即席查询 [session]

讲师：Daoyuan Wang (Intel), 李元健 (百度) 13:10–13:50 Friday, 2017-07-14 Spark及更多发展 (Spark & beyond) 地点：紫金大厅B 观众水平：中级必要预备知识观众需要了解Spark SQL或了解数据查询相关知识，最好能够了解Spark SQL的data source API。您将学到什么使用分布式索引

2017-05-26 17:15:26 1652

原创科学领域中的深度学习一览

编者注：可以通过阅读Nikhil Buduma的《深度学习基础》来了解这个复杂而令人兴奋的领域的关键概念。深度学习在很多商业应用中取得了前所未有的成功。大约十年以前，很少有从业者可以预测到深度学习驱动的系统可以在计算机视觉和语音识别领域超过人类水平。在劳伦斯伯克利国家实验室（LBNL）里，我们面临着科学领域中最具挑战性的数据分析问题。虽然商业应用和科学应用在所有分析任务方面（分类、聚类、异

2017-05-22 12:11:06 1185

原创 [Strata Data Conference培训课程] Apache Spark高级实践和原理解析

这几年随着大数据分析和机器学习等等在工业界中越来越广泛的应用，越来越多的人选择在大数据平台比如Apache Spark之上构建大规模数据处理、分析和机器学习，以便利用大量原始数据和扩展架构。如何深入理解大数据关键技术并更好的运用它们？本次课程将结合当前大数据技术的浪潮和趋势，为您介绍Apache Spark的高级实践和原理解析，帮助您加深领会Apache Spark的精华设计思想，以及如何与流式分

2017-05-19 17:31:59 331

原创 AI应从神经科学中借鉴想法和思路

编者注：在这里登记报名可以下载即将出版的由Jack Clark编写的报告《人工智能：教会机器像人一样思考》。本文所刊载的采访是收录在这篇报告中一系列采访之一。根据Geoff Hinton（经常被誉为深度学习的“教父”）的观点，更好地理解神经元产生脉冲的原因可以带来更聪明的人工智能系统，其可以更有效地存储更多的信息。 Geoff Hinton是多伦多大学的荣誉退休杰出教授和谷歌的工程院士。

2017-05-15 11:09:43 327

原创 [Strata Data Conference培训课程] 数据科学精髓：互联网金融实例-量化线上金融信用与欺诈风险的评估

您想了解互联网金融幕后的量化分析流程吗？个人信用是怎样通过大数据被量化的？在实践过程中，机器学习算法的应用存在着哪些需要关注的方面？怎样通过图谱分析来融合多维数据，为我们区分正常用户和欺诈用户？这套辅导课基于清华大学交叉信息研究院2017年春天新开设的一门"量化金融信用与风控分析”研究生课。其中会用LendingClub的真实借贷数据做为案例，解说一些具体模型的实现。您将学到什么及如何应

2017-05-12 14:31:18 576

原创关于如何解释机器学习的一些方法

编者注：更多有关机器学习、预测与技术的前沿进展，请查看在2017年7月12日-15日于北京举办的Strata Data大会数据科学与高级分析技术议题系列。到现在你可能听说过种种奇闻轶事，比如机器学习算法通过利用大数据能够预测某位慈善家是否会捐款给基金会啦，预测一个在新生儿重症病房的婴儿是否会罹患败血症啦，或者预测一位消费者是否会点击一个广告啦，等等。甚至于，机器学习算法还能驾驶汽车，以及预

2017-05-08 11:24:41 2201

原创重要通知｜Strata Data Conference北京站最优惠票价今天截止。

“最优秀的数据科学会议——同样重视技术和商业——也是一个非常好的社交机会。” 您好！ Strata Data Conference将在7月12-15日在北京国际饭店会议中心召开。在Strata Data Conference，您将邂逅技术和商业界的思想领袖，例如： Zhe Zhang（Linkedin） Jieping Ye（Didi Research） Jia Zou（Mobi

2017-05-05 11:19:34 289

原创用TensorFlow为图片添加字幕

编者注：读者请注意，本文相应的Python代码和iPython notebook都在GitHub上，我们邀请你去访问。如何使用TensorFlow来构建和训练一个图片字幕生成器图片字幕生成模型结合了近年来计算机视觉和机器翻译方面的进步，通过使用神经网络来生成现实图片的字幕。对于一个给定的输入图片，神经图像字幕模型被训练来最大化生成一个字幕的可能性。可以被用来产生新颖的图像描述。例如，下

2017-05-02 16:18:39 752

原创 Strata Data Conference北京站最优惠票价期截止到本周五为止

Strata Data Conference是关于数据、机器学习及分析如何改变商业和社会本身的领先会议。来自各种规模创新公司的顶尖数据科学家、分析师和管理人员聚集一堂，分享深入、难以获取的知识。该活动之前作为Strata + Hadoop World创建于2012年，O'Reilly和Cloudera将两个成功的大数据会议组合在一起。主题演讲讲师如下：部分议题讲师如下：

2017-05-02 16:18:39 249

OReillyData