原创 希望我在开始第一个机器学习项目之前就了解的那些事儿

摘要: 一份机器学习过来人的经验清单分享,主要是包含一些关于构建机器学习工作流以及Apache Spark应该注意的一些事项,希望这个清单能够帮助那些正在学习机器学习的相关人员少走一些弯路,节约一些时间。当我们学习任何一个新的内容或遇到新的事情时,随着时间的推移,可能回过头来会发现,当时要是怎样结...

2018-03-30 16:56:00 311 0

原创 使用PyTorch从零开始构建Elman循环神经网络

摘要: 循环神经网络是如何工作的?如何构建一个Elman循环神经网络?在这里,教你手把手创建一个Elman循环神经网络进行简单的序列预测。本文以最简单的RNNs模型为例:Elman循环神经网络,讲述循环神经网络的工作原理,即便是你没有太多循环神经网络(RNNs)的基础知识,也可以很容易的理解。为了...

2018-03-30 16:16:28 710 0

原创 你需要熟练运用的12个命令行工具

摘要: 本文简要介绍了当前较为流行的12种对数据科学任务有价值的类Unix操作系统命令行工具:wget,cat,wc,head,tail,find,cut,uniq,awk,grep,sed,history。这篇文章简要介绍了十几种用于数据科学任务的类Unix操作系统命令行工具。这些工具并不包括通...

2018-03-30 15:42:15 1972 0

原创 深圳云栖大会人工智能专场:探索视频+AI,玩转智能视频应用

摘要: 在人工智能时代,AI技术是如何在各行业和领域真正的发挥应用和商业价值,带来产业变革才是关键。在3月28日深圳云栖大会的人工智能专场中,阿里云视频服务技术专家邹娟将带领大家探索熟悉的视频场景中,AI技术如何应用落地,解决实际业务场景中的问题。众所周知,全民视频时代已经来临,用户的注意力已经从...

2018-03-30 15:12:28 289 0

原创 使用NAT网关轻松为单台云服务器设置多个公网IP

摘要: 背景 在应用中,有时会遇到用户询问如何使单台云服务器具备多个公网IP的问题。 具体如何操作呢,有了NAT网关这个也不是难题。 配置单云主机多公网IP功能流程 1、为ECS实例配置多块网卡。 2、创建NAT网关。背景在应用中,有时会遇到用户询问如何使单台云服务器具备多个公网IP的问题。具体如...

2018-03-30 14:40:29 3180 0

原创 NAT网关之SNAT进阶使用(二)构建ECS级别SNAT出网方式

摘要: NAT网关是云上VPC ECS访问Internet的出入口。阿里云NAT网关控制台创建SNAT条目默认只支持交换机粒度。如何设置ECS粒度的SNAT规则呢,本文将为您揭晓。背景NAT网关是云上VPC ECS访问Internet的出入口。阿里云NAT网关控制台创建SNAT条目默认只支持交换机...

2018-03-30 14:08:45 540 0

原创 MaxCompute与OSS非结构化数据读写互通(及图像处理实例)

摘要: MaxCompute作为阿里巴巴集团内部绝大多数大数据处理需求的核心计算组件,拥有强大的计算能力,随着集团内外大数据业务的不断扩展,新的数据使用场景也在不断产生。在这样的背景下,MaxCompute(ODPS)计算框架持续演化,而原来主要面对内部特殊格式数据的强大计算能力,也正在一步步的通...

2018-03-30 11:42:31 240 0

原创 MaxCompute理解数据、运算和用户的大脑:基于代价的优化器

摘要: 回顾大数据技术领域大事件,最早可追溯到06年Hadoop的正式启动,而环顾四下,围绕着数据库及数据处理引擎,业内充斥着各种各样的大数据技术。在云栖社区2017在线技术峰会大数据技术峰会上,阿里云大数据计算平台架构师林伟做了题为《MaxCompute的大脑:基于代价的优化器》的分享,为大家分...

2018-03-30 10:13:55 206 0

原创 Jupyter Notebook数据科学高效技巧

摘要:本文有一些关于JupyterNotebook的干货,希望看完文章可以给你带来收获当我学习有关深度学习的优秀的fast.ai课程时,我学到了很多适用于通用软件工程的干货。我写这篇文章是为了总结这些技巧并与你分享。1.Jupyter Notebook拓展标准的Jupyter Notebook很不...

2018-03-29 14:54:40 552 0

原创 (Python)时序预测的七种方法

摘要:大多数人都听说过关于Cryptocurrency,许多人也许会投资他们的加密货币。但是,投资这种不稳定的货币安全吗?怎样才能确保现投资这些硬币未来一定能带来稳定的收益呢?我们不能确定,但肯定能根据以前的价格产生一个近似值。时序模型是预测的一种方法。介绍大多数人都听说过关于Cryptocurr...

2018-03-29 13:58:52 8018 0

原创 使用Helm 在容器服务k8s集群一键部署wordpress

摘要: Helm 是啥? 微服务和容器化给复杂应用部署与管理带来了极大的挑战。Helm是目前Kubernetes服务编排领域的唯一开源子项目,做为Kubernetes应用的一个包管理工具,可理解为Kubernetes的apt-get / yum,由Deis 公司发起,该公司已经被微软收购。Helm...

2018-03-29 13:32:32 584 0

原创 Kubernetes之路 1 - Java应用资源限制的迷思

摘要: 随着容器技术的成熟,越来越多的企业客户在企业中选择Docker和Kubernetes作为应用平台的基础。然而在实践过程中,还会遇到很多具体问题。本文分析并解决了Java应用在容器使用过程中关于Heap大小设置的一个常见问题。随着容器技术的成熟,越来越多的企业客户在企业中选择Docker和K...

2018-03-29 13:00:40 1110 0

原创 异构计算助力客户春节webp图片编码

摘要: 背景与挑战 技博客 GigaOM 曾报道:YouTube 的视频略缩图采用 WebP 格式后,网页加载速度提升了 10%;谷歌的 Chrome 网上应用商店采用 WebP 格式图片后,每天可以节省几 TB 的带宽,页面平均加载时间大约减少 1/3;Google+ 移动应用采用 WebP 图...

2018-03-29 11:41:33 238 0

原创 机器学习用于金融市场预测难在哪?

摘要:本文主要讲述了机器学习用于金融市场预测难在哪?——金融间序是典型的部分可见马尔科夫决策过程(POMDP)·数据分布·小样本·难以计算的数据·十分复杂·部分可见马尔科夫决策过程·推荐系统的相似性·结束思索金融市场已经成为最早的采用机器学习(ML)市场之一。20世纪80年代以来,人们一直在使用M...

2018-03-29 11:18:55 1711 0

原创 想要成为数据科学家?知道这11种机器学习算法吗?

摘要: 想要成为数据科学家?知道这十几种机器学习算法吗?赶快来了解一下吧,文中附各种算法的资源地址!机器学习从业者都有不同的个性,虽然其中一些人会说“我是X方面的专家,X可以训练任何类型的数据”,其中X是某种算法。但是,我们不得不承认的是在现实生活当中,不存在一个X可以训练任何类型的数据。某些算法...

2018-03-29 10:54:44 274 0

原创 实体嵌入(向量化):用深度学习处理结构化数据

摘要:本文详细阐述了深度学习如何来实现处理结构化数据的方法。嵌入源自于NLP(word2vec)中的单词学习,上图来自Aylien本博文将涉及机器学习中两个重复出现的问题:第一个问题是深度学习在图像和文本中都有较好的表现,我们又如何将其用于表格数据?其次,在构建机器学习模型时,你必须始终问自己一个...

2018-03-29 10:36:47 3995 0

原创 厉害了,蚂蚁金服!创造了中国自己的数据库OceanBase

摘要: 两万字长文带你了解关于OceanBase的一切!2008年,王坚从微软亚洲研究院常务副院长的位置上离职后,于当年9月加入了阿里巴巴集团担任首席架构师一职,负责集团技术架构以及基础技术平台建设。加入阿里没多久后,王坚就提出了“去IOE”的想法,即摆脱过去IT系统中对IBM小型机、Oracle...

2018-03-28 15:36:17 684 0

原创 【实操手册】一篇文章教你快速开始使用视频点播

摘要: 阿里云视频点播(VoD)是集音视频采集、编辑、上传、自动化转码处理、媒体资源管理、分发加速、视频播放于一体的一站式音视频点播解决方案。 用户可以通过阿里云管理控制台进行基本和高级 VoD 配置、操作,还可以通过视频点播开发工具包(SDK)或直接在应用程序中进行 RESTful API 调用...

2018-03-28 15:05:01 612 0

原创 全新一代人工智能计算引擎MaxCompute杭州开服,强化阿里云大数据能力,比肩谷歌微软...

摘要: 3月22日,阿里云将正式开服售卖华东1(杭州)节点的大数据计算服务MaxCompute,以进一步提升对华东区域客户服务的响应速度,推动杭州大数据、人工智能产业的加速发展。日前,全球权威调研机构Forrester发布《2018年一季度云端数据仓库》报告。报告对大数据服务商的主要功能、区域表现...

2018-03-28 14:24:35 219 0

原创 区块链如何改变AI

摘要:区块链和人工智能,这两种常常被误解的技术,它们怎样增强数据处理能力?本文将对其进行详细介绍。区块链被吹捧为一种新兴技术,它有可能对每个行业造成影响。区块链的分布式系统与当今使用的固有集中式操作系统相对立。采用分布式数据库架构形式,某些操作的记录和身份验证取决于多方的协议,而不仅仅是单一的权限...

2018-03-28 14:00:22 365 0

原创 AI研究公司面试准备指南

摘要:本篇内容主要是汇集了一些如何应付人工智能公司面试所需要的一些资源,主要内容是博客、教材和课程等。年已过尽,春招和实习已经在路上。相信大家对于去年秋招岗位的薪资多少有些了解,比较热门的一些岗位大多与人工智能相关,一些公司也开出了相当可观的薪资来抢人,这也表明了市场看好人工智能未来的发展。本篇内...

2018-03-28 12:14:51 439 0

原创 QuickBI助你成为分析师——搞定数据源

摘要: QuickBI支持多种数据源连接,添加数据源是数据分析展示的第一步,下面来详细介绍一下产品数据源支持情况!Quick BI是一个基于云计算的灵活的轻量级的自助BI工具服务平台,提供海量数据即时分析 ,拖拽式操作、丰富的可视化效果,帮助您轻松自如地完成数据分析、业务数据洞察 。它不仅是业务人...

2018-03-28 11:38:45 445 0

原创 5种最流行的AI编程语言

摘要:有没有兴趣来了解更多与AI开发有关的内容? 本文将介绍创建AI程序时可以使用的5种最佳语言。有没有兴趣来了解更多与AI开发有关的内容?本文将介绍创建AI程序时可以使用的5种最佳语言。PythonPython语法简单,功能多样,是开发人员最喜爱的AI开发编程语言之一。对于开发人员来说,Pyth...

2018-03-28 11:04:58 398 0

原创 QuickBI助你成为分析师——数据源FAQ小结

摘要: 添加数据源的时候经常会遇到各种问题,下面来讲解一下常见情况,若仍有疑问扫码咨询哦!使用 Quick BI 分析数据时,需要先指定原始数据所在的数据源,测试连通数据源是数据分析的基础,下面让我们看一下添加数据源时常遇到的问题吧!MaxCompute注意以下几点:AccessId和Access...

2018-03-28 11:04:02 228 0

原创 车纷享:基于阿里云HBase构建车联网平台实践

摘要: 1. 业务介绍 车纷享是国内首家进行汽车共享开发和运营的公司。旗下共享汽车平台采用新能源汽车作为运营工具以B2C+C2C汽车共享作为商业运营模式采用车联网技术作为运营管理技术目前已与国内多个城市建立合作。1. 业务介绍车纷享是国内首家进行汽车共享开发和运营的公司。旗下共享汽车平...

2018-03-28 10:33:41 421 0

原创 一份关于机器学习中线性代数学习资源的汇总

摘要:本文是一份关于机器学习中线性代数学习指南,所给出的资源涵盖维基百科网页、教材、视频等,机器学习从业者可以从中选择合适的资源进行学习。对于机器学习而言,要学习的特征大多数是以矩阵的形式表示。线性代数是一门关于矩阵的数学,也是机器学习领域中的一个重要支柱。对初学者来说,线性代数可能是一个富有挑战...

2018-03-28 10:16:15 831 0

原创 机器学习和人工智能的初学指南

摘要:作者自学机器学习和人工智能,站在一个初学者的角度来回顾这些经历并编写这篇适合初学者的指南。我自学过一年机器学习和人工智能,我认为初学者在该领域还没有一个学习的途径,这是我创建这个指南的目的。在过去的几个月里,我试着每天花几个小时了解这个领域,无论是观看Youtube视频还是看各种资料,现在我...

2018-03-28 09:42:55 523 2

原创 五个非常实用的自然语言处理资源

摘要:正在学习NLP,手中没有资源?快来看看这些免费的NLP学习资源吧!如果你对自然语言处理方面的资源感兴趣,请仔细阅读本篇文章。运行数据科学POC的7个步骤网上有很多依靠深度学习方法的NLP资源,有一些资源理论深厚,十分经典,特别是斯坦福大学和牛津大学的NLP,其深度学习课程为:l自然语言处理与...

2018-03-27 14:35:22 1185 0

原创 MaxCompute 中的Code Generation技术简介

摘要: 前言 在《数据库系统中的Code Generation技术介绍》中,我们简单介绍了一下Code Generation技术及其在大规模OLAP系统,特别是大规模分布式OLAP系统中的重要性。MaxCompute采用了Code Generation技术来提高计算效率。在MaxCom...

2018-03-27 14:25:32 190 0

原创 MaxCompute Tunnel SDK数据上传利器——BufferedWriter使用指南

摘要: MaxCompute 的数据上传接口(Tunnel)定义了数据 block 的概念:一个 block 对应一个 http request,多个 block 的上传可以并发而且是原子的,一次同步请求要么成功要么失败,不会污染其他的 block。这种设计对于服务端来讲十分简洁,但是也把记录状态...

2018-03-27 13:50:19 200 0

原创 关于机器学习,你需要知道的三件事!

摘要:MATLAB开发运营团队深度解析何为机器学习,什么时候使用机器学习,如何选择机器学习算法,MATLAB到底能为机器学习提供怎样的便利?机器学习是一种数据分析技术,让计算机执行人和动物与生俱来的活动:从经验中学习。机器学习算法使用计算方法直接从数据中“学习”信息,而不依赖于预定方程模型。当可用...

2018-03-27 13:03:01 305 0

原创 MaxCompute Console 实用小命令

摘要: MaxCompute Console 可以从 这里 下载。在阿里云官网可以查看 帮助文档。 这里跟大家分享一些 MaxCompute Console 中实用的小命令。MaxCompute Console 可以从 这里 下载。在阿里云官网可以查看 帮助文档。这里跟大家分享一些 MaxComp...

2018-03-27 11:51:14 558 0

原创 历史回顾——NLP问题解决方案的演变史

摘要:回顾NLP问题的解决方案,探寻当下最流行的NLP技术,激发NLP问题新的解决方案!NLP-深度学习时代之前:在深度学习来临之前的日子里,在自然语言处理算法(NLP)领域出乎意料地有许多相对成功的经典挖掘算法,对于像垃圾邮件过滤或词类标记问题可以直接使用可解释的模型来解决它们。但并非所有问题都...

2018-03-27 11:35:06 1156 0

原创 使用 MaxCompute(原ODPS) java sdk 运行安全相关命令

摘要: 使用 odps console 的同学,可能都使用过 odps 安全相关的命令。转自zhenhong使用 MaxCompute console 的同学,可能都使用过 odps 安全相关的命令。官方文档上有详细的 odps 安全指南,并给出了安全相关命令列表。简而言之,权限管理、项目空间安全...

2018-03-27 11:22:02 283 0

原创 结合Apache Kafka生态系统,谈谈2018年机器学习5大趋势

摘要:让我们来研究下U`ber和Netflix上的KSQL,ONNX,AutoML和机器学习平台,看看它们之间是如何相互关联的。 在2018慕尼黑OOP会议上,我展示了使用Apache Kafka生态系统和深度学习框架(如TensorFlow,DeepLearning4J)构建可扩展关键型(mis...

2018-03-27 10:49:13 287 0

原创 深度学习工作机制通俗介绍

摘要:本文是深度学习基础性介绍,以降维的角度分析卷积神经网络模型,并着重说明了目前人工智能存在的不科学性。在本文之前,写过一些关于人工智能的科普性文章,比如人工智能为什么能起作用、模型是什么以及如何去创建模型、还原论和整体论以及降维过程(需外网)。这些基础性的文章使得我们能够更好地理解机器学习,感...

2018-03-27 10:02:03 684 0

原创 与机器学习算法有关的数据结构

摘要:在机器学习中需要运用到许多数据结构,掌握它们是非常重要的。希望本文能有所帮助拥有机器学习技能是不够的。你还需要良好的数据结构的工作知识。学习更多,并解决一些问题。因此,你已经决定不再使用固定的算法并开始编写自己的机器学习方法。也许你已经有了一种新的集群数据的新方法,或者你可能对你最喜欢的统计...

2018-03-26 17:07:13 1422 0

原创 机器学习的未来——深度特征融合

摘要:深度特征融合是一项能够克服机器学习不足,为机器学习打开通往未来大门的新技术。新技术要不要了解一下?即使是最敏锐的技术布道师也无法预测大数据对数字革命的影响。因为他们最初的关注点都聚焦在了扩大基础设施以构建现有服务上。在提高对现有数据的处理能力时,许多的新技术被提出。关于机器学习的概念最早诞生...

2018-03-26 16:24:33 5173 0

原创 深入解读:获Forrester大数据能力高评价的阿里云DataWorks思路与能力

摘要: Forrester发布了Now Tech: Cloud Data Warehouse Q1 2018报告,报告对云化数据仓库(Cloud Data Warehouse, CDW)的主要功能、区域表现、细分市场和典型客户等进行了全面评估。1.前言本文基于Now Tech: Cloud Dat...

2018-03-26 16:12:05 271 0

原创 NSURLProtocol 拦截 NSURLSession 请求时body丢失问题解决方案探讨

摘要: “IP直连方案”主要在于解决DNS污染、省去DNS解析时间,通常情况下我们可以在项目中使用 NSURLProtocol 拦截 NSURLSession 请求,下面将支持 Post 请求中面临的一个挑战,以及应对策略介绍一下。“IP直连方案”主要在于解决DNS污染、省去DNS解析时间,通常情...

2018-03-26 15:40:30 744 0

提示
确定要删除当前文章?
取消 删除