TowardsDataScience 博客中文翻译 2016~2018(三百一十四)

原文:TowardsDataScience Blog

协议:CC BY-NC-SA 4.0

每周精选

原文:https://towardsdatascience.com/weekly-selection-903e70d9006e?source=collection_archive---------4-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

亲爱的读者和投稿人:

请在这里找到我们本周的精选:

一种新型深度神经网络

尤金尼奥·库勒切罗—7 分钟阅读。

这种新型的神经网络是最初的前馈模型 LeNet5 / AlexNet 及其衍生物的进化,包括比ResNet/Inception更复杂的旁路方案。这些前馈神经网络也被称为编码器、,因为它们将图像压缩和编码成更小的表示向量。

为什么您的车型需要保养

作者马丁·施密茨博士——3 分钟阅读。

人们通常认为给定的模型可以永远投入使用。其实恰恰相反。你需要像维护机器一样维护你的模型。机器学习模型可以超时下车或者坏掉。这对你来说听起来很奇怪,因为它们没有移动的部分?嗯,你可能想仔细看看概念的变化和漂移。

犯错是算法:算法的易错性和经济组织

胡安.马特奥斯-加西亚——17 分钟阅读。

深入挖掘当今一些最大的技术争议,你可能会发现一种算法失灵了:

  • YouTube 广告争议:该算法将一些最大的全球品牌的广告放在带有仇恨言论的视频上
  • 脸书视频争议:该算法在其用户订阅源中发布暴力视频。

数据好奇 2017 年 5 月 8 日:上周的数据故事、数据集和可视化综述

本杰明库利 — 5 分钟阅读。

每个星期,我都会把在网上找到的大量与数据相关的很酷的东西剪辑、保存并加入书签。以下是 5 月 1 日这一周吸引我眼球的内容。在典型的时事通讯中,我会包含一堆链接供你点击,保存起来以后再看(没关系,我们都这样做)。为了赶上下周的帖子,请在媒体上关注我的最新消息。我也在推特上

Keras 教程:Python 中的深度学习

Karlijn Willems — 25 分钟读取。

现在,你可能已经知道机器学习,这是计算机科学的一个分支,研究可以学习的算法的设计。今天,你们将关注深度学习,这是机器学习的一个子领域,是一套受大脑结构和功能启发的算法。

用 One2Seq 模型像特朗普一样发推特

戴夫·柯里(Dave Currie)——11 分钟阅读。

在本文中,我将向您介绍我的项目的大部分内容,我创建了一个一对一的模型,可以生成类似于 Trump 的推文。实际模型与我在“如何构建您的第一个聊天机器人”文章中构建的模型非常相似。

字加起来!

艾德·怀尔德-詹姆士——4 分钟阅读。

你在学数学的时候,有没有想过加数字以外的东西?如果 1 + 2 = 3,那你为什么不能说“绿色+水果=苹果?”

每周精选

原文:https://towardsdatascience.com/weekly-selection-91038bc59ca0?source=collection_archive---------4-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

深度学习背景去除

吉迪施佩尔 — 16 分钟读完。

在过去几年的机器学习中,我一直想打造真正的机器学习产品。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Support us on Patreon.

走向数据科学是一份独立的出版物。为了保持我们的开放和编辑自由,我们要求我们的支持者承诺一小笔捐款来帮助我们竞选。非常感谢!

软件架构模式

通过阿努拉达维克拉马拉奇 — 3 分钟读取。

这是大多数企业级应用程序中最常见的架构模式。假设层数为 n ,这也被称为 n 层模式。这是 JAVA EE 应用程序的事实模式。

什么是机器学习?

俞凤 G — 4 分钟读出。

这个世界充满了数据。很多很多数据。从图片、音乐、文字、电子表格、视频等等。看起来短期内不会减缓。机器学习带来了从所有这些数据中获取意义的希望。

大数据会有偏见,如果我们听之任之

费德里卡·佩尔泽——7 分钟阅读。

如果我每次听到“数据不会说谎”都能得到一便士…

泰勒斯威夫特 vs 人工智能:谁更胜一筹?

由 Shreya Shankar — 3 分钟读完。

我从小就是泰勒·斯威夫特的超级粉丝。我中学时代 iPod Nano 的顶级播放歌曲都是从 讲到现在的

使用预先训练的 word2vec 进行迷因搜索

By Eyyüb Sari — 6 分钟读完。

模因抵得上千言万语。它们是一种文化。我和我的朋友过去常常用 Giphy 在 Messenger 上发送很多这样的消息。

人文专业毕业生要考虑数据科学

卡森·福特 — 5 分钟阅读。

我的职业轨迹有些不寻常。早在 2009 年,我本科毕业,获得了古典语言学位,不久后又获得了同一领域的硕士学位,之后继续攻读博士学位。

如何通过 5 个步骤开始使用指标

梅琳达·埃尔姆博格 — 6 分钟阅读。

所以,你已经决定使用度量,祝贺你!你会得到奖励!现在艰苦的工作开始了,你从哪里开始呢?下面的几个步骤应该会对你有所帮助。

每周精选

原文:https://towardsdatascience.com/weekly-selection-9795aa406956?source=collection_archive---------10-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是第一次计算机可视化吗?

冒险中的数据 — 3 分钟读取。

有一段时间,我一直在寻找第一个计算机数据可视化。

做数据科学更快

通过罗布·托马斯 — 3 分钟读取。

人工智能是许多企业的目标。但是,为了做人工智能,一个组织需要机器学习。而且,没有分析,机器学习是不可能的。

使用 Tensorflow 对象检测 API 构建玩具检测器

通过 Priya Dwivedi — 5 分钟阅读。

这个项目是我的热门项目的第二阶段-Google tensor flow 物体检测 API 是实现图像识别最简单的方法吗

学术生态系统被破坏了,下面是我们应该如何恢复它

由 Sofija Melnikaite — 8 分钟读取。

我在伦敦大学学院(University College London)攻读组织心理学硕士学位时,意识到学术界的生态系统遭到了破坏,而目前我们没有采取多少措施来恢复它。

PyTorch 教程精华

伊拉里昂·赫列斯托夫——7 分钟阅读。

当我刚开始研究 PyTorch 时,几天后我就放弃了。与 TensorFlow 相比,我很难理解这个框架的核心概念。

使用 Scrapy 构建自己的数据集

由迈克尔·加拉尼克 — 7 分钟读完。

当我刚开始在工业界工作时,我很快意识到的一件事是,有时你必须收集、组织和清理你自己的数据。

阿姆斯特丹的环境救星:循环经济

劳伦麦克森 — 9 分钟阅读。

原材料是一种有限的资源。随着依赖这些资源的行业数量的增加(如智能手机和平板电脑的金属),消费者的数量也在增加。

TED 中反复出现的话题是什么

汉娜·韩嫣 3 分钟阅读。

今天我探索了 TED 演讲的数据、主题和观众。鉴于 TED 上想法的多样性,演讲通常有几个相关的主题和标签。

如今五家企业如何使用人工智能和大数据

由克拉克·博伊德 — 8 分钟读完。

预测分析可以定义为一种数据挖掘形式,它使用统计建模来分析历史模式,然后使用这些模型来预测未来的结果。

每周精选

原文:https://towardsdatascience.com/weekly-selection-a486a5b5e411?source=collection_archive---------13-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

是什么让美国如此伟大?一个科学家的视角

dj 帕蒂尔 — 8 分钟阅读。

从我们走上街头为科学游行到现在刚刚一个多星期。这是多么不可思议的一天——因为你参加了 600 多次游行!!!

用 Spark 打造 Spotify 的“发现周刊”

Moorissa Tjokro — 6 分钟读取。

今天是我在 NBC Universal 实习的第三天,我受到鼓舞要实现一个新的目标:在今年夏天离开 30 Rock 1221 Campus 之前掌握 Spark。

数据科学与公共政策交汇处的思考

琼王 — 4 分钟读完。

“有意思……数据科学与公共政策有什么关系?”当我告诉别人我是计算分析和公共政策的硕士生时,这是一个普遍的反应。我仍在努力为这个问题寻找完美、简洁的答案。

大峡谷:玩神,在 Python 里

赛斯·格林 — 8 分钟读出。

大峡谷是一个小小的模拟生态系统,有三种动物:草、兔子和狼。草长在岩石上,然后被兔子吃掉。兔子反过来被狼吃掉。每过一年,每只动物都会做三件事情中的一件:1)繁殖,如果她有足够的能量 2)吃食物,如果食物在她旁边,增加她的能量 3)移动,如果她旁边没有食物,减少她的能量

关于数据科学,什么样的纸牌屋是正确的(和错误的)

马特布雷姆斯 — 8 分钟阅读。

鉴于最近发布了两部 《纸牌屋》第五季预告片和即将发布的值得狂欢的网飞系列第五季,这是做两件事的绝佳机会:一是立即重新观看该系列。两人回顾了《纸牌屋》第四季如何使用数据科学家,以及他的工作如何很好地反映了现实世界的数据科学。

机器学习、外星知识和其他不明飞行物

彼得·斯威尼 — 8 分钟读取。

深度学习会产生我们无法解释的观察结果。这是理论的终结还是深入解释的战斗口号?对大卫·温伯格的回应。

人工智能咨询如何伤害你的数字化转型

马丁·施密茨博士——4 分钟阅读。

你对人工智能如何提升你的业务有很好的想法?你有预算,有支持,只是想让它动起来。现在你聘请外部顾问来做这项工作。他是一个完美的模型建造者——但是尽管他很善良,他却在摧毁你的生意,因为他在做模型并运行!

如何利用聊天机器人、脸书信息和移情作用塑造自己的数字人格

约翰尼邓恩 — 18 分钟阅读。

假设你遭遇了一场车祸,你的身体变得面目全非。医生给你机会对你的大脑进行数字扫描,让你复制你的意识,然后移植到新的身体里。当然,这里扼杀快乐的词是“复制”,因为现在你只有两个意识,而你是困在残疾身体里的那个。

每周精选—2018 年 4 月 13 日

原文:https://towardsdatascience.com/weekly-selection-apr-13-2018-f79124ffd153?source=collection_archive---------8-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用 Tensorflow、OpenCV 和 Docker 进行实时和视频处理对象检测。

作者利奥·博科特 — 7 分钟阅读

在本文中,我将介绍如何在 Docker 容器中使用 Tensorflow 对象检测 API 来执行实时(网络摄像头)和视频后处理。我使用 OpenCV 和 python3 多处理和多线程库。

博弈论导论(上)

通过 Devin Soni — 5 分钟读取

博弈论一般是指对描述逻辑决策者行为的数学模型的研究。它被广泛应用于经济学、政治学、政治学、计算机科学等多个领域,可以用来对很多现实世界的场景进行建模。

选择评估 ML 模型的正确指标—第 1 部分

通过 Alvira Swalin — 9 分钟读取

在后现代主义的世界里,相对主义以其各种各样的伪装,成为最受欢迎和最受唾骂的哲学学说之一。根据 相对主义 **,**不存在普遍的、客观的真理;相反,每个观点都有自己的真理。

使用语言模型和 LSTMs 生成公鸭说唱歌词

鲁斯兰·尼古拉耶夫 — 10 分钟阅读

所有未来人工智能应用的一个主要部分是建立能够从一些数据集学习的网络,然后生成原创内容。这个想法已经被应用到自然语言处理(NLP)中,这就是人工智能社区如何开发出所谓的语言模型

使用 Apache Spark 进行深度学习—第一部分

通过法维奥·巴斯克斯 — 8 分钟阅读

如果您在数据领域工作,您很可能知道 Apache Spark 是什么。如果你没有,那也没关系!我来告诉你是什么。

量子计算和人工智能喜结连理

杰森·罗尔 — 8 分钟阅读

2018 年,量子技术人员和大胆的开发人员正在使用量子算法来改造人工神经网络优化领域:机器学习和 AI 的蜜蜂膝盖。因此,我们可以满怀信心地说,多亏了量子算法,量子计算和人工智能的未来无可救药地纠缠在一起。

用相似性传播聚类加密货币

Sebastian Quintero — 8 分钟阅读

几个月前,Radicle 的加密团队开始开发一个加密指数,不是作为一种投资工具,而是为了在评估加密经济中新的分散项目时有一个清晰和公正的基准。本文讨论了一些初步的统计工作,帮助我们更好地理解硬币运动。

我分析了我在脸书的数据,这是一个关于害羞、孤独和变化的故事

通过przemysaw Mroczek—7 分钟读取

我想知道脸书对我有什么了解,就像现在其他人一样,但我开始深入挖掘联系数据、广告点击量和我的活动历史之外的信息。第一次,我脑子里所有关于解析我的 facebook 数据的想法看起来都是可行的。

维基数据简介

通过比约恩·哈特曼 — 5 分钟阅读

你听说过维基数据吗?如果不是,你可能会首先想到维基百科小儿科——这没有错。维基数据也是维基媒体基金会的一个项目。

每周精选—2018 年 4 月 20 日

原文:https://towardsdatascience.com/weekly-selection-apr-20-2018-7a75effe7cc?source=collection_archive---------12-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用 XGBoost 的可解释机器学习

斯科特伦德伯格 — 10 分钟阅读

这是一个关于错误解释你的机器学习模型的危险,以及正确解释它的价值的故事。如果您发现集合树模型(如梯度推进机器或随机森林)的稳健准确性很有吸引力,但也需要解释它们,那么我希望您会发现这是有益的。

RNN/LSTM 的陷落

通过Eugenio culrciello—8 分钟阅读

我们爱上了循环神经网络(RNN)、长短期记忆(LSTM)及其所有变体。现在是时候放下它们了!

贝叶斯线性回归简介

由威廉·科尔森 — 10 分钟阅读

贝叶斯与频率主义者的辩论是我觉得观看比参与更有趣的学术辩论之一。我认为学习统计推断的两种方法并在适当的地方应用它们会更有成效,而不是狂热地跳到某一方面。

我们编织了一张多么解开的网:VAEs 中的表征学习。1)

由科迪·玛丽·怀尔德 — 15 分钟阅读

这是一个举世公认的真理:没有标签的数据一定需要无监督学习。除了油嘴滑舌,人们普遍认为监督学习有着有意义的缺点:标签成本高、噪音大,并且将你的问题引向实现某种程度上人为的目标,而不是简单地以更中立的方式学习数据的有意义轮廓。

炒作&神经网络的缺点

尼克拉斯·东格斯 — 8 分钟阅读

深度学习目前受到了广泛的宣传。人们希望在任何地方都使用神经网络,但它们总是正确的选择吗?这将在下面的章节中讨论,以及为什么深度学习现在如此受欢迎。

数据科学家面试失败的 4 种方式

通过 Ganes Kesari B — 6 分钟读取

“数据科学家”可能是本世纪最性感的工作。但是雇佣一个可不是那么回事。事实上,这对公司来说是极其痛苦的。

我从物理学到数据科学的旅程

阿德蒙德·李 — 10 分钟阅读

随着我对数据科学领域的热情不断增长,我每天都在学习新知识。作为一名即将毕业的物理系学生,要追求不同的职业轨迹,必须要回答**【为什么】【如何】**个问题。

Python for Finance:股票投资组合分析

凯文·博勒——26 分钟阅读

我最近的两篇博文是关于用 Python 扩展分析洞察力的;此处可找到零件 1,此处可找到零件 2。我写这些已经有几个月了,主要是因为去年 11 月我把家搬到了西雅图,加入了亚马逊;我花了大部分时间在我的主要项目上,确定我们的全球推广计划和相关的商业智能路线图。

新泽西州运输系统故障的 5 个阶段

通过普拉纳夫巴达米 — 8 分钟阅读

2018 年 3 月 2 日星期五,纽约市是三月份横扫该地区的四个东北风中的第一个的末端。从前一天晚上到下午早些时候,寒冷的天气一直在持续下降,并伴有上午晚些时候的阵风。

通过贡献开源成为更好的数据科学家

劳伦·奥尔德加 — 7 分钟读完

让我们面对现实:在一场 Kaggle 竞赛中获得高分并不需要坚持 PEP8 或者其他任何软件开发最佳实践。然而,代码是我们的手艺,在你职业生涯的某个时刻,你可能想要或需要学习编写生产级代码

每周精选—2018 年 4 月 27 日

原文:https://towardsdatascience.com/weekly-selection-apr-27-2018-80e65734fd9d?source=collection_archive---------9-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据可视化颜色的 Viz 调色板

以利亚米克斯 — 9 分钟阅读

本月早些时候,Susie Lu 和我发布了 Viz Palette ,这是一款帮助数据可视化设计师评估和改进调色板的工具。它显示了在各种数据可视化类型中使用的调色板,还使用技术来测量各个颜色,这些技术试图识别颜色在视觉上何时过于相似,以及颜色名称何时过于相似。

“WTH,神经网络会学习吗?”—新人的困境

Nityesh Agarwal — 13 分钟阅读

神经网络学习内容的简单、清晰的鸟瞰图——它们学习“越来越复杂的概念”。

浏览器中的深度学习:简明指南

麦克施 — 6 分钟读完

Tensorflow.js 是一个新的深度学习库,可以在你的浏览器中运行。作为一名机器学习和 Javascript 爱好者,我在 Tensorflow.js 发布后立即开始使用它进行对象检测库的工作。

微型自主车辆中深度学习特征地图的可视化

尼尔森·费尔南德斯——4 分钟阅读

我们开始制造 Axionaut 已经有几个月了,这是一辆迷你自主无线电遥控(RC)汽车,并在巴黎的一些比赛中驾驶它参赛。到目前为止一切顺利,我们设法获得了好职位。

YOLO v3 有什么新功能?

Ayoosh Kathuria — 9 分钟读取

你只看一次,或 YOLO,是一个更快的对象检测算法。虽然它不再是最准确的对象检测算法,但当您需要实时检测时,它是一个非常好的选择,不会损失太多的准确性。

Python 中的贝叶斯线性回归:利用机器学习预测学生成绩

威廉·科尔森 — 12 分钟阅读

即使在与贝叶斯线性建模理论斗争了几个星期并写了一篇关于它的博客文章之后,我也不能说我完全理解了这个概念。因此,抱着边做边学是最有效的技术的心态,我开始做一个数据科学项目,使用贝叶斯线性回归作为我选择的机器学习模型。

基于人工智能的运营:业务和技术经理的学习

伊恩肖 — 12 分钟读完

在这篇由两部分组成的文章中,我想分享我在将强化学习(RL)应用于大规模城市运营问题上的工作和思考。

使用自动编码器驱动的视听克隆重新定义沉浸式游戏

通过 Chintan Trivedi — 5 分钟读取

享受电脑游戏的一个重要方面是成为游戏及其故事线的一部分的感觉。沉浸感对激发情绪非常重要,越是感受到这些情绪,玩游戏就越有乐趣。

迁移学习

Niklas Donges — 8 分钟阅读

迁移学习是在新问题上重新使用预先训练好的模型。它目前在深度学习领域非常受欢迎,因为它使你能够用相对较少的数据来训练深度神经网络。

深度学习遇上物理学:受限玻尔兹曼机器第一部分

作者阿尔特姆·奥珀曼 — 8 分钟阅读

本教程是关于受限玻尔兹曼机器的两部分系列的第一部分,这是一种用于协同过滤的强大的深度学习架构。在这一部分,我将介绍受限玻尔兹曼机背后的理论。

每周选择—2018 年 4 月 6 日

原文:https://towardsdatascience.com/weekly-selection-apr-6-2018-586b54f74300?source=collection_archive---------10-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

超参数在起作用!第一部分—激活功能

丹尼尔·戈多伊 — 11 分钟阅读

深度学习是关于超参数!也许这是一种夸张,但对不同超参数对训练深度神经网络的影响有一个良好的理解肯定会让你的生活更容易。

半监督学习和 GANs

作者:Raghav Mehta — 5 分钟阅读

大多数深度学习分类器需要大量的标记样本才能很好地泛化,但获得这样的数据是一个昂贵而困难的过程。为了解决这个限制提出了半监督学习,这是一类利用少量已标记数据和大量未标记数据的技术。

用 10 行代码拯救生命:用 XGBoost 检测帕金森症

通过 Priansh Shah — 3 分钟阅读

因此,您已经涉足了数据科学,听说过“XGBoost”这个术语,但不知道它是什么。我非常喜欢通过来学习,所以让我们尝试使用 XGBoost 来解决现实生活中的问题:诊断帕金森氏症。

可视化贝多芬的全部作品,第一部分:从 IMSLP 中抓取和清理数据

迈克尔张 — 10 分钟阅读

这篇文章是我写的一个简短教程系列的第一部分,记录我在一个个人兼职项目中的进展,我希望在这个项目中分析和可视化贝多芬的完整作品。这个项目的目标是探索音乐和情感之间的联系,同时也尝试不同的可视化音乐数据的方法,特别是关于颜色。

使用 Python 中的散景进行数据可视化,第三部分:制作完整的仪表板

由威廉·科尔森 — 10 分钟阅读

有时我会学习一种数据科学技术来解决一个特定的问题。其他时候,就像使用散景一样,我尝试一种新工具,因为我在 Twitter 上看到一些很酷的项目,然后想:“看起来很棒。

如何用 Keras 构建神经网络

尼克拉斯·东格斯 — 9 分钟阅读

Keras 是目前最受欢迎的深度学习库之一,为人工智能的商品化做出了巨大贡献。它使用简单,只需几行代码就能让你建立强大的神经网络。

变型自动编码器作为双人游戏——第一部分

Max Frenzel — 17 分钟读取

人工智能领域,特别是深度学习的子领域,在过去几年里随着进步一直在爆炸式增长。一种特殊的方法,【生成模型】已经对这种进步做出了很大贡献。

论文复制:使用“MAML”和“爬行动物”进行深度元学习

作者:阿德里安·卢卡斯·埃科菲——8 分钟阅读

在这篇文章中,我复制了最近在元学习领域的两篇论文: MAML 和类似的爬行动物。完整的笔记本可以在这里找到。

每周精选—2018 年 8 月 10 日

原文:https://towardsdatascience.com/weekly-selection-aug-10-2018-eb5062f68b35?source=collection_archive---------10-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数据科学的基本数学——“为什么”和“如何”

Tirthajyoti Sarkar — 10 分钟阅读

数学是任何当代科学学科的基础。难怪几乎所有现代数据科学的技术(包括所有的机器学习)都有某种深刻的数学基础。

为什么自动化特征工程将改变你进行机器学习的方式

威廉·科尔森 — 11 分钟阅读

自动化特征工程将节省您的时间,构建更好的预测模型,创建有意义的特征,并防止数据泄漏

德雷克——使用自然语言处理理解他的歌词

Brandon Punturo — 8 分钟阅读

每隔几年,就会有一位艺术家席卷全球。在过去,这是甲壳虫乐队和迈克尔·杰克逊等人的作品。这些艺术家天生就有能力用他们的创作天才影响数百万人。

使用 Python 和立交桥 API 从 OpenStreetMap 加载数据

由尼古拉·亚纳基耶夫 — 9 分钟阅读

你有没有想过德国大部分 Biergarten 在哪里,或者瑞士隐藏着多少家银行?OpenStreetMap 是一个伟大的开源世界地图,它可以让我们对这些和类似的问题有所了解。隐藏了大量的数据,充满了有用的标签和地理信息,但是我们如何得到这些数据呢?

针对酒店评论的网页抓取猫途鹰、文本挖掘和情感分析

苏珊李 — 10 分钟读完

一项又一项研究表明,猫途鹰在旅行者的决策过程中变得极其重要。然而,理解猫途鹰泡沫评分与数以千计的猫途鹰评论文本之间的细微差别可能具有挑战性。

自然语言处理简介

Niklas Donges — 11 分钟读取

自然语言处理(NLP)是计算机科学和人工智能的一个领域,它涉及计算机和人类之间用自然语言进行的交互。NLP 的最终目标是让计算机像我们一样理解语言。

使用 pandas 和 networkx 开始使用 Python 进行图形分析

通过费利克斯回复 — 5 分钟读取

图表分析并不是数据科学的一个新分支,但也不是数据科学家如今常用的“常用”方法。然而,图表可以做一些疯狂的事情。经典的使用案例包括欺诈检测、推荐或社交网络分析。

《数据科学 A-Z 从零到 Kaggle 内核大师》

由莱昂纳多·费雷拉 — 13 分钟阅读

我来自巴西,世界各地的许多人都与我联系,询问在数据科学领域学习或获得空缺职位的技巧,所以我决定写这篇文章,让内容更加“结构化”,并以更好的方式为刚刚开始这一旅程的人做出贡献。

每周精选—2018 年 8 月 17 日

原文:https://towardsdatascience.com/weekly-selection-aug-17-2018-4ad31bfe7c37?source=collection_archive---------10-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by Michał Parzuchowski on Unsplash

数据科学项目最重要的部分是写博客

作者:威廉·科尔森 — 8 分钟阅读

在将最终代码上传到 GitHub 或提交作业后,称数据科学项目已经完成是一种诱惑。然而,如果你就此打住,你就错过了这个过程中最关键的一步:写并分享一篇关于你的项目的文章。

用 Python 和 Tableau 进行预测

格雷格·拉弗蒂 — 7 分钟阅读

在这篇文章中,我将展示如何在 Tableau 中使用 Python 代码来构建一个实现时间序列预测的交互式仪表板。如果你只是想先玩一下仪表盘,探索一下 SARIMAX 算法,可以在这里下载完整的 python 实现的仪表盘或者在 Tableau Public 上找到这个稍微简单的版本

更好的协作数据科学

通过梅根·里斯达尔 — 8 分钟阅读

上周六,我在南加州最大的数据会议 Data Con LA 2018 (前大数据日 LA)上做了主题演讲。这是我的博客形式的演讲。

不要犯这个机器学习的大错误:研究 vs 应用

乔治·赛义夫——4 分钟阅读

如今,每个人都在研究机器学习。对于许多企业来说,这绝对是一个值得追求的伟大方向,因为它让他们能够以一种相当快速和简单的方式交付巨大的价值。对机器学习技能的需求空前高涨。

像老板一样在 Python 中微调 XGBoost

费利克斯回复 — 4 分钟读取

XGBoost(或 eXtemeGradientBoosting)不会再被引入,在太多的数据科学竞赛中被证明是相关的,如果你刚刚开始使用它,它仍然是一个很难微调的模型。

机器学习方法——构建酒店推荐引擎

苏珊李 — 5 分钟读完

所有在线旅行社都在争先恐后地满足亚马逊和网飞设定的人工智能驱动的个性化标准。此外,在线旅游世界已经成为一个竞争激烈的空间,品牌试图通过推荐、比较、匹配和分享来吸引我们的注意力(和钱包)。

利用网络摄像头和深度学习创建定制的堡垒之夜舞蹈

通过 Chintan Trivedi — 4 分钟读取

如果你知道游戏堡垒之夜,你可能也知道围绕着游戏中的庆祝/表情/舞蹈的狂热。游戏玩家已经花费了数百万美元通过应用内购买来购买舞蹈动作,这使得一些简单而愚蠢的事情成为游戏开发者的一大收入来源。

不要在卷积网络中使用丢包

哈里森·詹斯马 — 4 分钟阅读

我注意到有大量的资源可以学习深度学习的内容和原因。不幸的是,到了制作模型的时候,他们很少有资源解释何时以及如何制作。

App 描述告诉我们什么:Python 中的文本数据预处理

芬乔 — 9 分钟读完

继续讨论数据清理和探索的主题,许多有效的 NLP 分析都依赖于文本数据的预处理。因此,我决定对来自 Apple Appstore 描述的一些文本数据和结果文本的 K-Means 聚类进行逐步预处理。

每周精选—2018 年 8 月 24 日

原文:https://towardsdatascience.com/weekly-selection-aug-24-2018-c36c60fdca3d?source=collection_archive---------19-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

深入探究深层网络背后的数学

Piotr Skalski — 9 分钟阅读
如今,有了许多高级的、专门的库和框架,如 Keras、TensorFlow 或 PyTorch,我们不需要经常担心我们的权重矩阵的大小或记住我们决定使用的激活函数的导数公式。

更好理解深度学习的最新进展

由亚瑟·佩萨——9 分钟阅读

这种对更好地理解深度学习的呼吁是阿里·拉希米在 2017 年 12 月 NIPS 举行的时间考验奖颁奖典礼的核心。通过比较深度学习和炼金术,阿里的目标不是解散整个领域,而是“开启对话”

使用 Kaggle 开始(并指导)您的 ML/数据科学之旅——为什么以及如何进行

通过尼提什·阿加瓦尔 — 13 分钟读取

之前,我并不确定。我会说类似这样的话:先学这门课,或者先读这篇教程,或者先学 Python(只是我做过的事情)。但是现在,随着我在这个领域越来越深入,我开始意识到我所采取的方法的缺点。

Python 中的“数据科学”机器学习项目演练

威廉·科尔森 — 17 分钟阅读

在我们这个数据驱动的世界里,数据科学是一个非常强大的工具。你可以说我是理想主义者,但是我相信这个工具不应该仅仅用于让人们点击广告或者花更多的时间在社交媒体上。

关于 AutoML 和神经架构搜索你需要知道的一切

乔治·赛义夫 — 7 分钟阅读

AutoML 和神经架构搜索(NAS)是深度学习城堡的新国王。它们是在不做太多工作的情况下,为您的机器学习任务获得巨大准确性的快速而肮脏的方法。简单有效;这就是我们想要的人工智能!

ICML 2018上的生成对抗网络和变型自动编码器

Agrin Hilmkil — 11 分钟读取

生成模型经典地用数据(x)和标签(y)描述联合分布 p(x,y)的模型。然而,在这种情况下,生成模型将被理解为具有从数据 X 的(近似)分布中取样以产生新样本 x ~ X 的机制

使用双向生成对抗网络估算市场风险管理的风险值

哈马德·沙阿 — 18 分钟读完

我们将探索双向生成对抗网络(甘比)在市场风险管理中的应用:评估投资组合风险度量,如风险价值(VaR)。

测量模型优度

由阿贾伊坦皮 — 9 分钟阅读

数据和人工智能正在改变世界各地的商业,从金融、制造和零售到医疗保健、电信和教育。这种转变的核心是将原始数据转化为信息和有用的、可操作的见解的能力。

每周精选—2018 年 8 月 3 日

原文:https://towardsdatascience.com/weekly-selection-aug-3-2018-9512b40af37f?source=collection_archive---------13-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

AutoKeras:谷歌汽车的黑仔

乔治·赛义夫 — 4 分钟阅读

谷歌人工智能终于发布了 AutoML 的测试版,有人说这项服务将完全改变我们进行深度学习的方式。谷歌的 AutoML 是一个新的机器学习工具云软件套件。它基于谷歌在图像识别领域的最新研究,名为神经架构搜索 (NAS)。

启发您下一个数据科学项目的 5 种资源

由康纳·杜威 — 6 分钟读完

你有没有过想开始一个新项目却又决定不了要做什么的经历?首先,你花几个小时集思广益。然后几天。在你意识到之前,几个星期过去了,没有任何新的发货。

用 Flask 部署 Keras 深度学习模型

通过本·韦伯 — 7 分钟读取

这篇文章演示了如何使用用 Keras 构建的深度学习模型来设置端点以服务于预测。它首先介绍了一个使用 Flask 通过 Python 设置端点的例子,然后展示了在使用 Flask 为预测构建 Keras 端点时需要解决的一些问题。

图形&路径:PageRank

由大卫·派恩斯 — 6 分钟读完

想象一下,有人正在搜索 web️以了解他们最喜爱的名人。关于这个人有大量的信息;Twtr 上的推文,Amzn 上的大事记,Medm 上的文章,Fb 上的粉丝页面,甚至 Mspc 账户。

用 D3.js 进行交互式数据可视化

迪潘然(DJ)萨卡 — 7 分钟阅读

交互式可视化可以给平淡乏味的数据集增添令人印象深刻的魅力。交互数据的主要特征在于它作为一个应用程序独立使用。它允许用户选择特定的数据点,以他们选择的方式将故事可视化。

在 AWS SageMaker 上酝酿定制 ML 模型

By Thushan Ganegedara — 12 分钟阅读

最近爱上了 SageMaker。仅仅是因为它太方便了!我真的很喜欢他们的方法,向客户隐藏所有的基础设施需求,让他们专注于解决方案中更重要的 ML 方面。

用不确定性解释你的模型

通过条内 Naor — 7 分钟读取

随着深度神经网络(DNN)变得更加强大,它们的复杂性也在增加。这种复杂性带来了新的挑战,包括模型的可解释性。

图形和 ML:多元线性回归

劳伦·申 — 8 分钟阅读

上次,我在 Neo4j 浏览器中使用简单的线性回归创建了一个德克萨斯州奥斯汀的短期租赁模型。在这篇文章中,我演示了如何通过一些小的调整,同一套用户定义的过程可以创建一个带有多个独立变量的线性回归模型。这被称为多元线性回归。

每周精选—2018 年 8 月 31 日

原文:https://towardsdatascience.com/weekly-selection-aug-31-2018-f1f91a026dd7?source=collection_archive---------10-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如何在现实世界中构建有价值的数据科学项目

Jonny Brooks-Bartlett — 15 分钟阅读。

大多数关于如何“完成”数据科学任务的文章通常讨论如何编写算法来解决问题。例如,如何分类文本文档或预测财务数据。如果属于数据科学家的职权范围,学习如何做这些事情对他们来说可能是至关重要的知识。

卷积神经网络:生物启发模型

由詹姆斯·勒 — 14 分钟阅读

令人难以置信的是,人类的大脑是如何展开一幅仅由 R、G、B 值组成的图像的。电脑怎么样?我们如何开始编写一个算法,像我上面做的那样对场景进行推理?我们怎样才能得到正确的数据来支持我们的推论呢?

制作音乐:当简单概率胜过深度学习

Haebichan Jung — 9 分钟读完

我是如何发现一个利用深度学习做音乐的问题,并通过创建自己的原创模型来解决的。

如何使用 Dask 数据帧在 Python 中运行并行数据分析

通过卢西亚诺·斯特里卡 — 5 分钟读取

如果你从事大数据工作,你知道如果你使用熊猫,你可能会为一个系列的简单平均值等待整整一分钟,我们甚至不要调用应用。这只是几百万行的数据!当你达到数十亿时,你最好开始使用 Spark 或其他东西。

用 Scikit-Learn 进行命名实体识别和分类

苏珊李 — 7 分钟读完

命名实体识别和分类 (NERC)是从非结构化文本中识别信息单元的过程,如名称,包括人、组织和位置名称,以及数字表达式,包括时间、日期、金钱和百分比表达式。

营销分析专家的一天

克里斯·道塞特 — 7 分钟读完

营销分析是一个多方面的,但往往被误解的做法。这里有一个例子来突出这个角色的多样性。

改变工程师的思维模式:从如何到为什么

杰西·史密斯 — 7 分钟阅读

在一个数据泛滥、信息泛滥的世界里,我们可以在家里舒适地从看不见的云上发现外面的天气;是时候后退一步,问一些重要的问题了。

教程:双深度 Q-学习与决斗网络架构

法比奥·m·格雷茨 — 9 分钟阅读

如果你和我一样对深度 Q 学习着迷,但从来没有时间理解或实现它,这是给你的:在一个 Jupyter 笔记本中,我将 1)简要解释强化学习如何不同于监督学习,2)讨论深度 Q 网络(DQN)背后的理论,告诉你在哪里可以找到论文中相应的解释及其含义,以及 3)如何在 python 和 tensorflow 中实现使其工作所需的组件。

使用 Youtube V3 API、Mask-RCNN 和 Google Vision API 进行自动语音识别数据收集

By 黃功詳 Steeve Huang — 8 min read

随着机器学习特别是深度学习的快速发展,语音识别得到了显著的提高。这种技术依赖于大量高质量的数据。然而,为非流行语言建立的模型比那些流行语言(如英语)的模型表现差。

如何构建非地理地图#1

作者范妮·卡萨皮安 — 8 分钟阅读

要以类似地图的方式可视化您的非地理数据,您需要将每个元素(或地图上的点)视为由某一组要素(或属性)定义的。

每周精选

原文:https://towardsdatascience.com/weekly-selection-c7a084d009ef?source=collection_archive---------9-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

亲爱的读者和投稿人:

本周我们为你准备了令人兴奋的新品。我们希望你喜欢阅读这些文章。如果您有任何问题,请发布到我们的 Slack 频道。

人工智能帮助医学研究人员发现严重哮喘的基因特征

Devi Ramanan — 6 分钟阅读。

一个欧洲医学研究联盟使用一种人工智能形式发现了一个 1693 年的基因签名,以有意义地区分严重哮喘和非哮喘以及轻中度哮喘。通过对哮喘人群进行细分,研究人员希望为对治疗有反应的患者开发有针对性的治疗方法。

彼得·沃斯访谈

gk_ — 11 分钟读取。

人工通用智能 (AGI)是一个新兴领域,旨在建造“思考机器”;即智能堪比人脑的通用系统。

市级项目

由罗曼·库丘科夫 — 5 分钟读完。

人工智能技术现在已经渗透到经济的许多领域,建筑、设计和城市化也不例外。它们有巨大的潜力,直到完全修改已建立的方法和实践。

主成分分析的一站式商店

通过哑光 Brems — 15 分钟读取。

主成分分析(PCA)是统计学和数据科学领域中需要理解的一项重要技术……但是在整理课程时,我觉得在线资源太专业,没有完全解决我的问题,并且/或者提供了相互矛盾的信息。

探索 2016 年头条

限定 — 4 分钟读取。

2016 年是美国头条新闻的大年。至少在地面上是这样感觉的。我们认为最好后退一大步,看看一整年的头条新闻会出现什么样的模式。

每周精选

原文:https://towardsdatascience.com/weekly-selection-c96dd85cfe63?source=collection_archive---------8-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是第一次计算机可视化吗?

冒险中的数据 — 3 分钟读取。

有一段时间,我一直在寻找第一个计算机数据可视化。

做数据科学更快

通过罗布·托马斯 — 3 分钟读取。

人工智能是许多企业的目标。但是,为了做人工智能,一个组织需要机器学习。而且,没有分析,机器学习是不可能的。

2017 年大数据趋势点燃

通过 Mac Fowler — 4 分钟读取。

我获得了参加密歇根州大急流城大数据点燃 2017 大会的绝佳机会。为期三天的会议以“指数智能时代”为主题,并为我提供了一个机会,让我后退一步,更广泛地了解大数据和分析市场。

使用 GANs 进行数据集扩充

佩德罗·费雷拉 — 13 分钟

生成对抗网络(GANs)已经席卷了机器学习社区。它们优美的理论基础和在计算机视觉领域不断改进的重大成果,使它们成为近年来机器学习领域最活跃的研究课题之一。

机器学习的用户体验

Maksym Zavershynskyi — 5 分钟阅读。

众所周知,机器学习在可解释性方面存在困难,或者更确切地说,是缺乏可解释性。如果您的用户必须处理数字输出,就像在销售、交易或市场营销中使用的系统一样,这是一个问题。

神经网络的软介绍

舒邦德赛 — 9 分钟读完。

在过去的几年里,神经网络已经成为机器学习的同义词。最近,我们已经能够制造神经网络,它可以产生栩栩如生的面孔,转移动态艺术风格,甚至可以按年“老化”一个人的照片。

云端训练模型的大数据

俞凤 G — 3 min 读出。

当我们的训练数据太大而不适合我们的机器时,或者训练模型开始需要几个小时时,会发生什么?我们当然要上云!

如何选择数据科学工作?

由基里尔·叶列缅科 — 8 分钟读完。

数据科学似乎无愧于 21 世纪最性感工作的称号。“但是由于这个领域的所有这些骚动,许多人想知道数据科学职业的趋势是否仅仅是一种时尚。为什么要拿你的教育、职业和未来做赌注呢?

应用深度学习——第三部分:自动编码器

通过 Arden Dertat — 10 分钟读取。

欢迎来到应用深度学习系列的第 2 部分。第 1 部分是对人工神经网络的实践介绍,包括理论和应用,有很多代码示例和可视化。

人工智能垂直领域(二):金融科技

由弗朗西斯科·科里亚——10 分钟阅读。

从历史上看,金融业是你可能会想到的最抵制变革的行业之一。

每周精选

原文:https://towardsdatascience.com/weekly-selection-ca1014d538e6?source=collection_archive---------12-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我多大了?

保罗-路易·普罗夫 — 7 分钟阅读。

你能猜到这个膝盖核磁共振后面的人有多大年纪吗?我给你一个提示。这是一个 14 到 21 岁的德国男性的录音。不知道吗?我喜欢想象这是神经网络在被训练之前看待世界的方式。它完全没有线索。所以,让我来训练你。

非 NLP 数据和研究人员的词向量

通过康纳麦当劳 — 8 分钟阅读。

单词向量代表了在提高我们分析单词、句子和文档之间关系的能力方面的一个重大飞跃。在这样做的过程中,他们通过向机器提供比以前可能使用的传统单词表示更多的单词信息来推进技术。

8 年过去了,阿姆斯特丹仍然是智能城市的领头羊

劳伦·麦克弗森 — 7 分钟阅读。

阿姆斯特丹有 1281 座桥。对于我们大多数人来说,这似乎是一个相当容易被抛弃的事实,但对于阿姆斯特丹智能城市倡议来说,这是一个巨大的飞跃。因为直到今年,我们都不知道有多少座桥。

激活功能:神经网络

SAGAR SHARMA — 5 分钟读取。

它只是你加到任何神经网络输出端的一个东西(节点)。也被称为传递函数。它也可以连接在两个神经网络之间。

应用深度学习——第二部分:真实世界案例研究

阿登·德塔特 — 17 分钟读出。

欢迎来到应用深度学习系列的第 2 部分。第 1 部分是对人工神经网络的实际介绍,包括理论和应用,有很多代码示例和可视化。现在是最酷的部分,深度学习对真实世界数据集的端到端应用。

在不平衡数据集上评估一个模型应该使用什么指标?

Shir Meir Lador — 9 分钟阅读。

我一直认为度量的主题有点令人困惑,特别是当数据集不平衡时(这在我们的常见问题中经常发生)。

概括 10 种常见的软件架构模式

通过Vijini mallawatarachchi—5 分钟读取。

想知道大型企业级系统是如何设计的吗?在主要的软件开发开始之前,我们必须选择一个合适的架构,它将为我们提供期望的功能和质量属性。

人工智能规划历史发展

Ryan Shrott — 12 分钟阅读。

在本文中,我将考察人工智能规划研究领域的三大发展。对于每个开发,我将提供原始论文的简短摘要以及适当的例子来演示几个用例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Support us on Patreon.

《走向数据科学》是一份独立的出版物。为了保持我们的开放和编辑自由,我们要求我们的支持者承诺一小笔捐款来帮助我们竞选。非常感谢!

每周精选

原文:https://towardsdatascience.com/weekly-selection-cbdd8305845b?source=collection_archive---------5-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

脸书·艾发明新语言背后的真相

罗曼·库塞拉 — 7 分钟阅读。

有太多的文章发表说脸书在他们开发了自己的语言后关闭了他们的机器人。媒体就是喜欢这些点击诱饵标题。

深度网络架构的直观指南

Joyce Xu — 9 分钟读完。

在过去的几年里,计算机视觉深度学习的许多进展都可以归结为少数几个神经网络架构。抛开所有的数学、代码和实现细节,我想探索一个简单的问题:这些模型如何以及为什么工作?

参加 Deeplearning.ai 课程后的感想

通过 Arvind N — 8 分钟读取。

在全职工作和家里蹒跚学步的孩子之间,我用业余时间学习认知科学和人工智能的思想。偶尔会出现一篇很棒的论文/视频/课程,你会立刻被吸引住。

言情小说,由人工智能生成

Elle O’Brien — 6 分钟阅读。

我一直对爱情小说很着迷——药店里卖几美元的那种,通常封面上有一些迷人的、灯光柔和的情侣。

深度学习周记:测试自动驾驶(虚拟)

斐参孙 — 5 分钟阅读。

本周我将重点讨论深度学习如何用于自动驾驶汽车。在这个领域有很多机器学习应用,但我将聚焦于一项非常酷的技术:虚拟测试。

总结灾难中的推文

Gabriel Tseng — 9 分钟阅读。

4 月 25 日,就在中午之前,尼泊尔经历了一场震级为 T4 7.8 级的地震。地震席卷了加德满都山谷,一系列余震夷平了整个村庄。

开放式学习依赖于非物理现象

菲尔·马奇威克 — 7 分钟阅读。

在自发表’以来的短暂时间里,机器学习是开放式的吗?’,我一直在想,机器学习技术很可能能够进行开放式学习。

每周精选—2017 年 12 月 1 日

原文:https://towardsdatascience.com/weekly-selection-dec-1-2017-9a024c0580d3?source=collection_archive---------2-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

聚类无 ML 的空间数据,寻找同质区域

作者比约恩·哈特曼 — 4 分钟阅读

就在最近,有人问我如何对一些数据进行聚类。通常,这没什么大不了的,因为有很多算法致力于此。但是这个数据集是不同的。

社交网络数据:Twitter vs FB vs Google vs 其他所有人

通过吉米·蒂迪 — 7 分钟阅读

这是关于技术如何塑造我们的社会联系的三篇系列文章中的第三篇。第一篇文章试图让你相信我们的在线和离线社交网络非常重要。

如何改进我的 ML 算法?吴恩达的经验教训— I

通过 Kritika Jalan — 5 分钟读取

你已经花了几周的时间来构建你的机器学习系统,但你对它的性能并不满意。你想了多种方法来提高你的算法的性能,即。

数据科学的 Docker

通过 Sachin Abeywardana — 3 分钟读取

Docker 是一个为软件工程师简化安装过程的工具。来自统计背景的我过去很少关心如何安装软件,偶尔会花几天时间来解决系统配置问题。

如何成为一名数据科学家(第二部分)

伊恩·布卢门菲尔德——11 分钟阅读

在本系列的第 1 部分中,我确定了三个我认为是数据科学家基本技能的领域:SQL、随机变量/条件概率和 R 或 Python 中的 ML 基础。了解这些领域可以让你在谈判桌上获得一席之地,并让你处于可以开始增值的位置。

我们如何‘训练’神经网络?

维塔利·布沙耶夫——15 分钟阅读

这是我计划的关于用于机器学习特别是神经网络“训练”的优化算法系列的第 1 部分。在这篇文章中,我将介绍梯度下降(GD)及其小变化。

3 个吸引读者注意力的专家数据可视化技巧

由 Payman Taei — 8 分钟阅读。

不管你是谁,也不管你是否意识到了这一点,每当你看到一个视觉场景——无论是看网页、走进房间还是打开电视,你都会在十分之一秒内开始理解这个视觉体验。

结构化深度学习

Kerem Turgutlu(疯狂科学家) — 10 分钟阅读

在机器学习/深度学习或任何类型的预测建模任务中,数据先于算法/方法。这就是为什么机器学习在某些任务之前需要大量的特征工程,如图像分类、NLP 和许多其他“不寻常”的数据,这些数据不能直接输入到逻辑回归或随机森林模型中。

国家财富或教育支出与其学生在 PISA 中的表现之间有关系吗?

Marta Klajnerok — 13 分钟阅读

公立学校在古代就已为人所知,许多社会发展了多年,最终在 19 世纪形成了强制性的公共机构。世界各地的社区都很重视教育年轻一代,为他们提供更好的未来,因为教育不仅对相关的个人,而且对整个社会都有很多好处。

每周精选—2018 年 12 月 14 日

原文:https://towardsdatascience.com/weekly-selection-dec-14-2018-f1d882844060?source=collection_archive---------28-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第三波数据可视化

以利亚米克斯 — 12 分钟阅读

想象一下 30 年前做数据可视化是什么样子。现在是 1988 年,您正在使用 Excel 2.0 制作简单的图表,如饼图和折线图,或者使用 SPSS 之类的工具进行更复杂的探索,使用 Arc/Info 进行地理空间数据可视化。

如何在计算机视觉中做一切事情

乔治·赛义夫 — 7 分钟读取

想做计算机视觉?深度学习是当今的趋势。大规模数据集加上深度卷积神经网络(CNN)的代表能力有助于建立超精确和稳健的模型。只剩下一个挑战:如何设计你的模型。

动手机器学习模型解读

由迪潘詹(DJ)萨卡尔 — 26 分钟阅读

鉴于人工智能在行业中的快速采用,解释机器学习模型不再是一种奢侈品,而是一种必需品。这篇文章是我的“可解释的人工智能(XAI)”系列文章的延续。

用 Python 进行音乐流派分类

Parul Pandey — 9 分钟读取

现在的公司使用音乐分类,要么是为了能够向他们的客户推荐(如 Spotify、Soundcloud),要么只是作为一种产品(如 Shazam)。确定音乐流派是朝着这个方向迈出的第一步。

数据科学不仅仅是。适合()。预测()

由约纳坦·哈达尔 — 7 分钟阅读

两个月前,我结束了在 YellowRoad 作为数据科学家的第二年,所以我决定对我的项目进行回顾性分析,我做得好吗?我发现了哪些有趣的方法?我犯了什么错误?最重要的是,我学到了什么?

Vaex:Python 和快速可视化的核心数据帧之外

马腾·布雷德尔斯 — 8 分钟阅读

有些数据集太大,不适合你的台式电脑的主存,更不用说你的笔记本电脑了。尽管如此,我们还是希望在大数据时代使用大型数据集。然而,我们真的不想为了一个小实验而学习设置 Hadoop 或 Spark 基础设施。

物理引导神经网络

由穆罕默德·阿里坎·诺扬 — 6 分钟读取

基于物理的模型是当今科技的核心。近年来,数据驱动模型开始提供一种替代方法,并在许多任务中胜过物理驱动模型。

通过构建真实世界的应用程序掌握 Python

通过 Dhrumil Patel — 7 分钟读取

我们将使用 Python 和 leav 构建我们的 web 地图。你们都知道 Python,所以让我向你们简单介绍一下叶子。它基本上是一个数据可视化库,用于可视化地理空间数据或涉及坐标和位置的数据。

作为数据科学家如何提出正确的问题

由阿德蒙德·李 — 5 分钟阅读

我相信提出正确的问题和定义问题陈述是许多数据科学初学者(包括我)面临的一些挑战。

每周精选—2017 年 12 月 15 日

原文:https://towardsdatascience.com/weekly-selection-dec-15-2017-8769b2454d07?source=collection_archive---------4-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

培养自己的专家

卢西恩·利塔 — 5 分钟阅读

如果你发现自己处于这种困境,考虑一下:你的招聘标准可能已经过时,你的候选人范围可能过于狭窄。

Youtube 浏览量预测器

通过 Aravind Srinivasan — 10 分钟读取

在过去的 5 年里,YouTube 已经向 YouTube 内容创作者支付了超过 50 亿美元。流行的 YouTuber PewDiePie 在 2016 年仅从 YouTube 就赚了 500 万美元,这还不包括赞助、代言和 YouTube 以外的其他交易。

video fi——注释视频和寻找简化的见解

通过 Shivangi Shroff — 5 分钟读取

看视频很好玩,但是尝试手动分析视频,就没那么好玩了!你可能会错过重要的细节,这是非常耗时的。如果这个过程可以自动化呢?它肯定能让少数人的生活更轻松。

如何讲故事,用数据编织有凝聚力的叙事

by Payman Taei — 5 分钟阅读

讲故事是人类最重要的进化优势之一。这是一个大胆的说法,但我相信这是真的。

在机器学习中处理缺失数据

伯颜安杰洛夫 — 4 分钟读完

缺失值代表了真实世界数据的混乱。发生这种情况的原因可能有很多,从数据输入过程中的人为错误、不正确的传感器读数,到数据处理流程中的软件错误。

曼加干

通过贝希 — 8 分钟阅读

漫画和动画因其复杂的艺术风格和引人入胜的故事而受到全世界的赞赏。这个游戏的粉丝群是如此庞大,以至于有成千上万的艺术家在那里绘制原创漫画和动漫角色,也有成千上万的人想要创造它们。

使用物体检测实现更智能的零售结账体验

Priya Dwivedi — 4 分钟阅读

我一直在玩 Tensorflow 对象检测 API ,对这些模型的强大感到惊讶。我想分享一些实际用例的 API 的性能。

莎士比亚英语的机器翻译

露蒂雷哈克 — 4 分钟读完

如果你一直在关注深度学习的最新发展,你可能会遇到 艺术 风格转移 *。*这是一种用图像 A 的内容,以图像 b 的风格创建新图像的技术。

一个非常简单的 Jupyter 笔记本交互控件演示

通过 Tirthajyoti Sarkar — 5 分钟读取

project Jupyter/IPython 对数据科学家如何快速测试和原型化他/她的想法并向同行和开源社区展示工作产生了最大程度的影响。这是一个非营利性的开源项目,诞生于 2014 年的 IPython 项目,该项目迅速发展,支持跨所有主要编程语言的交互式数据科学和科学计算。

每周精选—2018 年 12 月 21 日

原文:https://towardsdatascience.com/weekly-selection-dec-21-2018-ff8056029bc7?source=collection_archive---------19-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为什么你应该关心内特·西尔弗和纳西姆·塔勒布的推特之战

艾萨克·费伯 — 10 分钟阅读

过去一个月,一场不为人知的争议再次浮出水面。定量分析社区的两个图标在最伟大的公共舞台 Twitter 上发生了冲突。

教程:搭建车道检测器

By Chuan En Lin 林傳恩 — 10 min read

Waymo 的自动驾驶出租车服务本月刚刚上路——但自动驾驶汽车是如何工作的呢?道路上画的线向人类驾驶员指示车道在哪里,并作为相应地驾驶车辆的方向的指导参考,以及车辆代理如何在道路上和谐互动的约定。

如何学习数据科学:保持动力

哈里森·詹斯马 — 11 分钟阅读

在过去的几周里,我暂停了写作,专注于申请实习。但是当我今天开车去上课的时候,一个问题开始困扰我。

利用数据科学变得更聪明——应对真正的企业挑战

由迪潘詹(DJ)萨卡尔 — 17 分钟阅读

《数据科学战略指南——用数据科学变得更聪明》被设想为一系列文章,它更像是一份战略指南,描述了在现实世界中实施和执行数据科学项目时需要牢记的基本挑战、陷阱和原则。

合成数据生成——新数据科学家的必备技能

通过 Tirthajyoti Sarkar — 11 分钟读取

简要概述为自驱动数据科学项目生成合成数据的方法/包/想法,并深入研究机器学习方法。

用 Python 分析黑客新闻书籍建议

作者亚历山德罗·莫扎托 — 6 分钟阅读

一个黑客新闻线程的分析,使用 Python,黑客新闻 API 和 Goodreads API,以及权威的前 20 名书籍建议列表!

用 Python 开发 NLP 模型&用 Flask 部署,一步一步

苏珊李 — 6 分钟读完

到目前为止,我们已经开发了许多机器学习模型,根据测试数据生成数值预测,并测试结果。我们在网下做所有的事情。实际上,生成预测只是机器学习项目的一部分,尽管在我看来这是最重要的一部分。

通过机器学习为机器学习项目产生新想法

Paras Chopra — 19 分钟读作

让我们做一个快速图灵测试。下面,你会看到十个机器学习项目创意。其中五个是由人类产生的,五个是由神经网络产生的。你的任务是区分它们。

解构 BERT:从 1 亿个参数中提取 6 种模式

杰西·维格 — 6 分钟读取

2018 年标志着自然语言处理领域的一个转折点,一系列深度学习模型在从问题回答到情感分类的 NLP 任务中取得了最先进的成果。

py spark 简介

本·韦伯 — 15 分钟读取

PySpark 是一种很好的语言,可以进行大规模的探索性数据分析,构建机器学习管道,为数据平台创建 ETL。如果您已经熟悉 Python 和 Pandas 之类的库,那么为了创建更具可伸缩性的分析和管道,PySpark 是一种很好的学习语言。

ProGAN:NVIDIA 如何生成前所未有质量的图像

莎拉·沃尔夫 — 10 分钟阅读

上面高分辨率图像中的人看起来可能是真实的,但实际上不是——他们是由一个对数百万名人图像进行训练的程序合成的。“ProGAN”是 NVIDIA 首创的一种生成性对抗网络的口语术语。

每周精选—2017 年 12 月 22 日

原文:https://towardsdatascience.com/weekly-selection-dec-22-2017-42e33a892788?source=collection_archive---------6-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

成为走向数据科学的赞助人

TDS 团队

2016 年 10 月,我们使用 Medium 创建了一个数据科学出版物。我们的目标只是收集好的帖子,并将它们分发给更广泛的受众。仅仅几个月后,我们很高兴地看到,我们有一个非常快速增长的观众和许多贡献者。

Docker 如何帮助你成为更高效的数据科学家

通过哈默尔侯赛因 — 14 分钟读取

在过去的 5 年里,我听到了很多关于码头集装箱的传言。似乎我所有的软件工程朋友都在用它们开发应用程序。

陌生事物:分析和交流数据的五堂课

乔丹·德沃金 — 8 分钟阅读

作为一名统计领域的研究生,我很快意识到,不与数据打交道的人对统计这个词的反应往往是两种之一:“哦,我讨厌那门课!”和“你一定很喜欢数学!”。

组建数据科学团队的最有效方式是什么?

通过 Chuong Do — 7 min 读取。

从 2012 年到 2017 年,我有幸在 Coursera 从零开始建立数据和分析组织。在那段时间里,随着公司规模的扩大和业务的发展,我们尝试了各种不同的团队结构。

你真正需要知道的顶级算法和数据结构

杰森·罗尔 — 11 分钟阅读

如果你想成为一名软件工程师,但不知道从何入手,那就给你省点悬念:是算法和数据结构。一旦你掌握了这些编程支柱的要点,你就会发现它们无处不在。

如何在数据科学面试中胜出:统计学

卡森·福特 — 9 分钟阅读

对于从事或试图从事数据科学工作的人来说,统计学可能是你需要发展的最大和最令人生畏的知识领域。这篇文章的目标是把你需要知道的东西减少到有限数量的具体想法、技术和方程式。

梯度下降与神经进化

作者:Lars Hulstaert — 10 分钟阅读

2017 年 3 月,OpenAI 发布了一篇关于进化策略的博文,这是一种已经存在了几十年的优化技术。他们论文的新颖性在于,他们成功地将该技术应用于强化学习(RL)问题背景下的深度神经网络。

如何让技术资料简洁美观

by Payman Taei — 10 分钟阅读

数据是任何演示或报告的支撑。它提供了真实的片断,这些片断共同构成了一幅精确的图像。没有数据,营销人员会根据假设和推测来创建他们的活动,而不是确切地知道他们的客户想要什么。

使用 Jupyter 笔记本的交互式数据科学

郁风 G — 6 分钟读出

我的视频中,你已经看到我在屏幕上实时运行 Python 代码并显示结果。今天,我想和你分享我是如何做到这一点的,并告诉你如何利用它!

针对糖尿病的机器学习

苏珊李 — 9 分钟读完

根据 T4 疾病控制和预防中心的数据,现在大约七分之一的美国成年人患有糖尿病。但到 2050 年,这一比例可能会飙升至三分之一。考虑到这一点,这就是我们今天要做的事情:学习如何使用机器学习来帮助我们预测糖尿病。我们开始吧!

高速车辆以及如何追踪它们

通过贝蒂 — 7 分钟阅读

毕业后,我把探索课堂上没有机会探索的话题作为自己的目标。我的目标是每天阅读两篇关于人工智能技术最新进展的文章(即机器学习、深度学习、人工智能在游戏中的应用,等等)。

我如何使用机器学习对邮件进行分类,并将其转化为见解(第二部分)。

安东尼 Dm。 — 5 分钟读取

自从我写了 第一部分 已经有一段时间了,在过去一年的许多项目中,我找不到时间和精力继续我离开的地方。在我写第 2 部分的时候,圣诞节越来越近了,这给了我一些空闲时间来继续我的研究。

不用任何培训就能构建一个类似的图像查找器!

王安森 — 4 分钟阅读

在本文中,我们将通过剖析图像对象分类器 VGG 的训练权重来构建一个相似图像查找器,并使用它从图像数据库中提取特征向量,以查看哪些图像彼此“相似”。这种技术被称为转移学习,在我们这边不需要任何训练——艰苦的工作在 VGG 实际接受训练的时候就已经完成了,我们只是重新使用训练过的权重来建立一个新的模型。

为什么你的分析项目无法实现指数价值

杰西·帕盖特——5 分钟阅读

因此,您已经在数据仓库的基础上构建了一个分析仪表板,恭喜您!你现在正在推进一些令人兴奋的预测/机器学习计划,这很好,但在你合上分析这本书之前,有一些事情你应该知道。

将医学艺术从人工智能中分离出来

休·哈维 — 8 分钟阅读

人工智能需要数据。理想情况下,数据应该是干净、可信的,最重要的是准确的。不幸的是,医学数据远非如此。事实上,医学数据有时远非干净,而是非常肮脏。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们感谢帕特里翁的支持者,是他们让我们的工作成为可能,☺️

传恒(亨利)克里斯·曼古姆皮尤什·劳特雷钟弘成贾亚拉姆·奈尔、帕沃·波汉多夫、香农·霍恩、卡森·福特、哈雷尔·温斯坦、希森·乔、迈克尔·D·施拉格、杰里卡·科佩内 多米尼克·蒙豪尔赫·库尼亚阿什维尼·萨罗德刘淑芳瓦西夫·胡达,尤瓦尔·布劳温迪·黄

成为赞助人

每周精选—2018 年 12 月 28 日

原文:https://towardsdatascience.com/weekly-selection-dec-28-2018-1fa4e0d93349?source=collection_archive---------18-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

贝叶斯定理:数据科学的圣杯

作者阿尔特姆·奥珀曼 — 8 分钟阅读

贝叶斯定理可能是数理统计和概率论领域中最重要的定理。由于这个原因,这个定理经常在数据科学领域得到应用。
在本文中,我将用一个实际问题来直观地推导贝叶斯定理。

利用最先进的自然语言处理库 Flair 进行文本分类

Tadej Magajna — 6 分钟读取

为什么这是 NLP 的大新闻?Flair 在解决自然语言处理问题方面提供了一流的性能,如命名实体识别(NER)、词性标注(PoS)、词义消歧和文本分类。这是一个建立在 PyTorch 之上的 NLP 框架。

通过构建真实世界的应用程序掌握 Python(第 3 部分)

通过 Dhrumil Patel — 5 分钟读取

世界在快速发展,技术也在快速发展。每天你都会看到一些你从未听说过的东西。但这不是问题。问题是,如何找到合适的资源,以正确的顺序学习所有的东西?如果你也有同样的问题,那你就等着享受吧。

作为一名软件工程师,我曾与一名数据科学家共事。下面是我的经验

由本丹尼尔 A. — 5 分钟阅读

2017 年末,我开始对机器学习领域产生兴趣。我讲了我刚开始旅行的经历。总之,它充满了有趣的挑战和大量的学习。我是一名 Android 工程师,这是我与我们的数据科学家合作 ML 项目的经验。

两个卷积的故事:图形神经网络的不同设计范例

科迪·玛丽·怀尔德 — 14 分钟阅读

“图形”是自然语言中一个不如数学术语精确的术语:在日常用语中,图形通常可以用来表示绘图、图表或更普遍的数据可视化。

什么是智力?

叶戈尔德志 — 24 分钟读出

大约 7 年前,当我还在上高中的时候,我是一名网站开发人员,并把学习心理学作为业余爱好,我偶然发现了一篇关于人工神经网络的文章。

理解文本摘要并在 python 中创建自己的摘要器

通过 Praveen Dubey — 7 分钟读取

我们都与使用文本摘要的应用程序进行交互。这些应用程序中有许多是针对发布每日新闻、娱乐、体育文章的平台的。

湾区怎么通勤?

乔恩·贝特 — 11 分钟阅读

对于这个项目,我想回答一个问题。我们能否仅使用通勤数据来定义旧金山湾区公交机构的服务区域?如果可以,会是什么样子?

每周精选—2017 年 12 月 29 日

原文:https://towardsdatascience.com/weekly-selection-dec-29-2017-cdab5a8eaaba?source=collection_archive---------6-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

基于网络的多媒体学习的音频功能

Boris Smus — 8 分钟阅读。

深度学习的学生面临的第一个问题是在 MNIST 数据集中对手写数字进行分类。多亏了 deeplearn.js 的,这个最近被移植到网络上

马尔可夫链蒙特卡罗方法的零数学介绍

本剃须刀 — 11 分钟读取。

对于我们中的许多人来说,贝叶斯统计充其量是巫毒魔法,或者说是完全主观的胡说八道。在贝叶斯方法的商标中,马尔可夫链蒙特卡罗方法尤其神秘。

人工智能在音频处理中的承诺

丹尼尔·罗斯曼 — 7 分钟阅读

2017 年是人工智能的好年景,尤其是深度学习。我们已经看到图像和视频处理的人工智能技术的兴起。尽管事情往往需要一段时间才能进入音频世界,但在这里我们也看到了令人印象深刻的技术进步。

一次性学习:使用连体神经网络进行人脸识别

由弗达奥斯·杜卡里——5 分钟阅读

本文以人脸识别为例,介绍了一次性学习,特别是连体神经网络。我将与你分享我从论文《FaceNet:人脸识别和聚类的统一嵌入》和 deeplearning.ai 中学到的东西。

机器学习基础(二):神经网络

通过康纳麦当劳 — 6 分钟阅读

在我的上一篇文章中,我通过展示成本函数和梯度下降在学习过程中的核心作用,概述了机器学习的工作原理。

如何创建代号机器人第一部分:Word2vec

由杰里米·尼曼 — 6 分钟读完

作为一个桌游爱好者和程序员,我想到设计一个算法来玩流行的游戏代号将是一个有趣的,如果不是值得努力的话。在这一系列的博客文章中,我将分享我在产生基于单词联想的线索方面的各种尝试,这些线索是代号的组成部分。所以!让我们开始吧。

计量分析:中本聪

迈克尔·姜 — 7 分钟阅读

自然语言处理工具被应用于中本聪的比特币论文,以将其与众多加密货币相关的论文进行比较,试图识别未知的中本聪的真实身份。

如何可视化分布

Marc Laforet — 5 分钟阅读

您已经将所有必要的数据整理成一种清晰的格式,您已经恰当地执行了一个时髦的统计分析,现在是分析结果的时候了。这就是可视化数据派上用场的地方。

如果我告诉你数据库索引是可以学习的,会怎么样?

科迪·玛丽·怀尔德——5 分钟阅读

不幸的是,这篇论文我没能在 NIPS 上看到,但在过去的几天里,它在 ML 圈子里引起了相当多的关注。这些作者中包括杰夫·迪恩(Jeff Dean),一位非常受尊敬的早期谷歌员工,他们有一个核心观点,他们在整篇论文中重申:在他们的核心,数据库索引是模型。

数据挖掘简介

西达斯·阿西里 — 4 分钟读完

数据挖掘是当今非常热门的话题。与几年前不同,现在一切都与数据绑定,我们有能力很好地处理这些类型的大数据。

我们感谢 Patreon 的支持者,是他们让我们的工作成为可能😊

丹尼尔·夏皮罗,博士文卡特·拉曼配制员基里尔·帕纳林,赛赛,扎克·塞格彭蒂尔塔约蒂·萨卡尔,安东尼·马内洛,纳温·蒂鲁帕图尔

成为✨的资助人

每周精选—2018 年 12 月 7 日

原文:https://towardsdatascience.com/weekly-selection-dec-7-2018-fcec7ff38a2e?source=collection_archive---------19-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

自然语言处理的深度迁移学习

迪潘然(DJ)萨卡 — 18 分钟阅读

迁移学习是一个令人兴奋的概念,我们试图将一个领域和任务中的现有知识运用到另一个领域和任务中。灵感来自我们人类本身,我们有一种天生的能力,不需要从头开始学习一切。

用一个简单的 Python 机器人增加你的 Instagram 粉丝

法比奥内维斯 — 9 分钟读取

培养观众是一项昂贵而痛苦的任务。如果你想建立一个与你相关的、有共同兴趣的听众群,那就更难了。我总是看到 Instagram 有一个很好的方法来推广我的照片,但我从来没有超过 380 个粉丝…

永远不要从假设开始

凯西·科济尔科夫(Cassie Kozyrkov)—8 分钟

设置假设检验是一场交际舞;它的步骤是动作-动作-世界-世界。有很好的狐步舞节奏。不幸的是,大多数人一开始就搞砸了。以下是如何正确地跳舞。

法医深度学习:Kaggle 相机模型识别挑战

弗拉基米尔·伊格洛维科夫(Vladimir Iglovikov)——15 分钟阅读

大约一年前,在 kaggle.com 举办了一场名为 IEEE 信号处理协会——相机型号识别的计算机视觉挑战赛。

冷启动问题:如何建立你的机器学习组合

爱德华·哈里斯 6 分钟阅读

我是一名物理学家,在 YC 的一家初创公司工作。我们的工作是帮助新毕业生获得他们的第一份机器学习工作。

Python 和 Slack:天生一对

作者:威廉·科尔森 — 8 分钟阅读

当你知道你能用 Python 做多少事情时,生活就会变得更加美好。我日常工作流程中的第一个转变来自于我阅读了《用 Python 自动化枯燥的东西》,并发现有一些日常任务——比如任何与电子表格有关的事情——我不再需要浪费时间。

一种不同的(深度)学习

Gidi Shperber — 10 分钟读取

深度学习真正重新洗牌了机器学习领域的东西,特别是在图像识别任务中。2012 年,Alex-net 发起了一场解决(或至少显著改善)计算机视觉任务的竞赛(仍远未结束)。

多任务学习:多教你的人工智能,让它变得更好

亚历山大·巴甫洛夫·洪查尔 — 17 分钟读完

大家好!今天,我想告诉你关于机器学习的话题,一方面,这是非常面向研究的,应该把机器学习算法带到更像人类的推理中,另一方面,这是我们从机器学习的基础中非常熟悉的,但很少被解释为我今天想要展示的。

每周精选—2017 年 12 月 8 日

原文:https://towardsdatascience.com/weekly-selection-dec-8-2017-f6851d4b6f8d?source=collection_archive---------6-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

顶级人工智能研究人员对“模拟假说”的坦诚思考

丹尼·赫尔南德斯 — 4 分钟阅读

我在奶头的一个黑暗的房间里调查了人工智能科学家,了解他们最深层的意图和信念。

黑人生活的数据:麻省理工学院举行的首次会议

由贾梅勒·沃森-丹尼尔斯 — 8 分钟阅读

我们听说过万有引力和电磁力,但还有另一个:Yeshimabeit Milner。正是她的远见推动了现在被称为“黑人生活数据”的运动。

深度学习&医疗诊断

通过尼尔·拉西亚 — 6 分钟阅读

在过去的几个月里,已经有许多研究发现宣布,声称深度学习已经被应用于,并且经常是立即在特定的诊断领域胜过医生。

如何在 Tensorflow 上使用神经网络(SSD)构建实时手部检测器

维克多·迪比亚 — 10 分钟阅读

这篇文章记录了使用 Tensorflow(对象检测 API)训练手部检测器的步骤和脚本。我感兴趣的主要是检测桌子上的手。

如何用神经网络找到沃利

通过 Tadej Magajna — 6 分钟读取

深度学习提供了另一种方法来解决 Wally 在哪里的难题。但与传统的图像处理计算机视觉方法不同,它只使用少数几个带标签的例子,包括沃利在图像中的位置。

你应该知道的 4 个深度学习突破

塞斯·魏德曼 — 11 分钟阅读

由于开源社区的强大,第二部分变得越来越容易。关于如何使用 TensorFlow 等库来训练和使用深度学习模型的具体细节,有许多很好的教程,其中许多出版物如《走向数据科学》每周出版一次。

kegra:用 Keras 对知识图谱进行深度学习

丹尼尔·夏皮罗博士——7 分钟阅读

你好。我在过去的文章中提到过,我正在紧张地研究面向企业数据集的认知计算。这是那个。这篇文章需要对深度学习有所了解,但是你应该能够理解数据科学的最基本知识。

Python 数据科学:将条件循环转化为 Numpy 向量

通过 Tirthajyoti Sarkar — 4 分钟读取

矢量化技巧是数据科学家非常熟悉的,通常用于编码,以加速整体数据转换,其中简单的数学转换是在可迭代对象(如列表)上执行的。不太为人所知的是,对非平凡的代码块(如条件循环)进行矢量化也是值得的。

拿破仑是有史以来最好的将军,数学证明了这一点。

Ethan Arsht — 8 分钟读取

受棒球赛计量法的启发,我选择使用一种胜于败的系统。战争经常被用来评估一个棒球运动员对他的球队的贡献。

带动量的随机梯度下降

维塔利·布沙耶夫 — 7 分钟阅读

这是我关于用于训练神经网络和机器学习模型的优化算法系列的第 2 部分。第 1 部分讲的是随机梯度下降。

使用 XGBoost 预测献血,无需使用 Dataiku 编写任何代码

通过 Nadaa Taiyab — 9 分钟读取

我决定用一个名为驱动数据的组织举办的类似 Kaggle 的竞赛中的数据集来测试 Dataiku 的数据科学工作室技术。驱动数据主办数据科学竞赛,以解决具有社会影响的问题。

用 Python 解决一个简单的分类问题——水果爱好者版

苏珊李 — 6 分钟读完

在这篇文章中,我们将使用最流行的 Python 机器学习工具 Scikit-learn 在 Python 中实现几个机器学习算法。使用简单的数据集来训练分类器以区分不同类型的水果。

ka ggle 内核简介

郁风 G — 5 min 读出

在《人工智能历险记》的这一集里,我们将了解什么是 Kaggle 内核,以及如何开始使用它们。虽然这一集没有爆米花,但我可以保证 Kaggle 内核正在爆开!

每周精选

原文:https://towardsdatascience.com/weekly-selection-e0c037c6f2c1?source=collection_archive---------3-----------------------

亲爱的读者和投稿人:

像往常一样,我们很高兴向您展示我们每周精选的关于数据科学的文章。我们希望你喜欢:)

捍卫简单,数据可视化之旅

艾琳·罗斯——阅读:7 分钟。

在我职业生涯的最后 8-9 年里,我一直专注于数据可视化,这给了我足够的时间来发展我在这个领域的一两个理念。我说两个,但我真正指的是大约六个半心烦意乱的职业危机产生时刻(持续几周或几个月),询问我想从这个领域中得到什么,我正在做的事情是否是“正确的事情”,以及我是否应该做其他事情。

机器学习,遇见海洋

凯特·温——读数:5 分钟。

马萨诸塞州的梅德福德今天气温 20 度,当我过河时,昨天的雪正刮过马路。我飞过整个国家,和一小群工程师、渔业科学家以及以晚餐和能量饮料的承诺招募的朋友们聚集在一个小小的地下室办公室里。

下一个前沿——从认知到理解

尤里·巴尔佐夫——阅读:5 分钟。

AI 能从一个没有 90%大脑正常生活的人身上学习意识吗?也许一个自闭症患者也能帮上忙?核心价值观和讲故事呢?虽然这些问题听起来很矛盾,但它们可能会给人工智能科学家提供一些发展具有自我意识的人工智能的重要线索。

检查你对数据的假设

布莱恩·高德西——阅读:6 分钟。

不管我们愿不愿意承认,我们都会对数据集做出假设。我们可以假设我们的数据包含在特定的时间段内。或者,我们可以假设包含电子邮件的文件夹的名称是这些电子邮件的主题或分类的适当描述符。这些关于数据的假设可以是预期或希望,有意识的或潜意识的。

LDA 是降维技术还是分类器算法?

作者梅加洛姆·迭戈·费尔南德斯——阅读:9 分钟。

在这篇文章中,我将继续讨论这个主题,但现在,谈论线性判别分析(LDA)算法。LDA 被作者定义为一种降维技术,然而一些来源解释说 LDA 实际上作为线性分类器工作。

参数推断:最大似然 & 最大似然

Rahul Bohare——阅读:15 分钟和 10 分钟。

这篇文章深入探讨了理论机器学习最重要的概念之一,即。,参数推断。当我觉得需要的时候,我会试着专注于对概念的直觉理解,同时嵌入数学公式。

每周精选

原文:https://towardsdatascience.com/weekly-selection-ef9af1a8784d?source=collection_archive---------9-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果您正在使用神经风格转移或深度照片风格转移,重要资源

Kailash Ahirwar — 6 分钟阅读。

神经风格迁移和深度照片风格迁移是深度学习的有趣领域。他们的受欢迎程度已经上升到另一个水平。像 Prisma 和 Deepart.io 这样的应用加速了流行。

深度学习之美背后的秘密酱:激活功能初学者指南

Mate Labs — 7 分钟读取。

激活功能是获取输入信号并将其转换为输出信号的功能。激活函数将非线性引入网络,这就是为什么我们称之为非线性。

在 SELU 自动编码器(不是另一个 MNIST)上高斯混合模型的无监督学习

gon alo Abreu—5 分钟读取。

你是一个不了解人类文化的外星人,出于某种原因,你设法从手写数字数据集中获取了所有图像(MNIST)。

人们在谈论“再现性危机”和“p 值”,我觉得我应该理解,但我的眼睛已经变得呆滞……你能帮忙吗?

通过哑光 Brems — 9 分钟读取。

我不知道回答这样的问题有多大市场,但如果有人知道,也许我会成为数据科学领域的“亲爱的艾比”。(“亲爱的 Statsy”有些潜力。)

基于索赔的索赔的危险性

伦纳德·达沃利奥博士 — 4 分钟阅读。

医疗保健因缺乏采用的数据格式而臭名昭著。一个例外是付款人和供应商之间交换的账单信息。这些文件通常被称为“索赔”

流派精要——建立专辑推荐系统

维尔莫斯米勒 — 16 分钟阅读。

为了练习我的 Python 技能并探索推荐系统的内部工作方式,我决定使用协作过滤来构建一个推荐系统,该系统基于以音乐专辑的用户评级形式的明确反馈。

连接深度学习应用的点…

由贾纳丹·谢蒂 — 6 分钟阅读。

我们的日常活动充满了情感和情绪。想过我们如何通过计算机识别这些情绪吗?哎呀,没脑子的电脑:)?

每周精选

原文:https://towardsdatascience.com/weekly-selection-f740cb6755e1?source=collection_archive---------13-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

SQL 教程:如何编写更好的查询

Karlijn Willems — 19 分钟阅读。

结构化查询语言(SQL)是数据科学行业中不可或缺的技能,一般来说,学习这项技能相当容易。然而,大多数人忘记了 SQL 不仅仅是编写查询,这只是前进道路上的第一步。确保查询是可执行的,或者它们适合您正在工作的环境,这完全是另外一回事。

数据科学简化版:简单线性回归模型

帕拉德普·梅农 — 9 分钟读出。

在本系列之前的帖子中,我们讨论了统计学习假设检验的概念。在本文中,我们深入线性回归模型。

通过 Tensorflow 识别蝙蝠的声音来检测蝙蝠

罗兰梅尔滕斯 — 10 分钟阅读。

上周我发现我的公寓后面有蝙蝠。我立即抓起我的“蝙蝠探测器”:一种将蝙蝠用来回声定位的超声波信号从听不见的频率范围转换成听得见的频率范围的装置。

政治党派:看看数据

通过 Akhil Jalan — 4 分钟读取。

传统观点认为,特朗普时代是近期政治中政治极化最严重的时期。我决定看看一些数据,看看是否真的是这样。

对抗性自动编码器的向导指南:第一部分,自动编码器?

纳雷什纳加布山 — 9 分钟阅读。

我们知道,卷积神经网络(CNN)或在某些情况下密集的全连接层(MLP——一些人喜欢称之为多层感知器)可以用来执行图像识别。

带 Keras + OpenAI 的强化学习:DQNs

通过 Yash Patel — 11 分钟读取。

上次在我们的 Keras/OpenAI 教程中,我们讨论了一个将深度学习应用于强化学习上下文的非常基本的例子。回想起来,这真是一场不可思议的演出!

利用深度学习检测面部特征

Peter Skvarenina — 6 分钟阅读。

也许你想知道如何在实时视频聊天中在人脸上放置有趣的物体或检测情绪?在这里,我将向您展示一种利用深度学习的可能方法,并略读一种较老的方法。

以下是我从编写、编码和设计自己的长格式数据驱动专题故事中所学到的东西

由本杰明库利 — 9 分钟阅读。

“不择手段。”这个短语在历史上有了新的含义,从第一次出现在让-保罗·萨特的戏剧中,到出现在马尔科姆·Ⅹ关于民权运动的演讲中。

神经网络系列简介—第一部分

David Fumo — 8 分钟读完。

神经网络和深度学习是计算机科学和技术行业的重要话题,它们目前为图像识别、语音识别和自然语言处理中的许多问题提供了最佳解决方案。

每周精选

原文:https://towardsdatascience.com/weekly-selection-fb4dcf6e73b0?source=collection_archive---------7-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Google tensor flow 物体检测 API 是实现图像识别最简单的方法吗?

Priya Dwivedi — 4 分钟阅读。

有许多不同的方法来进行图像识别。谷歌最近发布了一个新的 Tensorflow 对象检测 API,以推动计算机视觉无处不在。谷歌提供的任何服务都不能掉以轻心,所以我决定尝试一下这个新的 API,并在 you tube 的视频上使用它:)

记忆、注意力、序列

通过Eugenio culrciello—4 分钟阅读。

我们已经看到分类神经网络的兴起和成功。神经网络的下一个重大步骤是理解来自观察和与现实世界互动的复杂时空数据。我们之前谈过在这个领域运作的新一波神经网络

如何用 CNN,TensorFlow,单词嵌入做文本分类

拉克什马南 V — 9 分钟读取。

假设我给你一篇文章的标题“Twitter Bootstrap 的惊人扁平版本”,并问你这篇文章出现在哪个出版物上:纽约时报、TechCrunch 或 GitHub。你的猜测是什么?

智慧城市和图像识别

由乔·汉森 — 6 分钟读完。

人工智能的进步意味着应用程序越来越多地具备图像识别能力,使它们能够识别物体,检测人脸的年龄,并筛选出成人内容。几年来,国土安全部一直致力于在美国机场实施生物识别监控系统来验证旅客的身份,最近他们在海关和边境保护局的试点中取得了成功。

使用 Keras 和直方图均衡化进行深度学习的图像增强

瑞安阻断 — 12 分钟读取。

深度神经网络,尤其是卷积神经网络(CNN),尤其擅长图像分类任务。最先进的 CNN 甚至被证明在图像识别方面超过了人类的表现。

tensor flow 中的音频处理

由达里奥·卡扎尼 — 6 分钟读完。

我们发现 TensorFlow 中的音频处理很难,下面是我们的解决方案。有无数种方法可以执行音频处理。在 TensorFlow 中用人工神经网络运行带有音频输入的实验的通常流程是首先预处理音频,然后将其馈送到神经网络。

在哪里投资放射学 AI

休·哈维 — 8 分钟阅读。

随着我们到达围绕人工智能及其对放射学领域的影响的炒作曲线的顶点,精明的投资者意识到这一前进空间的危险和陷阱比以往任何时候都更重要。

每周精选—2018 年 2 月 16 日

原文:https://towardsdatascience.com/weekly-selection-feb-16-2018-6f2551d3181b?source=collection_archive---------9-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

应用贝叶斯法则

威廉·科尔森 — 9 分钟阅读

贝叶斯推理的基本思想是用更多的数据变得“更少的错误”。这个过程很简单:我们有一个最初的信念,称为先验,当我们获得更多信息时,我们会更新它。

使用生成式对抗网络的自动特征工程

哈马德·沙阿 — 8 分钟读取

深度学习的目的是使用一系列可微分函数(即几何变换)来学习高维度和噪声数据的表示,这或许可以用于监督学习任务以及其他任务。

如何编写数据科学中的生产级代码?

文卡特什·帕帕克里什南博士 — 11 分钟阅读

编写生产级代码的能力是数据科学家角色的抢手技能之一——无论是否明确公布。对于一个从软件工程师转型为数据科学家的人来说,这听起来可能不是一个具有挑战性的任务,因为他们可能已经完善了开发生产级代码的技能,并多次部署到生产中。

每个有抱负的数据科学家需要知道的 10 件事

通过 Ayo Oluleye — 6 分钟读取

哈佛的一篇文章《数据科学家:21 世纪最性感的工作》首先引发了我对数据科学领域的兴趣。那时,我已经在管理咨询行业工作了 3.5 年,并在 MS Excel 中建立模型和开发项目方面建立了良好的声誉。

广义线性模型

通过 Semih Akbayrak — 7 分钟读取

自从我写了第一篇面向所有人的机器学习文章以来,已经有很长时间了。从现在开始,我会试着更频繁地发表文章。

区块链与传统数据库

沙安雷 — 4 分钟读完

传统数据库使用客户机-服务器网络体系结构。在这里,用户(称为客户端)可以修改存储在中央服务器上的数据。

在谷歌工作表中构建深度神经网络

布莱克·韦斯特 — 7 分钟读完

我想告诉你深度卷积神经网络并不像听起来那么可怕。我将通过展示我在 Google Sheets 中制作的一个实现来证明这一点。这里有这里有

用 Python 进行深度学习

通过维哈尔鞍马 — 8 分钟阅读

深度学习背后的主要原因是,人工智能应该从大脑中获取灵感。这种观点产生了“神经网络”这个术语。

用人工智能对抗癌症

由 Andrew DeCotiis-Mauro — 9 分钟阅读

今年 8 月,我听到了没有人想从他们的医生那里听到的话:“你得了癌症。”我被诊断出患有一种罕见的非霍奇金淋巴瘤。经过几周混乱的测试和第二意见后,很明显我的预测是好的。

每周精选—2018 年 2 月 2 日

原文:https://towardsdatascience.com/weekly-selection-feb-2-2018-f93285dc6810?source=collection_archive---------9-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过 DPC 模拟 TI 资质

埃尔文·埃德米尔 — 12 分钟阅读

当我在 ESL One 云顶发现 FATA 生病的时候,已经是我所在时区的午夜了。当文本到达时,我仍处于半睡半醒的状态,因此尽管仍在做梦,我仍在考虑建立一个统计模拟,以从数字上评估无法通过 DPC (Dota Pro Circuit)积分进入 TI 的风险。

为什么、如何以及何时应用功能选择

Sudharsan Asaithambi — 5 分钟阅读

现代数据集的信息非常丰富,数据是从数百万个物联网设备和传感器收集的。这使得数据变得高维,拥有数百个要素的数据集很常见,甚至达到数万个也不罕见。

如何掌握新技能

由威廉·科尔森 — 6 分钟阅读

学习新技能的最好方法是用它来解决问题。在我以前作为一名航空航天工程学生的生活中,我花了几个小时在 Excel 中编写复杂的公式来做从设计机翼到计算航天器再入角度的一切事情。

如何处理缺失数据

通过 Alvira Swalin — 8 分钟读取

我在数据清理/探索性分析中遇到的最常见的问题之一是处理丢失的值。首先,要明白没有好的方法来处理丢失的数据。

深度学习的 Skejul 会议

通过法维奥·巴斯克斯 — 6 分钟阅读

当你的人在世界各地,在不同的时区,甚至在同一个房间时,安排一次会议是不容易的。我们都超级忙,对吧?也许你没有正确利用你的时间,也许你某一天有很多会议,而其他时间却没有。

关于机器学习需要知道的 12 件有用的事情

詹姆斯·勒 — 16 分钟读完

机器学习算法可以通过从示例中进行归纳来找出如何执行重要任务。在手动编程不可行的情况下,这通常是可行的且成本有效的。

为什么在深度学习中我们需要比反向传播更好的学习算法

通过 Kailash Ahirwar — 2 分钟读取

我们都同意一件事,即反向传播是一种革命性的学习算法。当然,它已经帮助我们训练了几乎所有的神经网络结构。

【Tensorflow 服务的实用文本生成

通过 5agado — 9 分钟读取

在这篇文章中,我将讨论深度学习模型通过 Tensorflow 的暴露和服务,同时展示我对灵活实用的文本生成解决方案的设置。

大规模应用开发的架构

查敏·娜琳达 — 17 分钟读完

现在,只需一瞥的时间,就可以实时分析卫星从太空发送到地球的数十亿字节的数据。还记得埃隆·马斯克强调的来自人工智能的潜在威胁吗?如果我们不能规范人工智能,这种威胁就不远了,对他来说这是非常重要的。

数据揭示:是什么让一场 Ted 演讲受欢迎?

— 13 分钟读取

我分析了 2550 个 ted 演讲的数据集来寻找这个问题的答案。我研究了一个特定演讲的哪些可用变量,如评论数量、翻译语言数量、演讲时长、标签数量或在线发布日期,是其受欢迎程度的强有力预测因素,以浏览量衡量。

理解特征工程(第三部分)——文本数据的传统方法

迪潘詹·萨卡尔 — 18 分钟阅读

在本系列的前两部分中,我们已经介绍了处理结构化数据的各种特性工程策略。检出第一部分:连续、数值数据第二部分:离散、分类数据复习。在本文中,我们将看看如何处理文本数据,这无疑是非结构化数据最丰富的来源之一。**

平均,你用错了平均:几何&调和手段在数据分析中

丹尼尔·麦克尼克 — 20 分钟阅读

算术平均值只是得出“平均值”的许多方法中的一种。更专业地说,这些被称为“汇总统计”、“集中趋势度量”或“位置度量”。

用 Python 监督学习

由维哈尔鞍马 — 7 分钟阅读

地球的未来是人工智能/机器学习。任何不理解这一点的人很快就会发现自己落后了。

关于深度学习的深层误解

杰西·摩尔 — 12 分钟阅读

我开始写这篇文章,是希望对抗一些关于深度学习(DL)的误解,深度学习是一个机器学习领域,同时被称为银弹和研究炒作。真相在中间的某个地方,我希望我能把水搅浑——至少一点点。

我们感谢 49 位 Patreon 支持者,是他们让我们的工作成为可能😊

威廉·霍格、克里斯·塞德尔、拉梅什·沙拉姆、丹尼尔·夏皮罗、博士文卡特·拉曼基里尔·帕纳林哈比卜·巴卢瓦拉、赛赛、扎克·塞普恩蒂尔塔约蒂·萨卡尔帕布·帕拉尼萨米西米恩·科斯塔迪诺夫内森·劳伊

成为✨的资助人

每周精选—2018 年 2 月 23 日

原文:https://towardsdatascience.com/weekly-selection-feb-23-2018-cbaef14c913a?source=collection_archive---------8-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

谁在椭圆形办公室发推特?

格雷格·拉弗蒂 — 18 分钟阅读

我开发了一个推特机器人@ who sintheeval,它转发唐纳德·特朗普的每一条推文,并预测这条推文是由特朗普本人还是他的一名助手写的。请务必在 Twitter 上关注这个机器人,并继续阅读以了解我是如何构建这个模型的!

最好的数据科学学习资源和我的数据科学之旅-

由阿尼什·辛格·瓦利亚 — 12 分钟阅读

因此,在这篇文章中,我将分享我的一些技巧和最好的资源,这些是我在大约 2 年前对这个时髦词完全陌生时开始的。

机器学习从零开始(第一部分)

塞巴斯蒂安·科维亚特科夫斯基 9 分钟阅读

这是关于机器学习的全新系列的第一篇文章。每篇文章都将基于五个核心原则。我的主要目标是让读者对应用机器学习的基础有一个深入的了解。

可视化弓箭手

以利亚·米克斯(Elijah Meeks)——13 分钟阅读

要实现这一点,你需要数据。不幸的是,卡通面部识别和自动分析的状态很糟糕,至少就我所能利用的而言是这样。微软的视频索引器 API 可能意味着你可以不用手工就能做到这一点,至少对于真人主演的无聊节目来说是这样,但我们没有。

解释机器学习模型

Lars Hulstaert — 8 分钟阅读

不管您的数据科学解决方案的最终目标是什么,最终用户总是更喜欢可解释和可理解的解决方案。此外,作为一名数据科学家,您将始终受益于模型的可解释性,以验证和改进您的工作。

递归神经网络(RNN)

尼姆斯辛哈 — 7 分钟读完

作为人类,当我们看一部电影时,我们不会每次都在理解任何事件的同时从零开始思考。我们依靠电影中最近发生的经历,并从中学习。

处理您的仪表板布局?

通过 Tricia Aanderud — 5 分钟阅读

也许创建仪表板的最大障碍是布局。它必须是有用信息和吸引力的正确结合。大多数仪表板都显示在网页上。

为什么深度学习可能最适合乳房

休·哈维 — 11 分钟阅读

1986 年是伟大的一年。在史上最差着装十年的鼎盛时期,俄罗斯人发射了 Mir 空间站,皮克斯成立,微软上市,第一台 3D 打印机售出,马特·格罗宁创作了《辛普森一家》。

每周精选—2018 年 2 月 9 日

原文:https://towardsdatascience.com/weekly-selection-feb-9-2018-e2be7fb8d038?source=collection_archive---------13-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

deepfakes 带来的家庭乐趣。或者我是如何让我的妻子上《今夜秀》的

斯文·查理尔 — 5 分钟读完

deepfakes 应用程序是一种深度学习算法,可以学习如何重建人脸。给它一堆图片,让它运行几个小时,它就会吐出这些图像的模糊副本。

数据科学家需要了解的 5 种聚类算法

由乔治·赛义夫 — 11 分钟读完

聚类是一种涉及数据点分组的机器学习技术。给定一组数据点,我们可以使用聚类算法将每个数据点分类到特定的组中。

成为数据驱动或灭亡:为什么你的公司需要数据战略,而不仅仅是更多的数据人

通过德韦恩·格费里 — 6 分钟读取

在过去的 14 年里,我一直以这样或那样的方式处理数据。我最初是一名管理信息系统经理(ABN·阿姆洛),这是一个很棒的头衔,但我基本上是下载 PDF 报告,并手动将它们输入电子表格,以生成每日财务报告,多年来,我做过商业情报经理( ING 银行荷兰合作银行德尔塔·劳埃德)、数据分析师(微软)、数据科学家(阿德延), De Bijenkorf ,现在是一家荷兰支付技术初创公司( Dimebox )的数据主管。

命名实体识别:应用和用例

由 Shashank Gupta — 5 分钟阅读

命名实体识别是一个过程,其中算法将一串文本(句子或段落)作为输入,并识别该串中提到的相关名词(人、地点和组织)。在我们之前的博客中,我们给了你一瞥我们的命名实体识别 API 是如何工作的。

那么,你还有多少 ML 模型没有造出来?

通过文卡特拉曼 — 6 分钟读取

好奇怪的问题!!这是你看了标题后会想到的。也许你认为“不是”这个词是偶然的。

面向所有人的卷积神经网络|第一部分

由简·扎瓦日基 — 7 分钟读完

Coursera 深度学习专业化的前三门课程是可以忍受的艰难,但接下来是课程 4 。这么多伟大的主题和概念!但是无数次停止视频、做笔记和重新观看讲座让我们,一群官方导师,决定学习指南值得努力。

在机器学习中,识别上下文仍然很难——以下是解决这个问题的方法

亚伦·爱戴 — 4 分钟阅读

机器学习已经走过了漫长的道路,因为它涉及到识别人脸,物体和其他文字。但它仍然有点纠结的地方是语境。

模拟器:应用深度强化学习的关键培训环境

西里尔·格洛克纳 — 4 分钟阅读

深度强化学习(DRL)是目前人工智能中最令人兴奋的领域之一。现在还为时尚早,但这种技术可以应用于明显且服务不足的市场:希望自动化或优化工业系统和流程效率的企业(包括制造、能源、HVAC、机器人和供应链系统)。

我们感谢我们的 50 位 Patreon 支持者,是他们让我们的工作成为可能😊

威廉·霍格、克里斯·塞德尔、拉梅什·沙拉姆、丹尼尔·夏皮罗、博士文卡特·拉曼基里尔·帕纳林哈比卜·巴卢瓦拉、赛赛、扎克·塞普恩蒂尔塔约蒂·萨卡尔帕布·帕拉尼萨米西米恩·科斯塔迪诺夫内森·劳伊

成为✨的资助人

每周精选—2018 年 1 月 12 日

原文:https://towardsdatascience.com/weekly-selection-jan-12-2018-53017efa34ce?source=collection_archive---------4-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

用 d3 构建共现矩阵分析学位论文中的重叠主题

作者德博拉·梅斯基塔 — 7 分钟阅读

我硕士学位研究的目标是在不同领域的研究人员之间激发新的合作机会。但在此之前,我需要后退一步,看看是否有任何合作已经发生

尖峰神经网络,下一代机器学习

通过 Devin Soni — 4 分钟读取

每个远程关注机器学习最新进展的人都听说过当前用于机器学习的第二代人工神经网络。这些一般都是全连接的,接受连续值,输出连续值。

机器学习研究人员需要学习的 8 种神经网络架构

由詹姆斯·勒 — 22 分钟读完

对于人类无法直接编码的复杂任务,需要机器学习。有些任务非常复杂,以至于人类要想清楚所有的细微差别并明确地为它们编码是不切实际的,甚至是不可能的。

神经网络优化算法

由 Vadim Smolyakov — 6 分钟读取

神经网络用 f(x(i)表示;θ)其中 x(i) 是训练数据并且 y(i) 是训练标签,损失的梯度 L 相对于模型参数θ被计算。学习率( eps_k )决定了算法沿梯度的步长大小(最小化时为负方向,最大化时为正方向)。

关于特朗普总统和共和党,数据科学揭示了什么

帕克·休厄尔 — 8 分钟阅读

作为用户生成内容分析课程的最后一个项目,我们的六人小组想知道推特用户和对*《纽约时报》*文章的评论者对川普总统和共和党的看法。我们假设大多数人会把特朗普和他领导的政党紧密联系在一起,反之亦然。

给我讲个故事:关于模型可解释性的想法

由科迪·玛丽·怀尔德 — 6 分钟阅读

最近,我的思考围绕着感觉像是机器学习的一些最大的元对话:学习一个普遍智能的演员的潜力和局限性,算法公平性的细微差别和真正的规范挑战,以及现在,模型对人类来说是可解释和可理解的意味着什么。

如何获得一份数据科学家的工作?

通过法维奥·巴斯克斯 — 4 分钟阅读

大家好。这篇博客文章来自我最近在 LinkedIn 发表的三篇文章。这里是第一部分、第二部分和第三部分。这是一个很难回答的问题。这一个和我一起挂吧(而这并不是关于宇宙、存在和一切的最终答案)。

情感分析:概念、分析和应用

由 Shashank Gupta — 7 分钟阅读

情感分析是对文本进行上下文挖掘,识别和提取源材料中的主观信息,并帮助企业在监控在线对话的同时了解其品牌、产品或服务的社会情感。然而,社交媒体流的分析通常仅限于基本的情感分析和基于计数的指标。

用 Python 进行加密货币价格预测

Chalita Lertlumprasert—11 分钟阅读

自从比特币的价格开始飙升以来,围绕加密货币市场的炒作一直在持续。备用硬币每天都在不断出现——有些是骗局,有些几个月内就登上了硬币排行榜的榜首。

从 FourSquare 签到中预测纽约市的财富

陈 — 8 分钟阅读

在营销和广告中,对当地人口统计数据的了解使企业能够更好地为当地居民提供产品和服务。在学术界,社会科学家可能有兴趣了解城市中的人们如何应对不断变化的业务,也许是对中产阶级化的研究。

了解特征工程(第二部分)—分类数据

Dipanjan Sarkar — 14 分钟读取

在本系列 *的前一篇文章中,我们讨论了处理结构化连续数字数据的各种特征工程策略。*在本文中,我们将关注另一种类型的结构化数据,这种数据本质上是离散的,通常被称为分类数据。

我的数据科学之旅

Rosebud Anwuri。 — 8 分钟读取

很多人问我关于我从化学工程转到数据科学的问题。我是怎么做到的?我什么时候做的?我为什么要这么做?我觉得今天(2018 年 1 月 6 日)是回答这些问题的合适日子,因为这是我报名参加第一门编程课程以来的第三个年头。

概率概念讲解:参数估计的贝叶斯推断。

Jonny Brooks-Bartlett — 14 分钟阅读

在之前的博文中,我介绍了机器学习和统计模型中参数估计的最大似然法。在这篇文章中,我们将回顾另一种使用贝叶斯推理的参数估计方法。

我们感谢 43 位 Patreon 支持者让我们的工作成为可能😊

威廉·霍格、克里斯·塞德尔、拉梅什·沙拉姆、丹尼尔·夏皮罗、博士文卡特·拉曼基里尔·帕纳林、赛赛、扎克·塞格彭蒂尔塔杰约蒂·萨卡尔、安东尼·马内罗、纳温·蒂鲁帕特尔路易斯·洛雷特·德莫拉塞加·梅尔【特

成为赞助人

每周精选—2018 年 1 月 19 日

原文:https://towardsdatascience.com/weekly-selection-jan-19-2018-b33ccefc7d3c?source=collection_archive---------11-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

首先创建一个常识基线

罗摩·罗摩克里希南 — 8 分钟阅读

当你着手解决一个数据科学问题时,很容易一头扎进去,开始构建模型。不要。首先创建一个常识基线。

多维数据的有效可视化艺术

迪潘詹·萨卡尔 — 16 分钟读取

描述性分析 是与数据科学项目甚至特定研究相关的任何分析生命周期的核心组件之一。数据聚合、汇总和可视化是支持这一数据分析领域的一些主要支柱。

Python 中的股票分析

威廉·科尔森 — 11 分钟阅读

人们很容易被大量的数据和可用于数据科学的免费开源工具冲昏头脑。在花了一点时间使用了 quandl 金融库prophet 建模库之后,我决定尝试一些简单的股票数据探索。

各种强化学习算法介绍。第二部分(TRPO,PPO)

by 黃功詳 Steeve Huang — 10 min read

本系列的第一部分 介绍各种强化学习算法。第一部分(Q-Learning,SARSA,DQN,DDPG) I 讲述了强化学习(RL)的一些基本概念,并介绍了几种基本的 RL 算法。在本文中,我将继续讨论两种更高级的 RL 算法,这两种算法都是去年刚刚发表的。

我的数据科学和生物信息学之旅—第 1 部分:编程

鲁本·范·帕梅尔 — 12 分钟阅读

根据 IBM 的调查,每天有 250 万兆兆字节(1⁰ ⁸)的数据产生(一台普通电脑只能容纳 1 兆字节)。现有数据的 90%是在过去两年中生成的。

机器学习零到英雄:首次在 Kaggle 上竞争所需的一切,循序渐进!

柳文欢·达尔 — 16 分钟阅读

这篇文章将讲述我希望在一年前就知道的一切,当时我第一次决定学习更多关于数据科学的知识——它是为任何对数据科学感兴趣的人准备的,无论是作为一种爱好还是作为一种潜在的职业。

用广播和 PyTorch 加速你的 Python 代码

通过 Marko Cotra — 7 分钟读取

当我做硕士论文的时候,我花了很多时间处理大量的激光雷达数据。其中一个步骤是移除属于场景中静态对象(建筑物、栅栏等)的所有点测量。

你需要知道的数据科学概念!第一部分

迈克尔·巴伯 — 27 分钟阅读

我的背景是南部和东部非洲的大型制药公司、学术界(牛津大学物理和理论化学系的博士)和“为社会公益服务的数据科学”行业。

人工智能能否实现 10 分钟的核磁共振成像?

休·哈维 — 8 分钟阅读

MRI 机器(磁共振成像)是一头笨重的野兽。站在超过 7 英尺高,像一辆家用汽车一样宽,重量超过一吨,不断发出令人不安的滴答“嘶嘶”声,不完全是一件对病人友好的医疗设备。

如何进行数据实验室:针对大型数据集运行笔记本电脑

郁风 G — 5 分钟读完

将大数据传输到本地计算环境既缓慢又昂贵。在这一集的人工智能冒险中,我们将看到如何将您的笔记本环境应用到您的数据中!

我们感谢 46 位帕特里翁的支持者,是他们让我们的工作成为可能😊

威廉·霍格、克里斯·塞德尔、拉梅什·沙拉姆、丹尼尔·夏皮罗、博士文卡特·拉曼基里尔·帕纳林哈比卜·巴卢瓦拉、赛赛、扎克·塞格彭提尔塔吉约蒂·萨卡尔、安东尼·马内洛、塞加·梅尔、让·皮埃尔和迪潘詹·萨卡尔

成为✨的资助人

每周精选—2018 年 1 月 26 日

原文:https://towardsdatascience.com/weekly-selection-jan-26-2018-66e12abc1bff?source=collection_archive---------7-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用 Tensorflow 和 Keras 进行手写识别

Priya Dwivedi — 4 分钟阅读

由于个人书写风格的巨大差异,手写识别(也称为按书写者对每个手写文档进行分类)是一个具有挑战性的问题。

我的深度学习之旅

通过法维奥·巴斯克斯 — 8 分钟读取。

在这篇文章中,我将分享我如何研究深度学习并使用它来解决数据科学问题。这是一个非正式的帖子,但内容有趣(我希望如此)。

机器学习新手的 10 大算法之旅

由詹姆斯·勒 — 11 分钟读完

在机器学习中,有一种东西叫做“没有免费的午餐”定理。简而言之,它指出没有一种算法对每个问题都是最好的,并且它特别适用于监督学习(即预测建模)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

-> Start Learning with Dataquest

使用 Tensorflow 对象检测在 Android 上检测皮卡丘

由胡安·德·迪奥斯·桑托斯 — 12 分钟阅读

TensorFlow 的众多功能和工具的深处,隐藏着一个名为 TensorFlow 对象检测 API 的组件。顾名思义,这个库的目的是训练一个能够识别帧中对象(例如图像)的神经网络。

在 NLP 和 CV 中应用迁移学习

由 Lars Hulstaert — 8 分钟阅读

在这篇博文中,我将讨论迁移学习的两个应用。我将概述自然语言处理和计算机视觉领域的例子。

优步司机排班优化

伊万·周 — 12 分钟读完

优步的关键价值主张之一是为他们的司机合作伙伴提供调度灵活性。根据 Beneson Strategy Group 的一份报告,73%的司机更喜欢有一份可以让他们选择时间表的工作。

比谷歌更擅长机器学习——可能吗?

亚伦·爱戴 — 3 分钟读完

说你在某件事上比谷歌更好是没有意义的。然而,当我对我们的面部识别技术进行测试时,我发现我们比谷歌的视觉 API 更准确。

描绘神经科学的图景

法赫德·阿尔哈兹米 — 5 分钟读取

神经科学是一个多样化的科学领域,由不同的学科组成:生物学、心理学、计算机科学、语言学等等。脑科学的主要目标是了解神经系统。

为什么 AI 不会取代放射科医生

休·哈维 — 10 分钟阅读

2016 年末,神经网络教父杰弗里·辛顿教授表示,“很明显,我们应该停止培训放射科医生”,因为图像感知算法很快就会明显优于人类。他说,放射学家是“已经越过悬崖边缘但还没有往下看的郊狼”。

通过分享学习

由威廉·科尔森 — 4 分钟阅读

传统教育很简单:坐下,闭嘴,听老师讲课。课后去图书馆反复阅读同样的单词,试图理出我们日常生活中意义不大的抽象话题。

我们感谢 47 位帕特里翁的支持者,是他们让我们的工作成为可能😊

威廉·霍格、克里斯·塞德尔、拉梅什·沙拉姆、丹尼尔·夏皮罗、博士文卡特·拉曼基里尔·帕纳林哈比卜·巴卢瓦拉、赛赛、扎克·塞格彭提尔塔吉约蒂·萨卡尔帕布·帕拉尼萨米、安东尼·马内洛、让·皮埃尔和迪潘詹·萨卡尔

成为✨的资助人

每周精选—2018 年 1 月 5 日

原文:https://towardsdatascience.com/weekly-selection-jan-5-2018-76fc5287bd1c?source=collection_archive---------5-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

信息规划和朴素贝叶斯

瓦迪姆·斯莫里亚科夫 — 7 分钟阅读

信息规划包括基于信息度量做出决策。信息规划与主动学习[1]和最优实验设计[2]密切相关,其中标记数据的获取是昂贵的。

基于网络的语音命令识别

Boris Smus — 7 分钟阅读。

上次我们将音频缓冲区转换成图像。这次我们将拍摄这些图像,并使用 deeplearn.js 训练一个神经网络。结果是一个基于浏览器的演示,让你说出一个命令(“是”或“否”),并实时查看分类器的输出。

艺术风格转移

通过 Firdaouss Doukkali — 5 分钟读取。

这篇文章是关于艺术风格转移,或者你也可以称之为神经风格转移。知道深度学习可以用图像做出一些神奇的东西,很有意思。所以,我会试着让你更好地理解这个概念,以及它是如何工作的。

理解特征工程(上)——连续数值数据

Dipanjan Sarkar — 18 分钟读取

任何智能系统基本上都由一个端到端的管道组成,从接收原始数据开始,利用数据处理技术从这些数据中获取、处理和设计有意义的特征和属性。然后,我们通常利用统计模型或机器学习模型等技术对这些功能进行建模,然后根据手头要解决的问题,在必要时部署该模型以供将来使用。

概率概念解释:最大似然估计

Jonny Brooks-Bartlett — 8 分钟阅读

在这篇文章中,我将解释什么是参数估计的最大似然法,并通过一个简单的例子来演示这种方法。有些内容需要基本概率概念的知识,如联合概率的定义和事件的独立性。

人工智能,2018 年及以后的 AI

尤金尼奥·库勒切洛 — 13 分钟阅读

这些是我对深度神经网络和机器学习在更大的人工智能领域的发展方向的看法,以及我们如何才能获得越来越多的复杂机器来帮助我们的日常生活。

将大规模枪击事件政治化——当我们可以谈论枪支管制的时候

通过 Viet Vu — 2 分钟读取

2017 年 10 月 1 日,一名枪手从拉斯维加斯一家酒店房间内射出子弹,造成 59 人死亡,546 人受伤。这是美国近代史上最致命的大规模枪击事件。在每一次大规模枪击事件后,这种叙述都变得很熟悉,几乎是照本宣科。

使用 TensorFlow 对象检测 API、ML 引擎和 Swift 构建 Taylor Swift 检测器

莎拉·罗宾逊——11 分钟阅读

**注意:**在撰写本文时,Swift 还没有官方的 TensorFlow 库,我使用 Swift 构建了针对我的模型的预测请求的客户端应用程序。这种情况将来可能会改变,但泰勒对此有最终决定权。

你需要知道的 10 种机器学习算法

通过 Sidath Asiri — 6 分钟读取

由于数据分析、大计算能力和云计算的发展,我们生活在一个革命性时代的开端。机器学习肯定会在那里发挥巨大作用,机器学习背后的大脑是基于算法的…

甘斯真的模拟了真实的数据分布吗,或者他们只是在巧妙地愚弄我们?

Gal Yona — 6 分钟读完

自 2014 年引入以来,生成对抗网络(GANs)已经成为密度估计任务的流行选择。方法很简单:GAN 框架由两个网络组成,一个用于生成新样本,另一个用于区分真实样本(来自真实数据分布)和生成的样本。

GPU 优化的动态编程

由阿努拉达·维克拉马拉奇——3 分钟阅读

我们来考虑一下 路径和:项目欧拉问题 81 ( 链接)中的两种方式 。探索解的动态编程范式和 GPU 优化是我们感兴趣的问题。

训练和可视化单词向量

由 Priya Dwivedi — 6 分钟阅读

在本教程中,我想展示如何在 tensorflow 中实现 skip gram 模型,为您正在处理的任何文本生成单词向量,然后使用 tensorboard 将它们可视化。我发现这个练习非常有用,有助于我理解 skip gram 模型是如何工作的,以及在你将它们用于 CNN 或 RNNs 之前,感受一下这些向量捕捉到的关于你的文本的关系。

GPU 优化简介

通过阿努拉达·维克拉马拉奇——5 分钟阅读

大多数涉及大量计算的任务都需要时间,随着数据集变得越来越大,这将变得更加耗时。解决这个问题的一种方法是使用线程。

看德国交通标志

卡斯帕·弗雷登斯伦德 — 10 分钟阅读

我的意思是,当然,当我们开车穿过德国时,它们就在那里,我们(希望)确实看到了它们,有时我们甚至会记录它们的含义,并根据这些含义改变我们的行为。但是我们看那些醒目的蓝色、红色和白色的几何象形图做得还远远不够。

我们感谢 39 位 Patreon 支持者,是他们让我们的工作成为可能😊

威廉·霍格、克里斯·塞德尔、拉梅什·沙拉姆、丹尼尔·夏皮罗、博士文卡特·拉曼公式化基里尔·帕纳林、赛赛、扎克·塞格彭蒂尔塔约蒂·萨卡尔、安东尼·马内洛、纳温·蒂鲁帕图尔

成为✨的资助人

每周精选—2018 年 7 月 13 日

原文:https://towardsdatascience.com/weekly-selection-jul-13-2018-419574fd653f?source=collection_archive---------11-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如何构建数据科学组合

迈克尔·加拉尼克 — 17 分钟阅读

数据科学怎么找工作?了解足够的统计学、机器学习、编程等知识以便能够找到工作是很困难的。我最近发现的一件事是,相当多的人可能拥有找工作所需的技能,但没有作品集。

如何在你梦想的公司找到一份数据科学家的工作——我的 Airbnb 之旅

彭慧丽 — 8 分钟读完

我一个月前刚开始在 Airbnb 的新工作,是一名数据科学家,我仍然觉得我在这里太幸运了。没人知道我有多想加入这家公司——我的办公桌前贴着 Airbnb 办公室的照片;我把我的 iPhone 壁纸设置成我站在 Airbnb 标志前的照片;我四次申请 Airbnb 的职位,但最后一次才收到招聘人员的回复…

学习新的数据科学语言

通过本·韦伯 — 7 分钟读取

在不断变化的数据科学工具生态系统中,您经常发现自己需要学习一门新语言,以便跟上最新的方法或更有效地与同事协作。

你可以用 R 设计一个好的图表

由以利亚·米克斯——5 分钟阅读

上周,当爱德华·塔夫特哀叹 R 无法创建带有良好标签和注释的漂亮图形时,dataviz twitter 上一片哗然。他建议,获得他在书中宣传的那种高质量图表的唯一方法是将 R 的输出导入 Adobe Illustrator,并投资于“对图形上的文字进行推理”。

不仅仅是另一篇 GAN 论文——SAGAN

通过 Divyansh Jha — 7 分钟读取

今天我要讨论一篇最近的论文,这篇论文是我读的,并提交给了我的一些朋友。我发现这篇论文的想法非常简单,我觉得像我这样对生成性敌对网络知之甚少的人都能理解。

从拓扑数据分析到深度学习:不劳无获

丁丁·梅里尔 — 7 分钟阅读

今天,我将尝试给出一些关于 TDA(用于拓扑数据分析)的见解,这是一个快速发展的数学领域,肯定会很快完全集成到机器/深度学习框架中。

Spotify 的“这是”播放列表:50 位主流艺术家的终极歌曲分析

由詹姆斯·勒 — 15 分钟阅读

每个艺术家都有自己独特的音乐风格。从献身于木吉他的艾德·希兰,到精通说唱艺术的德雷克。从能在流行歌曲中唱一些疯狂高音的阿黛尔,到在 DJ 台上创造 EDM 魔术的 Kygo。

xkcd.com+人工智能

丹尼尔·夏皮罗博士,7 分钟阅读

这篇文章向您展示了我们如何使用数据科学、深度学习和肘部油脂来创建 xkcd.com 漫画分类器。我们可以从漫画的描述中预测漫画的主题。

我如何用 Python 和 Tkinter 构建我自己的梅西烟火秀

由 Tuan Doan Nguyen — 5 分钟阅读

我想,与其千里迢迢跑到皇后区或布鲁克林去欣赏焰火(或者挤在东河沿岸成千上万的人群中),我真的可以通过制作一些焰火模拟来增加我一天的乐趣。

每周精选—2018 年 7 月 20 日

原文:https://towardsdatascience.com/weekly-selection-jul-20-2018-e38fc1c10c6?source=collection_archive---------15-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

销售员的进化:Python 的完整遗传算法教程

艾瑞克·斯托罗兹 — 8 分钟读完

从自然选择中汲取灵感,遗传算法(GA)是一种解决搜索和优化问题的迷人方法。虽然已经有很多关于 GA 的文章(参见:这里这里,但是很少有人展示用 Python 一步步实现 GA 来解决更复杂的问题。

为 UCI 机器学习库引入简单直观的 Python API

通过 Tirthajyoti Sarkar — 7 分钟读取

为 UCI 机器学习门户引入简单直观的 API,用户可以在其中轻松查找数据集描述,搜索他们感兴趣的特定数据集,甚至下载按大小或机器学习任务分类的数据集。

创业数据科学:模型服务

通过本·韦伯 — 10 分钟读取

为了让数据科学家在初创公司高效工作,他们需要能够构建其他团队可以使用的服务,或者产品可以直接使用的服务。例如,数据科学家不应该仅仅定义一个预测用户流失的模型,而应该能够建立一个端点,为玩家流失的可能性提供实时预测。

更快的深度学习:最优 DNN 原语

阿里山扎塔什 — 11 分钟读完

深度神经网络(DNNs)在越来越广泛的工业应用中提供了无与伦比的准确性和性能,例如图像识别、自然语言处理和自动驾驶汽车控制等其他复杂问题。

数据科学信用风险建模简介

Rafael Pierre — 9 分钟阅读

在我们的上一篇文章中,我们通过分析来自 Lending Club 的贷款数据,开始使用数据科学进行信用风险建模。我们已经提出了一些可能的迹象,表明由 Lending Club 分配的贷款等级不是尽可能最优的。

赋权作为内在动力

克里斯·马莱(Chris Marais)—9 分钟阅读

有钱,有影响力的朋友,或者拥有一辆车意味着你更有权力决定你想要什么样的未来。这不一定意味着你知道哪些目标是正确的,但它肯定会让你处于一个权力的位置,在那里有许多可能的未来可供选择。

TDA 统治一切:番茄集群

通过丁丁·梅里尔 — 5 分钟读取

你想念应用数学吗?再说一次,我的目标是推广拓扑数据分析及其提供的多种可能性。前一篇文章提到了机器学习和深度学习,但 TDA 在其中的一个领域找到了用途:聚类

进步的钟摆

彼得·斯威尼 — 20 分钟读出

人工智能会给医学带来革命还是放大其最深层的问题?

伟大假说的提出

郑薇薇 — 8 分钟阅读

比尔和梅林达盖茨最喜欢的书真相将如何跨越你的数据科学实践

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值