TowardsDataScience 博客中文翻译 2016~2018(四十七)

原文:TowardsDataScience Blog

协议:CC BY-NC-SA 4.0

供应链管理的区块链技术

原文:https://towardsdatascience.com/blockchain-technology-for-supply-chain-management-3a12b5d67aa3?source=collection_archive---------4-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

World trade settlement will be revolutionized by blockchain technology.

像比特币这样的虚拟货币只是区块链技术的最早用例。区块链技术将很快在现实世界的供应供应链管理中得到应用。

供应链和全球贸易

海运约占全球货物贸易的 90%。令人惊讶的是,海洋运输目前高度依赖尚未安全数字化的文书工作。运输信息通常要经过许多公司和承包商,其中任何一个都可能导致延误。延迟批准或丢失表格会导致货物滞留在检查站或港口。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The NYK Virgo is a container ship owned by the Barlett Marine Corp.

供应链区块链可以通过允许用户在任何给定时间跟踪货物的位置来提高透明度、信任度和可预测性。由于区块链是一个不可变的分类账,当货物从生产商转移到零售点时,货物的占有和所有权的变化可以被即时和永久地记入分类账。因为区块链是分散的,所以它没有单点故障。因此,运输、拥有和所有权信息可以得到更好的保护,以免被篡改或黑客攻击。

供应链专业人员可以使用区块链技术以动态的新方式收集和使用跟踪数据。例如,区块链数据库中的条目可以触发其他任务,例如将到达港口的下一批货物分配到某个码头或集装箱区。

将区块链技术应用于即时交易结算还可以减少商业融资中的摩擦,商业融资是全球贸易的基础,目前也是引发许多贸易争端的一个领域。此外,争端解决规则可以事先商定,并在必要时立即适用于区块链。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A busy container terminal at a port.

智能合约

智能合约是可以由外部真实事件触发的自动执行合约,其详细信息由可信的 oracle 提供。一旦交易被记录,智能合约可以立即将托管的款项支付给交易对手。智能合同、区块链上的时间戳条目和数字支付可以大大减少与中介处理相关的时间和成本。智能合约目前可以在某些区块链上构建或部署,比如以太坊。

当前供应链管理的区块链解决方案

Factom、IBM 和 Skuchain 是将区块链技术应用于供应链管理的先行者。Factom 的专有文件验证和认证系统可用于物流相关文件。IBM 正与马士基合作创建一家总部位于区块链的航运供应链公司。Skuchain 帮助买家控制其跨合作伙伴的库存采购。

还有其他几个值得注意的努力将区块链技术应用于物流。Hyperledger 已经使用其锯齿分布式分类帐技术来增加海鲜行业供应链的可追溯性。Everledger 的区块链追踪钻石和其他合乎道德的新娘珠宝的供应链。(Everledger 还推出了一款彩色宝石定制区块链。)UPS 和联邦快递正在私下测试总部位于区块链的物流。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The port of Los Angeles is the busiest container port in the United States, followed by the Port of Long Beach which it adjoins.

帮助卖家、中介和消费者

将区块链技术应用于供应链管理可以减少错误、延迟和欺诈,改善库存管理,并更快地发现和解决问题。这将有助于卖家、中介和消费者。

卖家将能够更好地跟踪成本和运力,更好地估计多条路线的交付时间,并做出更明智的决策。运输提供商将能够公布可用容量和路线的详细信息,并减少运输时间和成本。消费者将知道他们的产品来自哪里,并将受益于降低成本和运输时间。

沙安雷

请关注 Lansaar Research 关于媒体的报道,了解最新的新兴技术和新的商业模式。

[## 沙恩·雷

来自 Shaan Ray 的最新推文(@ShaanRay)。创造新价值和探索新兴技术| ENTJ | #科学…

twitter.com](https://twitter.com/shaanray)

区块链 VS 人工智能

原文:https://towardsdatascience.com/blockchain-vs-artificial-intelligence-3e1c50908ebb?source=collection_archive---------1-----------------------

在当今的科技世界中,有两大趋势是你不能错过的。首先是人工智能(AI)技术的复兴:计算机视觉、自然语言处理和生成、机器翻译以及大规模数据集的处理和分析的进步。促进这种复苏的是不断增加的可分析数据的可用性,以及用于分析的廉价处理能力。这种通过机器学习(ML)【1】实现的人工智能爆炸已经在商业行业实现了一种认识,即利用现代计算资源,你可以教计算机像人类专家一样执行复杂的任务,甚至可能更好。拥有这些资源的公司已经在使用人工智能来提高效率和增加利润:谷歌、亚马逊、脸书、阿里巴巴等。

第二个趋势是高级加密工具和分布式分类账的出现,通常被称为术语区块链或分布式分类账技术。受比特币的影响,区块链目前被一些人誉为完全不同的信任、身份和经济交换社会体系的未来推动者【2】

在这篇文章中,我想勾勒出一个有点夸张的场景,我认为这两种技术在未来会如何与我们互动,以及是什么证明了上面这幅也许令人费解的蝙蝠侠大战超人的画面。

欢迎来到真正的沙漠

谷歌搜索是一项服务,世界上任何能上网的人都可以免费使用。谷歌使用其算法来索引网页,为任何想在网上定位内容的人提供近乎无缝的服务。它所要求的回报是收集和记录你的浏览历史信息的权利,它利用这些信息来 a)更好地了解用户希望在网上看到的内容,将这些信息反馈给谷歌搜索,并在这个过程中改进其搜索引擎服务 b)根据它收集的数据建立的客户档案,帮助客户向你出售更有针对性的广告。

乍一看,这似乎很公平——毕竟,在我们看来,谷歌是一家提供近乎普遍的公共服务的公司,他们不直接向我们收费。直到最近,谷歌的公众形象几乎类似于一个仁慈的慈善组织!多彩、包容、民主、公平——如果他们不得不记录你的一些浏览历史来提供这些,谁会抱怨呢?对消费者来说,谷歌搜索看起来是一笔公平的交易,因为它是一款令人惊叹的免费产品。

还记得那句老话“天下没有免费的午餐”吗?谷歌(顺便说一句,我不是在这里挑出他们,但如果有人可以接受打击,谷歌可以)是一个巨大的商业盈利组织。资本主义的每一笔交易都是基于价值公平交换的原则(+保证金)。如果谷歌免费向你提供这种令人惊叹的网络搜索服务,这意味着你向他们提供的回报成本更高:谷歌不是一个亏损的组织,他们的股票交易良好。从本质上说,谷歌告诉我们的是,我们的数据对他们来说价值 X 亿美元+更多,它非常乐意为我们提供出色的服务,因为它免费获得了我们的所有这些信息!

即使在这个阶段,你可能会回过头来说——没关系,大多数人意识到这里发生了什么,他们仍然很高兴与谷歌签订这份商业合同;这种经济模式并不是秘密。让我们把这个问题搁置一边,因为这不是这里真正的要点,尽管即使在这个阶段,我们也可以说,我们中的一些最脆弱的人(那些使用互联网的人)可能没有完全理解这里正在发生的事情的本质——例如老年人和年轻人。

当你意识到谷歌只是这种企业模式的先驱之一,并且每个主要组织都在使用人工智能,或者很快就会这样做时,你可能会真正开始感到不安。[如果他们不这样做,他们可能会面临倒闭的危险]客户(和其他)数据对任何商业组织都非常有价值,拥有一个人工管家来处理这些数据对商业成功至关重要。

理解为什么会这样的关键是带领我们进入现代人工智能技术的世界——这是一个许多人可能仍然认为是科幻小说的概念。将人工智能视为科幻小说是极其危险的,因为它揭示了人们对谷歌等组织在过去十年中如何建立自己的业务缺乏了解。即使谷歌掌握了世界上所有关于我们的数据,他们也无能为力,除非他们有能力处理这些数据,并从收集的信息中提取价值。鉴于我们在这里讨论的信息量(每个人十年的谷歌搜索历史!),对于任何组织来说,手动处理这些信息的很大一部分,甚至建立一套明确的规则(程序)来自动化该过程都是不可思议的。数据量太大了,任何一个分析师团队&程序员都无法理解和全面调查。他们或许能发现一些规律,但很多趋势和洞见会被遗漏。

现代最大似然算法允许软件进入人类无法独自绘制的领域。利用强大的计算能力,他们可以告诉你的分析师关于客户行为和偏好的令人惊讶的事情:也许你更有可能在去海滩度假的几周前购买你在网上购买的某种产品,或者当你情绪低落时,你更愿意在 1 月份去高端餐厅吃午餐。这是非常周到的谷歌,是的,我会在寒冷的雨天犒劳自己,特别是因为这是本月初,我的工资刚刚到位……唯一的问题是,所有这些“温暖”都是由一个复杂的算法产生的,该算法已经教会自己根据关于你的先验信息和类似消费者在你发现自己所处的各种情况下的行为模式来预测你可能的行动。

我觉得这种形象至少有点令人不安。今天,大多数以改善客户体验的名义使用人工智能技术的大型商业机构,实际上只是忙于为我们创造体验(作为一种体验的广告),在此期间,我们最容易消费他们的产品和服务。当我们看到相关的东西在我们需要的时候突然出现时,我们感觉到的“深思熟虑”是由技术设计的冷理性造成的,最终只为一个目标——最大化使用它的公司的利润。

我并不是说这种“为利润服务”的双重性在任何商业活动中并不总是存在。然而,令人担忧的是,越来越不清楚你是如何、何时被出售的,以及在这样做时施加了何种压力。一个训练有素的销售人员冷冷地给你打电话推销宽带(你知道他们是做销售的,他们有与你大致相似的认知能力,即使他们真的很有才华,可以骗你买一些你并不真正需要的产品),和每个使用网络的人都不断地参与精心制作的数字体验,这些体验是由大型组织构建的,使用高度复杂的专有技术,而你基本上看不到,大多数人不理解或甚至没有意识到这些技术的存在!,并使用您自己的数据,这些数据是您(愿意或不愿意)提供给这些组织的,通常没有考虑这些数据随后如何被用来从您和其他消费者身上获取最大可能的经济价值。

在这一点上,有几个复合因素值得记住。首先,基于 ML 的分析直接有利于拥有最大数据量和计算能力的大型组织。个人在这里处于非常不利的地位,因为他们无法获得这些资源。这加剧了我们今天已经看到的社会权力动态——社会中较富裕的部分变得更富裕,而穷人处于不利地位。直到现在,富人才拥有了利用认知计算技术针对穷人的技术,能够通过计算找出客户“防御系统”中的“弱点”,这通常可能会阻止他们向这些组织发布他们的劳动产品(金钱)。动态定价系统是盒子里一个值得注意的工具。动态定价本质上是一种对商品和服务定价的方法,不是基于这些商品的价值,而是基于任何特定的客户根据其当前情况愿意支付的最大价值。这就是伦敦地铁罢工期间优步费用“激增”的原因。“供求关系!”——优步说—“供给和需求……”

假设没有引入消费者保护法规,上述趋势的逻辑结论是,消费者完全沉浸在一系列体验中,这些体验使他们成为有经济价值的高效变压器【4】:他们挣工资,他们的需求通过算法得到预测,他们以自己能够[勉强]承受的最高价格获得他们需要的一切——就像某种扭曲的资本主义版本的旧马克思主义学说:“各尽所能”我想知道马克思对我们可能达到这种状态的方式会有什么感觉…

关键是在这个阶段不要绝望,而是要问正确的问题:推动这一历史潮流的燃料是什么,我们可以用来引导它的杠杆是什么?在 19 世纪,马克思主义者对这个问题的回答当然是工党。这是等式的一面,而且这是等式的一面,通过 20 世纪的动荡和苦难,人们已经相当好地理解了这一面。然而,当我们经历第四次工业革命时,马克思已经过时了。这是因为世界上有一种他在 19 世纪无法完全欣赏的新力量,这种力量就是数据

数据的价值=劳动的价值

想象一下,我知道你的一切:我可以访问你的所有数据,并有一个机制来理解这些信息并采取行动。在这种情况下,我可以预测你想要的一切(也许是完全准确或接近完全准确)。如果我经营一家公司,可以在你需要的时候向你提供我预测你想要的东西,我将完全垄断你的经济产出(换句话说,我在你的通用钱包中的份额将是 100%,你将把你的收入 100%给我)。即使你能控制你的劳动(马克思主义者的担忧),你仍然无法控制你如何花费这些劳动的回报。换句话说,你将不再是自由人【6】

出于我上面描述的原因,这不再是一个牵强的思想实验了。拥有资源的人越来越容易获得关于个人生活细节的信息,而现代人工智能技术可以有效处理这些信息,以预测如何将这些个人货币化(有效转移他们的劳动力价值)。不同的是,我们在现代社会有劳动保护法。我们离有效的数据保护法还有很长的路要走【7】。因此,目前公司在合法剥削个人方面存在很大的漏洞。正如我们在 20 世纪寻求打击劳动剥削一样,在我们经历第四次工业革命时,我们应该努力结束对个人信息的剥削。

进入区块链

区块链是一个加密的安全的、分散的、分布式的信息数据库。区块链包括不可变的事件记录,网络中的每个参与者都可以对其进行审计。抛开经济和政治网络动态的复杂性【8】,公共区块链理论上是任何人都可以参与的(只要有一定的信息技术水平),并且不受任何中央政党(如政府或商业组织)的管理或控制。它们可以用于网络参与者之间的经济价值转移,就像世界上第一种加密货币比特币一样。

众所周知,比特币是作为一种自由主义实验而产生的,它只在网络空间内组织一个价值交换系统,没有任何权威机构的事先监管。今天,这一实验已经产生了一个稳定的相当规模的替代经济生态系统,它从未受到任何重大方式的黑客攻击或系统性破坏。网络中的参与者都有一个匿名地址,交易对手之间发生的所有交易本质上都是伪匿名的【9】。即使网络中所有账户的结构性交易历史被暴露给社区中的每个人来检查,也没有初步的方法来了解这些账户是否由组织、个人控制,或者使用区块链上可用的信息来确定这些参与者的身份。这允许个人在很大程度上保护他们的个人信息,同时保留他们与他人交换经济和其他价值的能力。

更重要的是,区块链体系允许社会过程的大规模去中心化,以前需要大型可信机构的参与,这些机构必须以一定的规模运营,为客户提供价值,同时在经济上自我维持(产生利润)。区块链也可以被视为大型不透明的数据保险库,其联合许可架构为个人提供了一些最先进的数据加密和安全性,否则他们会将自己的个人信息暴露给他们不(或不应该)信任的网络空间中的各方。事实上,个人信息的公共区块链可以被设计成一个去中心化的古灵阁,拥有数十亿个包含我们是谁以及我们如何以公平的条件参与(由组织和个人参与)的钥匙的个人金库。我们可以想象今天一些基于区块链的原型身份识别系统【10】作为未来进入数字世界的门户。数字参与的第一个原则是为用户提供用一组私钥保护个人信息的基础设施,以及在第三方需要时与他们共享这些信息的平台(或许还包括明确的经济价值和通过智能合同等工具使用这些数据的规则)。这种设置将在网络空间的信息生产者和利用者之间创造一个更加公平的动态平衡。

总之,虽然人工智能系统有助于将权力集中在少数能够获取和处理大量数据的组织手中,但区块链技术有助于个人保护个人信息,同时允许代理人在较小的运营规模上创造和交换经济价值。在这方面,人工智能和区块链技术可以被视为彼此动态对立。这是一个好消息,因为我们现在可能拥有数字氪星石,能够调节我们超人人工智能系统的能力(不管是不是善意的)。区块链也许不是我们想要的英雄,但他们很可能成为我们需要的英雄…

【1】在这篇文章中,我预先假定对 ML 和区块链技术有一些了解。一些好的 AI / ML 介绍可以在这里找到:【https://www.coursera.org/learn/machine-learning

https://www . the guardian . com/technology/2016/jun/28/Google-says-machine-learning-is-the-future-so-try-it-I-self

【2】这里针对区块链/ DLT:

http://www . economist . com/news/briefing/21677228-比特币背后的技术——让不了解或不信任他人的人建立可靠的关系

https://www . BCG . com/区块链/thinking-outside-the-blocks . html

【4】价值的生成(生产)是马克思主义者的忧虑,而价值的转化(消费)是当今资本主义者的忧虑

顺便提一下,这是苏联体制中的一个大问题,因为你实际上无法用你的工资买到任何你想要的东西!

【6】这一点是有争议的。你可以争辩说(矩阵中的一个密码),只要你最终得到你想要的一切,你就不/不应该在乎这种“外在”的自由。在这篇文章中,我并没有对自由意志的本质进行形而上学的讨论,而只是指出,在你的精神被灌输了你所需要的所有产品/经验,而你的劳动/资源却被自动从你身上扣除的情况下,有一些事情可能是“感觉错误的”

【7】例如,英国数据保护法案目前在实践中几乎没有缓解这些担忧

【8】对其中一些问题的详细阐述可以在这里找到,例如:

https://policy review . info/articles/analysis/隐形-政治-比特币-治理-危机-去中心化-基础设施

https://motherboard . vice . com/en _ us/article/比特币不可持续

【9】由于其特定协议中的某些架构选择,比特币并不是区块链系统可能实现的完美例子。可以通过网络外部的各种手段来确定参与者的身份,例如,通过分析账户之间发送的比特币数量、它们的频率以及它们在现实世界中可能对应的可能参与者。最近的研究努力致力于解决这些和其他问题。

【10】例如,Consensys、Tradle、Voatz 等项目

区块链:交易的技术

原文:https://towardsdatascience.com/blockchains-the-technology-of-transactions-9d40e8e41216?source=collection_archive---------6-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A ledger from 1941.

区块链和交易的未来

区块链技术具有变革性,预计将产生巨大的经济影响,类似于互联网在过去几十年中产生的影响。

由于区块链技术是比特币和其他虚拟货币的核心,至少可以预计它将在未来为更重要的交易媒介提供动力。然而,虚拟货币仅仅是区块链技术的第一个用例。

区块链基础知识

区块链是一个开放的分布式分类账。它使用仅追加的数据结构,这意味着新的交易和数据可以添加到区块链中,但过去的数据不能删除。这导致两方或多方之间的数据和交易的可验证的和永久的记录。这有可能增加透明度和问责制,并积极加强我们的社会和经济制度。

区块链是通过运行软件并将几个节点连接在一起而构建的。区块链不是一个全球性的实体——有好几个区块链。想象一下,在一个高度安全的办公室里有一个由相互连接的计算机组成的网络,这些计算机相互连接,但不连接到互联网。区块链与此类似:它可以有许多连接的节点,但保持完全独立,与其他区块链不同。机构和银行可以根据不同的组织目的构建具有自身特色的内部区块链。

需要共识机制和奖励系统来维护区块链的完整性和功能性。在比特币区块链中,共识是通过“挖掘”达成的,奖励系统是一种协议,在成功挖掘一个区块后,奖励矿工一定数量的比特币。采矿是由解决复杂数学难题的强大计算机进行的。

一旦交易被验证,并被整个网络接受为真实,矿工开始在下一个区块工作。因此,区块链一直在增长(将每个新的块连接到它前面的块)。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The main chain (black) consists of the longest series of blocks from the genesis block (blue) to the current block. Orphan blocks (red) exist outside of the main chain.

对交易的影响

区块链技术将颠覆我们书写和执行合同、执行交易和维护记录的方式。

保存交易记录是所有企业的核心职能。这些记录旨在跟踪过去的绩效,并帮助预测和规划未来。大多数组织的记录需要花费大量的时间和精力来创建,并且创建和存储过程往往容易出错。目前,交易可以立即执行,但结算可能需要几个小时到几天的时间。例如,有人在证券交易所出售一家公司的股票,可以立即出售,但结算可能需要几天时间。同样,购买房屋或汽车的交易可以很快谈妥并签署,但登记过程(核实和登记财产所有权的变化)往往需要几天时间,而且可能涉及律师和政府雇员。在这些例子中的每一个中,每一方维护其自己的分类账,并且不能访问所涉及的其他方的分类账。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

The General Register Office in Edinburgh, Scotland.

在区块链上,交易核实和记录的过程是即时和永久的。分类帐分布在几个节点上,这意味着数据会在系统的每个节点上即时复制和存储。在区块链中记录交易时,交易的详细信息(如价格、资产和所有权)会在几秒钟内跨所有节点进行记录、验证和结算。在任何一个分类帐中登记的核实的变化也同时登记在该分类帐的所有其他副本上。由于每笔交易都在所有分类账中得到透明和永久的记录,任何人都可以看到,因此不需要第三方验证。

从虚拟货币到企业使用

比特币背后的区块链是目前最大、最知名的区块链。

以太坊是一个独立的区块链:虽然它支持以太货币,但它也充当一个分布式计算平台,具有智能合约功能。所以,尽管有虚拟货币元素,但它的用途比比特币多得多。比如通过 ico 融资的各行业公司,他们的项目都使用以太坊。

由 Linux 基金会发起的 Hyperledger 项目旨在将许多独立的努力聚集在一起,为企业使用的区块链技术开发开放协议和标准。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Hyperledger is a project with several open source blockchains and related tools to support the collaborative development of blockchain — based distributed ledgers.

这里长期

区块链技术仍处于早期形成阶段,加密货币只是其第一个主要用例。除了加密货币,区块链技术将改变我们交易的方式,以及我们记录和验证交易的方式。这将彻底改变合同,减少资产交换中的摩擦。在接下来的几十年里,区块链技术将渗透到我们的组织和机构中,并塑造我们彼此之间的交易方式。正如互联网继续推动新兴技术一样,我们可以期待在所有行业看到区块链技术的新用例。

沙恩雷

关注 Lansaar Research on Medium,了解最新的新兴技术和新的商业模式。

区块链与传统数据库

原文:https://towardsdatascience.com/blockchains-versus-traditional-databases-e496d8584dc?source=collection_archive---------2-----------------------

为了理解区块链和传统数据库之间的区别,有必要考虑一下它们是如何设计和维护的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Distributed nodes on a blockchain.

传统数据库

传统数据库使用客户机-服务器网络体系结构。在这里,用户(称为客户端)可以修改存储在中央服务器上的数据。对数据库的控制仍然由指定的机构负责,该机构在提供对数据库的访问之前验证客户端的凭证。由于该机构负责数据库的管理,如果该机构的安全性受到损害,数据可能被更改,甚至被删除。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Traditional Databases.

区块链数据库

区块链数据库由几个分散的节点组成。每个节点都参与管理:所有节点都验证区块链的新增内容,并能够向数据库输入新数据。对于要添加到区块链的节点,大多数节点必须达成共识。这种共识机制保证了网络的安全性,使其难以被篡改。

在比特币中,共识是通过挖掘(解决复杂的哈希难题)达成的,而以太坊则寻求使用利害关系证明作为其共识机制。要了解更多关于这两种共识机制的区别,请阅读我之前的帖子

诚信和透明

区块链技术区别于传统数据库技术的一个关键属性是公共可验证性,这是由完整性和透明性实现的。

  • 完整性:每个用户都可以确保他们正在检索的数据从被记录的那一刻起就没有被破坏和更改过
  • 透明度:每个用户都可以验证区块链是如何随着时间的推移而附加的

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

A map of Dashcoin masternodes distributed across the world.

CRUD vs Read &写操作

在传统数据库中,客户端可以对数据执行四种功能:创建、读取、更新和删除(统称为 CRUD 命令)。

区块链被设计成一个只追加的结构。用户只能以附加块的形式添加更多数据。所有以前的数据被永久保存,不能更改。因此,与区块链相关的操作只有:

  • 读取操作:这些操作从区块链中查询和检索数据
  • 写操作:这些操作会向区块链添加更多数据

验证和写入

区块链允许两个功能:事务的验证和新事务的写入。事务是改变区块链上数据状态的操作。虽然区块链中过去的条目必须始终保持不变,但新条目可以改变过去条目中的数据状态。例如,如果区块链记录了我的比特币钱包里有 100 万 BTC,那么这个数字就会永久保存在区块链里。当我花了 200,000 BTC 时,那笔交易记录在区块链上,使我的余额达到 800,000 BTC。然而,由于区块链只能被追加,我的交易前余额 100 万 BTC 也永久保留在区块链上,供那些愿意看的人使用。这就是为什么区块链经常被称为不可变的分布式账本。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Centralized vs. peer to peer.

简而言之,不同的是分散控制

分散控制消除了集中控制的风险。任何对中央数据库有足够访问权限的人都可以破坏或损坏其中的数据。因此,用户依赖于数据库管理员的安全基础设施。

区块链技术使用分散的数据存储来回避这个问题,从而将安全性构建到其结构中。

尽管区块链技术非常适合记录某些类型的信息,但传统数据库更适合记录其他类型的信息。对于每个组织来说,在选择一个数据库之前,了解它想要从数据库中得到什么,并根据每种数据库的优势和弱点来衡量这一点是至关重要的。

沙安雷

请关注 Lansaar Research 关于媒体的报道,了解最新的新兴技术和新的商业模式。

[## 沙恩·雷

来自 Shaan Ray 的最新推文(@ShaanRay)。创造新价值和探索新兴技术| ENTJ | #科学…

twitter.com](https://twitter.com/shaanray)

情感分类的最佳嵌入方法

原文:https://towardsdatascience.com/blog-md-34c5d082a8c5?source=collection_archive---------13-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

image from http://houseofbots.com/news-detail/2491-4-5-things-you-need-to-know-about-sentiment-analysis-and-classification

1.背景

你可能认为单词级表示是情感分类任务最有效的特征。但是,这是真的吗?我将展示一个有趣的实验结果,让你大吃一惊。

如果你不想读整篇文章,这里有一样东西你可以带走。如果数据集有许多非正式单词,子单词级嵌入方法对于情感分类是有用的。

本文的其余部分组织如下。

  • 情感分析中使用的嵌入方法适用于 ACL 2018
  • 讨论为什么单词级嵌入如此广泛地用于情感分析
  • 实验设置和结果

你可以在这里找到所有代码:情绪比较

2.ACL 2018 中情感分析的嵌入方法

计算语言学协会(ACL)是一个非常著名的 NLP 会议。如果你扫了一眼 ACL 2018 中的情感分析相关作品,你可能会注意到大部分作品都选择了词级嵌入方法。

单词嵌入方法已经被证明是一种有效的自然语言处理技术。但是除了单词嵌入之外,还有另外两种嵌入方法,字符级嵌入和子单词级嵌入。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

word/character/subword representations

我计算 ACL 2018 关于情感分析任务的长论文和短论文。这表明了词级嵌入在情感分析中的广泛应用。

共有 12 篇长论文,5 篇短论文,标题包含关键词“情绪”。根据我们的调查,有 15 篇论文是基于单词级嵌入的,1 篇是基于字符级嵌入的,1 篇是字符级和单词级相结合的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我在下面列出了所有等级分类的论文。 SP 的意思是短纸。

A .字级:

Word2Vec

  • 为跨领域情感分类识别跨领域的可转移信息
  • SemAxis:一个轻量级框架,用于描述情感之外的特定领域词汇语义
  • 情绪自适应的端到端对话系统
  • 双语情感嵌入:跨语言情感的联合投射
  • (SP)利用文档知识进行方面级情感分类
  • 幽默识别中的情感关联建模

手套

  • 援助之手:用于深度情感分析的迁移学习
  • 冷启动感知用户和产品对情感分类的关注
  • 面向情感分类的目标敏感记忆网络。
  • 面向目标的情感分类转换网络
  • 具有目标领域特定信息的跨领域情感分类
  • 基于特征的门控卷积网络情感分析

组合 Word2Vec,手套

  • (SP)用于改进情感分类的领域适应单词嵌入

学习单词级情感信息

  • 学习领域敏感和情感感知的单词嵌入

无预训练模型(随机生成)

  • 不成对的情感到情感的翻译:一种循环强化学习方法

B .人物等级

  • (SP)用未标记的对话数据预训练情感分类器

C .字级和词级结合

  • 用于情感分类的多情感资源增强注意网络

3.为什么词级嵌入在情感分析中如此受欢迎?

也许我们应该改变这个问题,为什么大多数研究人员不考虑情感分析任务的其他嵌入方法?对于机器翻译、命名实体识别、语言建模等自然语言处理任务,字符级嵌入和子词级嵌入已经显示出巨大的改进。但是对于情感分析任务,这些嵌入方法似乎被忽略了。

我们知道字符级表示和子词级表示的最大优势是处理词汇外(OOV)问题。这是否意味着 OOV 词对于情感分析任务并不重要?

在某种程度上,是的。在情感分类问题中,我们希望提取情感特征来预测一个句子是肯定的还是否定的。但通常情况下,未登录词并不包含有用的情感信息。直观地,情感特征可以在词级表示中被充分提取。这就是为什么情感词典方法可以获得很好的性能。例如,'happy'是一个正面词,词级嵌入方法很容易从上下文中学习到这个情感信息。

至于字符级表示,即使它解决了 OOV 问题,我们也很难说从文本中提取情感特征是容易的。例如,我们可以将'happy'表示为'h', 'a', 'p', 'p', 'y'。情感词被拆分成字符,从这种上下文中提取情感特征变得越来越困难。因为单个字符很难传达情感信息。

子词级表示怎么样?我们可以将子词级的'happy'表示为'hap', 'py',这看起来像是字符级的表示,没有太多的意义。但是,如果我们处理一些包含许多未知单词的数据集,情况可能会有所不同。考虑到这些词'coooool'和‘呜哇’。即使我们知道这些单词包含强烈的情感信息,它们也会在单词级表示的预处理过程中被去除。另一方面,如果我们在子词级表示这些词,'co', 'ooo', 'ol''wo', 'oooo', 'ow',子词级表示可以从'oooo'中捕获情感信息。这些非正式词汇在 Twitter 和 Reddit 等社交网络短信中非常常见。

单词级表示非常紧凑,但存在 OOV 问题,而字符级表示过于稀疏,但不存在 OOV 问题。子词级别的表示法似乎很好地平衡了这两者。因此,如果一个数据集有许多非正式的词,我们认为子词级别的表示能够足够好地捕捉情感特征。为了证明我们的假设,我们进行了一些实验。

4.实验对比

我们选择两个数据集进行比较。对于每个数据集,我们选择三个表示级别。对于每个级别,我们实现了两个深度学习模型,CNN 和 LSTM

  • 两个数据集:电影评论,推特
  • 三个表示级别:单词、字符、子单词
  • 两个深度学习模型:CNN,LSTM

4.1 实验设置

数据集

我们使用两个数据集进行实验。两个数据集都是关于二元情感分类的。一个是影评数据集,可以从句子极性数据集 v1.0 下载。还有一个是 Twitter 数据集,你可以从网页下载。

使用 LSTM 来训练整个 Twitter 数据集将花费太长时间(一个纪元 9 个小时!),所以我们取 50,000 个样本作为小数据集,用于 CNN/LSTM 比较,并在整个数据集上训练 CNN。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

嵌入方法

对于每个数据集,我们将在单词/字符/子单词三个嵌入级别上进行实验。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

word/character/subword representations

A.单词级嵌入

在这一级,我们将预先训练的单词嵌入(手套嵌入)作为单词向量。单词级的数据预处理非常简单。首先我们用data_helpers.load_data_and_labels ( 源代码)加载和清理数据,然后用 keras 函数对文本进行分词和填充。在我们知道最大长度之后,我们在填充过程中将maxlen设置为 56。

Jupyter 笔记本:单词级-预处理-电影

对于 Twitter 数据集的预处理,清理有更多的步骤。

  • HTML 解码
  • 删除@提及
  • 删除 URL 链接
  • 拉丁 1 BOM(字节顺序标记),用?替换签名字符
  • 删除标签和数字

我们将清理后的数据集保存为clean_tweet.csv

Af 首先我打算使用拼写校正来预处理文本,但是拼写校正算法的输出似乎不够好,所以我没有使用拼写校正。如果你对拼写校正感兴趣,那么文本块已经实现了我上面提到的拼写校正算法。你可以在 beblow notebook 中找到拼写纠正的输出。

Jupyter 笔记本:单词级-预处理-twitter

B.字符级嵌入

因为我们使用字符级表示,所以电影评论数据集的预处理非常简单。

我们总共有 70 个角色:

abcdefghijklmnopqrstuvwxyz 0123456789,;。!?:'"/\|_@#$%^&*~`±= <> ()[]{}

在这一关,我们采用三种不同的方法为每个角色分配向量。首先是一键编码。我们给每个字符分配一个热点向量。我们需要将embedding_weights传递给嵌入层。embedding_weights是包含每个字符的所有向量的矩阵。

如果您不熟悉 one-hot 编码,这里有一篇很棒的文章适合您。如何用 Python 对序列数据进行热编码

第二种方法是我们生成随机值作为每个字符的向量。当初始化嵌入层时,我们不会将embedding_weights传递给weights参数。

第三种方法是我们使用预训练字符嵌入。这里我用手套字嵌入生成字符嵌入。这个脚本可以帮助我们完成这项工作, create_embeddings.py 。然后我们会得到一个包含字符嵌入的文件。在初始化嵌入层时,我们用其他字符嵌入的平均值手动设置空格字符,用随机值设置未知字符。

我用 CNN 模型对电影评论数据集实现了这三种方法。结果表明,随机初始化方法的性能最好。所以我对所有角色级别的实验都使用随机初始化。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

你可以在这个目录中找到三种嵌入方法。

Jupyter 笔记本:字符级-预处理-电影

至于角色级表示的 Twitter 数据集,预处理比电影评论数据集简单。字符级表示可以处理未知单词和非正式单词。因此,没有必要删除标点符号和纠正拼写。

我们将清洗后的数据集保存为clean_tweet_char.csv经过预处理后,有些样本可能会变成 NAN,所以在加载数据集时,我们应该删除 NAN 样本。

Jupyter 笔记本:字符级-预处理-推特

C.子字级嵌入

至于子词级预处理,我们从 BPEmb 下载 vocab 和预训练的子词嵌入格式。我选择合并操作为 25000 和 50 dims。下面是一个简单的脚本,用于将句子分割成子单词级别的表示, bpe.py

朱庇特笔记本:

4.1.3 深度学习模型

对于每个级别,我们采取两种深度学习模型。一个是 CNN,我们实现了 Kim 的 CNN 卷积神经网络的修改版本,用于句子分类。你可以在这里查看我的实现,CNN-text-class ification

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

下面列出了修改版本的超参数。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

设置修改的嵌入维度 50 过滤器大小(3,8)过滤器数量 10 池化最大池化

第二个模型是 LSTM,我们堆叠了两个 LSTM 层。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

4.2 实验结果

我们将结果总结在下表中。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

4.3 观察和分析

对于情感分类的不同组合有一些观察。

  • 在 Twitter 数据集中,子词级表示比词级表示具有更好的性能。这和我们的假设是一样的。如果数据集包含少量非正式单词并且预处理良好,则单词级嵌入确实在情感分类中实现了最佳性能。但是,如果数据集包含太多的非正式单词,子单词级嵌入可以获得比单词级嵌入更好的结果。
  • CNN 比 LSTM 好。在小型 Twitter 数据集上,子词级表示获得了最佳性能。尽管 CNN 和 LSTM 的准确率非常接近,但考虑到 CNN 的训练速度非常快,毫无疑问,CNN 是比 LSTM 更好的选择。
  • 字符级表示在三个表示级别中准确性最低。原因可能是字符嵌入缺少良好的预训练字符向量。CNN/LSTM 很难从人物层面捕捉情感信息。

5.摘要

这一次,我没有在优化超参数上花费太多时间。LSTM 模式可能过于简单。但是这个实验仍然表明子词级表示对于情感分类是有用的,特别是对于非正式文本。所以对于情感分析分类来说,子词-词嵌入是一个很好的选择。

你可以在这里找到所有代码:情感对比

查看我的其他帖子 中等 一分类查看
GitHub:
bramble Xu LinkedIn:徐亮 博客:bramble Xu

忽悠机器人——机器学习中的关键术语词汇表

原文:https://towardsdatascience.com/bluff-the-bots-a-glossary-of-key-terms-in-machine-learning-3d528c8d86f4?source=collection_archive---------8-----------------------

这是一系列文章的第五部分,也是最后一部分,旨在让没有受过技术培训的人更容易理解机器学习。以前的文章介绍了机器学习的概念,展示了学习的一般过程,并描述了常用的算法。你可以在这里开始系列。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Knowing a few key terms can avoid you feeling like this when discussing Machine Learning

为了总结这个系列,我在下面提供了一个基本机器学习术语和概念的词汇表。这不是详尽无遗的(否则它会打破媒体!),但它包含了该领域中许多最基本的术语。如果你经常与数据科学家交谈,或者阅读关于机器学习结果的报告,可以考虑用书签标记或打印这篇文章。

准确性 —由分类算法正确预测的所有实例的比例。

算法 —解决问题的过程,通常在机器学习上下文中理解为迭代的计算机程序。

关联 —基于确定的统计关系链接对象的过程。

AUC —概率分类器的 ROC 曲线下的面积。AUC 是分类器强度的指标,强分类器通常达到 80%或更高的 AUC。

分类 —将对象分配到预定义的组或类中的过程。

混淆矩阵 —一个 2×2 阵列,用于说明分类算法中的准确性和误差。也称为误差矩阵或列联表。

列联表——见混淆矩阵。

决策树 —决策制定的嵌套过程,采用带有分支的树的形状,由特定算法建模。

离散分类器 —一种分类算法,输出实例是哪个类的成员。

误差 —监督学习算法的预测输出与期望(或实际)输出不匹配的程度。在分类上,这只是一些不正确的预测。

误差矩阵 —参见混淆矩阵。

假阴性 —在分类学习中,这是一种与真实数据不一致的阴性预测。

假阳性 —在分类学习中,这是一种与真实数据不一致的阳性预测。

FP 率 —假阳性率。在分类算法中,被错误地预测为正的负实例的比例。

推广 —在监督学习中,将算法应用于训练集之外的新数据。

基尼系数——参见 AUC。基尼系数是衡量财富分配的宏观经济指标,与 AUC 线性等价,有时用于替代 AUC。基尼系数= 2 x AUC-1。

超平面 —在线性代数和几何中,这是将线或平面的概念推广到更高维度的空间。在 n 维空间中,超平面是 n-1 维的子空间。

归纳偏差 —在监督学习中,数据科学家做出的关于哪种类型的算法或函数最适合训练数据的假设。

输入属性 —用于监督学习的训练集中的样本的数据点或属性。

线性可分性——多维空间中存在可以将数据分成类的线或“超平面”。

洛伦兹曲线 —绘制累积概率分布的曲线。ROC 曲线是洛伦兹曲线。

最一般的假设 —在监督学习中,这是将训练数据拟合到“最宽松”程度的函数。

最具体的假设 —在监督学习中,这是将训练数据尽可能“紧密”拟合的函数。

朴素贝叶斯分类器 —围绕基本概率计算运行的简单分类算法。

噪声 —数据中隐藏潜在关系或结构的不必要的异常。

在线学习 —学习过程中自我修正的过程。执行在线学习的算法将在学习过程中优化解决方案,使得最终输出是给定参数的可能的最佳结果。

过拟合 —在监督学习中,由于算法过于复杂而导致的新数据错误。

精度 —在分类算法中,正确的预测正例的比例。

概率分类器 —一种分类算法,输出一个实例是某类成员的概率。

回忆 —参见 TP 率。

递归分割 —决策树算法中使用的一种过程,根据数据与结果的概率关系,将数据重复分成更小的子集。

强化学习——通过“尝试”一种反应来学习,并根据反应是否是期望的反应来进行“惩罚”或“奖励”。

ROC 曲线 —绘制在 ROC 图上的曲线,用于说明概率分类器的 TP 率和 FP 率之间的关系。

ROC 图 —接收操作员特性图。用于绘制分类算法有效性的二维图表,通常在 x 轴上显示 FP 率,在 y 轴上显示 TP 率。

灵敏度 —见 TP 速率。

特异性 —在分类算法中,被正确预测的否定实例的比例。特异性= 1 — FP 率。

监督学习 —从包含特定“答案”或结果的数据样本中学习,并使用它来预测新数据的结果。

支持向量机 —一个分类算法家族,将数据绘制到多维空间中,并试图找到类别之间的分界线或“超平面”。

测试集 —在监督学习中,用于计算算法误差的一组数据。

TP 率 —真阳性率。在分类算法中,被正确预测的正例的比例。也称为回忆或敏感。

训练集 —监督学习算法将从中学习的数据集。

真否定 —在分类学习中,这是一个与真实数据一致的否定预测。

真阳性 —在分类学习中,这是与真实数据一致的阳性预测。

欠拟合 —在监督学习中,由于算法过于简单而导致的新数据错误。

无监督学习 —在不期望特定“答案”或输出的情况下,学习数据中的潜在关系或结构。

验证集 —在监督学习中,一组用于测试已在训练集上训练的算法的泛化能力的数据。

最初我是一名纯粹的数学家,后来我成为了一名心理计量学家和数据科学家。我热衷于将所有这些学科的严谨性应用到复杂的人的问题上。我也是一个编码极客和日本 RPG 的超级粉丝。在LinkedIn上或者在Twitter上找我。

模糊的界限:数据分析师 vs 数据科学

原文:https://towardsdatascience.com/blurred-lines-data-analytics-vs-data-science-12ff92a3bd4e?source=collection_archive---------5-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在数据呈指数级增长的世界里,公司正转向两种工作来解决一些最大的问题,数据分析师(或 BI 工程师)和数据科学。然而,越来越明显的是,商业世界不确定如何恰当地定义范围和区分这些角色。数据科学家连续三年被列为美国第一职业,这并不奇怪。分析经理排在第十位。数据科学和分析已经存在了一段时间,但这些角色是为大公司保留的,主要是那些拥有大量数据的公司(如脸书、谷歌、通用电气、投资银行等)。)如今,几乎所有公司都在以某种形式收集数据,但他们没有梳理数据所需的专家。这些公司的高管很可能听说过数据科学家和分析的时髦词汇,对这些角色的实际工作只有粗略的了解。

如果你看看这些天的就业公告板,全美有数千个职位空缺。更常见的是,你看到的不是数据科学家的工作描述,而是最接近分析师角色的定义。相反的情况也是如此,但这种情况更为罕见。

让我们理清思路,将数据科学家和数据分析师区分开来。

数据科学家,真正的独角兽。

对于那些没有听说过这一点的人来说,这是对该领域所用角色的常见描述。真正的数据科学家具备这些技能:

  1. 强——商业头脑
  2. 强—数学/统计
  3. 强——计算机科学/甩代码的能力

独角兽是在这三方面都很完美的人。这种情况很少发生。最有可能的情况是某人缺乏或在三者之一上较弱。

数据分析师,让我看看我的生意。

数据分析非常相似,他们拥有以下技能:

  1. 强——商业头脑
  2. 中等—数学/统计
  3. 中等——计算机科学/甩代码的能力

如您所见,数据科学需要在这三个方面都具备很强的技能。然而,这两个角色需要相同的技能。最大的区别是他们如何应用这些技能。让我们澄清误解。

数据科学家与数据分析责任

数据科学家-

  1. 探索性数据分析
  2. 清理脏数据
  3. 使用无监督机器学习识别数据趋势
  4. 使用监督机器学习,根据数据趋势进行预测
  5. 编写代码来帮助数据探索和分析
  6. 向技术/工程部门提供代码,以便在产品中实施

数据分析师-

  1. 探索性数据分析
  2. 清理脏数据
  3. 管理数据仓库和 ETL(提取转换负载)
  4. 制定 KPI 以评估绩效
  5. 通过使用 BI 平台(即 Tableau、DOMO、Sisense、Looker 等)开发数据的可视化表示。)

你能看出最大的不同吗?数据科学家利用他们强大的统计知识来创建趋势识别,并对某些事情做出预测。他们需要具备真正理解数据中肉眼无法识别的元素的技能。数据科学家测试数据上的多个假设,以确定数据中的相关性或趋势是随机的还是显著的,谁知道 P 值?另一方面,数据分析师必须理解数据,净化数据,然后向业务决策者提供数据的可视化表示。

以下是其他一些差异,主要是每个角色所需的工具

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

https://www.edureka.co/blog/difference-between-data-scientist-and-data-analyst/

我发现,在实践中,许多数据分析师并不具备工作所需的技能。数据分析师需要统计知识(IMHO)。如果没有这方面的知识,KPI 或可视化数据表示可能会被错误陈述和误导。相关性并不意味着因果关系。这句话应该深深印在每个数据分析师的记忆中。招聘数据分析师时,争取那些有良好数学或统计背景的候选人。这很关键。

我希望这篇文章能够帮助那些目前在这些领域工作的人,以及那些希望招聘这些职位的人。这两者都需要几乎相同的技能,但是这两个角色之间有一个关键的区别。企业需要确保他们不会模糊界限。

如果你有任何反馈或想法,请在评论中分享。

宝马机器学习周刊—第 3 周

原文:https://towardsdatascience.com/bmw-machine-learning-weekly-414a2519363c?source=collection_archive---------0-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2018 年 3 月 1 日至 3 月 7 日

关于机器学习(ML)、人工智能(AI)及相关研究领域的新闻。

ML 使新的欧盟数据隐私法规的影响复杂化

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

将于 2018 年 5 月 25 日生效的关于个人数据的欧盟新法规通用数据保护法规 (GDPR),可能很难与 ML 技术相结合。该法规的关键主题是每个人都拥有自己的数据。因此,任何公司都必须明确请求允许使用任何个人数据,并解释为什么要这样做,以及使用多长时间。后来,这种许可可以随时撤销。令人担忧的是,要解释普通消费者的个人数据如何被用来训练算法以推断其他人的结果,可能会变得很成问题。即使消费者同意,消费者也可以在任何时候获得这种许可,这在技术上可能需要 ML 算法来“忘记”(从而忘记)个人的特定数据如何适应算法的学习。

继续阅读……

美国军方的军情六处

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

谷歌与美国国防部合作,帮助该机构开发人工智能算法,使用 TensorFlow 分析无人机镜头。根据五角大楼的消息,“Maven”项目的最初目标是为军方提供先进的计算机视觉,能够自动检测和识别由无人机的全运动摄像机捕捉的多达 38 类物体。Maven 为该部门提供了跟踪来自不同地点的个人的能力。这项合作在这个技术巨头的员工中引发了一场轩然大波,因为该项目提出了关于 ML 开发和使用的重要伦理问题。

继续阅读……

当香蕉看起来像烤面包机

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

(或者,服用致幻剂的人工智能)越来越成为一个问题。对抗性的例子是特别设计的视错觉,欺骗计算机认为它们认识到了一个物体的某些东西,而这个东西并不是。例子从把步枪的图片误认为直升机把香蕉误认为烤面包机在香蕉上贴了一个标签后,混淆了计算机视觉系统。
研究人员——包括生成对抗网络(GANs)的创始人 Ian good fellow——发表了一篇论文,他们在论文中透露,他们已经能够生成第一批照片,这些照片可以愚弄人类和计算机视觉算法。寻找无法欺骗人类大脑的改变图像的研究对于自动驾驶等现实生活中的用例非常重要。一个系统能看到每一个停车标志是必要的,不管它被改变了多少。

继续阅读……

值得注意的

  • 将汽车变形为直升机
    日内瓦车展:意大利设计公司、空中客车公司和奥迪公司合作展示了一款双座智能汽车大小的单体车,它可以像普通汽车一样在轮子上行驶,或者在一个巨大的无人机模块的帮助下,被吊到空中进行垂直飞行。阅读更多…
  • 将人工智能带到机场
    科技公司 SITA 透露了让人工智能接管机场行李管理的计划。目的是最大限度地减少行李丢失和处理不当的数量。同样,Unisys 软件正在将 ML 算法引入边界控制
  • 再见绿屏,你好 AI!谷歌将专业水平的视频编辑技术引入手机,用 IA 工具取代绿色屏幕。目前,该工具处于有限的测试模式。阅读更多…
  • 探索历史生活照片
    使用人工智能对数百万张历史生活照片进行分类,谷歌发布了一个漂亮的工具来创建一个新的、可搜索的生活照片档案。阅读更多…

宝马机器学习周刊—第 2 周

原文:https://towardsdatascience.com/bmw-machine-learning-weekly-b426bf5d823a?source=collection_archive---------8-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2018 年 2 月 22 日至 2 月 28 日

关于机器学习(ML)、人工智能(AI)及相关研究领域的新闻。

CIMON:外层空间援助系统

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

德国宇航员兼科学家亚历山大·格斯特将于今年 6 月搭乘火箭前往国际空间站,他将带来一位不同寻常的朋友:一个会飞、会说话的智能机器人。由空中客车建造的,CIMON(机组人员互动移动伴侣)将是第一个基于人工智能的任务和飞行辅助系统。CIMON 运行在 IBM 的 Watson AI 版本上,并被训练识别 Gerst 的声音和外观,以便在宇航员在空间站上进行一些实验时提供帮助。CIMON 的主要任务是完成三个目标:在太空中进行晶体生长实验,解决一个魔方,以及“使用 CIMON 作为‘智能’飞行相机进行复杂的医学实验”,以监视空间站宇航员,帮助评估他们的情绪状态和心理“群体效应”(这一功能可以帮助更好地设计数月或一年的月球或火星之旅)。

继续阅读……

ML 有助于发现贫困

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

斯坦福发表了一篇关于 ML 模型的论文,其中某个地点的人均消费支出是使用高分辨率的日间和夜间卫星图像计算的。这种技术应该有助于目前的贫困绘图方法,这种方法更费时,而且严重依赖第一手调查数据。机器学习算法比较一个地区白天和夜间图像中的光线,以预测其经济活动——这是一种被称为迁移学习的技术。使用夜间图像作为参考,该算法选择一个光线充足的区域,并与白天的图像进行交叉检查,以确认其基础设施的发展。夜晚更明亮的区域通常意味着更多涉及电力的活动,因此该地区更富裕。在做出最终判断之前,该模型会用调查数据反复检查其视觉观察结果,以提高其准确性。然后,它可以根据所有以前的评估来预测该地区的贫困分布情况。

继续阅读……

人工智能算法判断自己的视频制作技能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

科学报道称,一种使用两个神经网络的新人工智能模型能够从文本线索中创建原始视频剪辑。一个神经网络基于一个场景的简短、键入的描述(如“在草地上打高尔夫球”)或来自训练数据的组合不同概念(如“在雪上航行”)来创建视频。然后,第二个神经网络评估第一个神经网络的输出是否真实,以便对其进行改进。麻省理工科技评论这种人工智能算法是其201810 项突破性技术之一。从文本中自动生成视频对于为自动驾驶汽车创建大量合成训练数据非常有用。本周在互联网上狂欢的其他有趣的人工智能增强视频是例如硬核 Anal Hydrogen 的音乐视频Jean-Pierre 的。根据 Sploid 的说法,该视频是使用深度梦境、神经风格转移和光流等人工智能软件创建的,这些软件在处理后的帧之间创建了无缝过渡。

继续阅读……

值得注意的

  • www . untrusty . con
    ML 可以嗅出可疑网址的蛛丝马迹,防止你被网络钓鱼。互联网上充斥着以窃取用户信息或在受害者的机器上安装恶意软件为唯一目的的网站。一个名为 URLNet 的新系统使用神经网络来查看网站 URL 中的字符级和单词级组合,以检测它是否是一个有风险的网站。阅读更多…
  • 纽约市长将宣布成立一个新的“自动决策系统”工作小组,这是美国第一个工作小组,将建议一个城市机构应该如何对使用人工智能和人工智能算法以及其他先进的计算技术做出重要决策负责。阅读更多……
  • 生产 Vespa 踏板车的意大利公司 Piaggio 正在制造一种货运机器人,帮助行人搬运用手无法搬运的重物。小机器人 Gita 自动跟随它的主人,拖着杂货或园艺家,而人类操作员在前面漫步,自由地打电话或吸香烟。阅读更多…
  • 人工智能的游戏策略:精心策划的自杀
    来自弗赖堡大学的 ML 研究人员最近发表了论文关于人工智能通过一种叫做“进化策略”的试错技术进行学习,并与八款雅达利游戏进行了较量。它的方法逐渐改变了处理任务的方式,抓住成功的诀窍,抛弃那些不起作用的。研究人员发现,他们的算法发现了一个可以利用来获得积分的软件漏洞,以及一个精心策划的自杀让它在游戏中前进的技巧。阅读更多…

宝马机器学习周刊—第 11 周

原文:https://towardsdatascience.com/bmw-machine-learning-weekly-week-11-8bb37cc821b3?source=collection_archive---------9-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2018 年 5 月 24 日至 6 月 6 日

关于机器学习(ML)、人工智能(AI)及相关研究领域的新闻。

认识一下诺曼:世界上第一个精神病 AI

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

根据一项新的研究,麻省理工学院的科学家训练了一种被称为“诺曼”的人工智能算法,使其成为一名精神病患者,只需将其暴露于可怕的死亡和暴力的可怕 Reddit 图像。以阿尔弗雷德·希区柯克 1960 年电影惊魂记中安东尼·博金斯的角色命名,这个人工智能在接受罗夏墨迹测试之前,只被输入了连续的暴力图像流。(罗夏墨迹测验的基本思想是,当一个人看到一个模糊的、无意义的图像时,大脑会努力给图像赋予意义。这被认为是一种性格测试。)诺曼探测到的图像产生了对电击和超速汽车死亡的怪异解释,而标准的人工智能只会看到雨伞和婚礼蛋糕。麻省理工学院研究的目标是证明用于教授 ML 算法的输入方法可以极大地影响其后来的行为。科学家们认为,当算法被指责有偏见或不公平时,比如脸书新闻或谷歌照片的高调案例,“罪魁祸首往往不是算法本身,而是输入其中的有偏见的数据。”

继续阅读……

照片的隐私过滤器

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

随着对社交网络上隐私和数据安全的担忧日益加剧,多伦多大学的研究人员创造了一种算法,可以动态扰乱面部识别系统。由于隐私是一个现实问题,随着面部识别变得越来越好,这种反面部识别系统可以有利于打击这种能力。他们的解决方案利用了一种叫做对抗训练的深度学习技术,这种技术让两种人工智能算法相互对抗。设计了两组神经网络:第一组用来识别人脸,第二组用来扰乱第一组的人脸识别任务。这两者不断斗争和相互学习,建立了一个持续的人工智能军备竞赛。除了禁用面部识别,新技术还会破坏基于图像的搜索、特征识别、情感和种族估计,以及所有其他可以自动提取的基于面部的属性。接下来,该团队希望通过应用程序或网站公开隐私过滤器。

继续阅读……

人工智能可以像人类一样准确地识别野生动物

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

从印度的老虎到非洲的土豚,运动传感器摄像机越来越多地被用于追踪全球的野生动物。但是梳理这些系统捕获的数百万张图像是一项耗时的任务。现在,科学家们发现,人工智能在识别这些基本上未开发的照片库中的物种方面,与人类志愿者一样有效,而且更快。在本周发表在美国国家科学院 学报 上的一项新研究中,由怀俄明大学计算机科学家 Mohammad Sadegh Norouzzadeh 领导的一个研究小组测试了一种称为深度神经网络的人工智能是否能够正确识别和计数物种,确定动物的年龄,并对它们的行为进行分类。他们使用快照塞伦盖蒂数据集的 320 万张图像分析了人工智能的能力,该数据集包含自 2011 年以来坦桑尼亚塞伦盖蒂国家公园 225 个相机陷阱的照片。

继续阅读……

值得注意的

  • 微软将一堆服务器沉入苏格兰海岸的海里以保持冷却。这个想法是利用海水作为自然冷却剂,帮助减少运行中心所需的能源。阅读更多…
  • 弹琴:机器还是人
    听听由机器和人演奏的肖邦。
  • 用自然语言处理(NLP)预测股票市场
    微软的一个研究团队试图用 NLP 来预测股票表现,以解释收益发布,并采取措施通过删除停用词、标点符号和其他昙花一现的词语来净化输入。然后,该模型试图找出新闻稿的语言内容与随后对股价的影响之间的关系。阅读更多…
  • 葡萄酒商店 Bright Cellars 正在将同样的概念应用到葡萄酒上,就像 Spotify 和网飞对音乐和电影所做的那样:他们的葡萄酒配对算法通过让会员参加一个简单的测试,将会员与他们理想的葡萄酒匹配起来。阅读更多…

宝马机器学习周刊—第 12 周

原文:https://towardsdatascience.com/bmw-machine-learning-weekly-week-12-9187154a777f?source=collection_archive---------8-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2018 年 6 月 7 日至 6 月 20 日

关于机器学习(ML)、人工智能(AI)及相关研究领域的新闻。

透过墙壁看人

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

麻省理工学院的计算机科学和人工智能实验室(CSAIL)开发了一种无线智能家居系统,可以通过墙壁感知人们。人工智能系统是利用无线电信号和人们走动的视频片段进行训练的。这使得使用神经网络生成简笔画来显示人们在墙后做什么成为可能。该系统还可以可靠地区分不同的人。该团队表示,项目“ RF-Pose ”可用于监测帕金森氏症、多发性硬化症(MS)和肌肉萎缩症等疾病,从而更好地了解疾病的进展,并允许医生相应地调整药物治疗。它还可以帮助老年人更加独立地生活,同时为跌倒、受伤和活动模式的变化提供额外的安全监控。该团队目前正在与医生合作,探索 RF-Pose 在医疗保健方面的应用。

继续阅读……

无人机发现人群中的暴力

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“天空之眼”是剑桥大学和印度国家理工学院和科学研究所的一个研究项目,使用无人机来发现人群中的暴力。使用的无人机是一个标准的 Parrot AR 2.0,其摄像头提供了一个人工智能分散网络平台,提供了必要的现场镜头。ScatterNet 的深度学习网络从那里开始:它可以有效地估计每个检测到的人的姿势。一旦做到这一点,它就可以区分帧中潜在的暴力对象和人群中正常移动的对象。该项目仍处于早期阶段,因为据报道,每增加一个人群成员,检测的准确性都会受到很大影响。虽然该系统声称可以以超过 94%的准确率识别 10 人组中的暴力个人,但一旦人群中有两个这样的人,准确率就会下降到 90.6%,如果有五个,准确率就会下降到 84%。

继续阅读……

ML 能识别有趣的数学吗?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

数学的奇妙特性之一是它的美。但是数学家所说的美到底是什么意思却很难捕捉到。也许最著名的例子是欧拉关系,eiπ + 1 = 0,它揭示了看似不相关的数学领域之间的深刻联系。其他迷人的整数序列还有质数,只能被自己和 1 整除的数;或者是斐波那契数列,其中每一项都是前两项之和。这也指出了数学美的另一个组成部分:数学模式一定在某些方面很有趣。识别这些有趣的模式一直是人类独有的能力。但是最近几年,机器已经成为非常强大的模式识别工具。事实上,它们已经开始在人脸识别、物体识别以及各种游戏角色方面超越人类。这提出了一个有趣的可能性:机器学习算法能识别数学中有趣或优雅的模式吗?他们甚至可能是数学美的仲裁者吗?

继续阅读……

逆转狗的衰老

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

世界上最有影响力的合成生物学家,哈佛医学院的乔治·丘奇,是一家新公司的幕后策划者,该公司计划利用基因疗法使狗返老还童。如果成功,他计划在人身上尝试同样的方法,他可能是第一批志愿者之一。该公司已经对比格犬进行了初步测试,声称它将通过给动物的身体添加新的 DNA 指令来使它们变得“更年轻”。它的年龄逆转计划建立在简单生物如蠕虫和苍蝇的诱人线索上。调整他们的基因可以让他们的寿命延长一倍甚至更多。其他研究表明,给老老鼠输年轻老鼠的血可以使一些生物标志物恢复到年轻水平。“我们已经在老鼠身上做了一系列试验,我们也在狗身上做了一些,然后我们会转移到人类身上,”丘奇今年早些时候告诉播客 Rob Reid。该公司的其他创始人、首席执行官丹尼尔·奧利弗和科学带头人诺亚·戴维森(Noah Davidsohn)拒绝接受本文采访,他是丘奇庞大的波士顿实验室的博士后。

继续阅读……

值得注意的

宝马机器学习周刊—第 13 周

原文:https://towardsdatascience.com/bmw-machine-learning-weekly-week-13-718594a1a200?source=collection_archive---------7-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2018 年 6 月 21 日至 7 月 4 日

关于机器学习(ML)、人工智能(AI)及相关研究领域的新闻。

由于自动驾驶汽车,交通堵塞更加严重?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

世界经济论坛和波士顿咨询集团发布了一份报告,讲述了一项为期三年的合作,探索自动驾驶汽车如何重塑城市交通的未来。他们进行了消费者研究,并与波士顿市合作,通过在该市测试自动驾驶汽车来评估自动驾驶汽车在该市的影响,并制定该市如何促进这项技术以实现其移动目标的战略。结果是一个交通模拟模型,通过这个模型,他们发现自动驾驶汽车可以导致城市中心区的交通流量增加 5.5%的*。虽然道路上的汽车总体上将会减少,但拥堵将会加剧,因为通勤者可能会选择新车而不是公共交通工具。然而,波士顿的其他地区实际上交通流量有所下降。为了防止波士顿等城市地区出现更多拥堵,该报告建议降低自动拼车者的价格,将停车场转变为上下车区,并开辟自动驾驶专用车道。*

继续阅读……

峰值屏幕

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在过去十年的大部分时间里,由智能手机主导的科技行业一直在追求一个单一的目标,即完全征服我们的眼睛,这让我们的手机屏幕越来越大。但我们似乎已经到达了一个被称为“峰值屏幕”的地方,科技巨头们开始构建一些新东西的开端:一个不那么坚持视觉化的科技世界,一个依赖语音助手、耳机、手表和其他可穿戴设备来减轻我们眼睛压力的数字景观。取决于这些技术如何发展,一个需要我们更少眼睛的数字生态系统可能对每个人都更好——更少沉浸感,更少上瘾,更有利于多任务处理。多年来,我们已经在汽车上看到了这一点:通过将内部控制放在触摸屏上,而不是触觉旋钮和开关上,汽车制造商已经使车辆变得更加令人讨厌和危险。特斯拉 Model 3 将这一点发挥到了荒谬的程度。正如一些评论者的哀叹,几乎每一个汽车控制器——包括侧镜的调节——都需要通过屏幕进行操作。为了迈向“辉煌的小屏幕未来”,科技行业需要想出其他不那么身临其境的方式来与数字世界互动:语音助手。

继续阅读……

预测放射性沉降物的分布

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当核电站事故发生,放射性物质被释放时,尽快疏散附近的人们是至关重要的。然而,很难立即预测放射出的放射性物质会停留在哪里,因此不可能防止大量人员受到辐射。东京大学的研究人员发表了一篇论文,展示了他们基于 ML 的工具,该工具可以提前 30 小时预测核电站的放射性排放物将分散到哪里。在使用先前天气模式的大量数据进行训练后,该工具始终达到 85%以上的预测准确率,在大型和可预测的天气系统占主导地位的冬季,预测准确率高达 95%。这个工具可以在福岛和切尔诺贝利这样的灾难发生后帮助紧急疏散。

继续阅读……

值得注意的

  • Google Duplex:一种听起来像非常怪异、善良的人类的人工智能
    去年 5 月,谷歌展示了其经过重组的听觉人工智能,它可以帮助你与仍然接听电话的人联系。观看谷歌的视频来了解一下类似人类的听觉人工智能听起来是什么样的。阅读更多…
  • 来自斯坦福大学的科学家发表了一篇关于他们创建 Atom2Vec 的论文。Atom2Vec 设法在几个小时内复制了元素周期表——这是一个人类花了近一个世纪反复试验的壮举。阅读更多…
  • 人工智能能够团队合作再次,五种不同的人工智能算法联手在 Dota 2 这款流行的策略电脑游戏中击败人类。这证明了算法能够通过协作和团队合作来战胜人类团队。下一个挑战将是开发能够在涉及通信的游戏中获胜的人工智能,如外交或卡坦半岛的定居者,其中合作与竞争之间的平衡对成功至关重要。阅读更多…

宝马机器学习周刊—第 14 周

原文:https://towardsdatascience.com/bmw-machine-learning-weekly-week-14-f0eae8ce33d8?source=collection_archive---------14-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2018 年 7 月 5 日至 7 月 18 日

关于机器学习(ML)、人工智能(AI)及相关研究领域的新闻。

脸书的艾游客

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果你在纽约迷路了,没有智能手机或地图,你很可能会向当地人问路。脸书的研究人员正在训练人工智能程序做同样的事情,他们希望这最终能使他们更好地使用语言。纽约的脸书人工智能研究小组创建了两个人工智能程序:一个是在纽约迷路的“游客”,另一个是通过提供自然语言指令来帮助其同伴算法找到路的“向导”。迷路的游客看到的是真实世界的照片,而“导游”看到的是带有地标的二维地图。他们一起承担着到达特定目的地的任务。这个想法是,通过学习指令如何与现实相关,游客算法将开始找出这些东西实际上是什么。人工智能研究人员希望以这种方式教授的算法在使用语言时会更加复杂,这对人工智能来说仍然是一个巨大的挑战。

继续阅读……

人类智能:伪人工智能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在过去十年的大部分时间里,由智能手机主导的科技行业一直在追求一个单一的目标,即完全征服我们的眼睛,这让我们的手机屏幕越来越大。但我们似乎已经到达了一个被称为“峰值屏幕”的地方,科技巨头们开始构建一些新东西的开端:一个不那么坚持视觉化的科技世界,一个依赖语音助手、耳机、手表和其他可穿戴设备来减轻我们眼睛压力的数字景观。取决于这些技术如何发展,一个需要我们更少眼睛的数字生态系统可能对每个人都更好——更少沉浸感,更少上瘾,更有利于多任务处理。多年来,我们已经在汽车上看到了这一点:通过将内部控制放在触摸屏上,而不是触觉旋钮和开关上,汽车制造商已经使车辆变得更加令人讨厌和危险。特斯拉 Model 3 将这一点发挥到了荒谬的程度。正如几位评论家的哀叹,几乎每一个汽车控制器——包括侧镜的调节——都需要通过屏幕来操作。为了迈向“辉煌的小屏幕未来”,科技行业需要想出其他不那么身临其境的方式来与数字世界互动:语音助手。

继续阅读……

人工智能可以修复你粗糙的照片

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

来自英伟达、阿尔托大学和麻省理工学院的研究人员开发了一种深度学习算法,该算法已经学会修复照片:删除文本和水印或修复颗粒状照片分辨率。研究人员使用特斯拉 P100 GPU 和 TensorFlow 深度学习框架来训练算法 Noise2Noise。Noise2Noise 使用图像的有噪版本和干净版本对 ImageNet 数据集的 50,0 00 多幅图像进行训练,可以消除伪像、噪声、颗粒,并自动增强您的照片,而无需查看对象的原始无噪版本。该算法不仅用于恢复颗粒状照片,还用于磁共振图像(MRI)扫描,这在医疗领域非常有益。

继续阅读……

值得注意的

  • 遇见奥斯卡垃圾桶
    奥斯卡来自自主的人工智能垃圾桶,一家符合人体工程学的办公和游戏家具公司,为你回收。根据 Autonomous 的说法,当你把一件垃圾扔进奥斯卡的识别和分类机制时,图像识别相机会检测它是否可回收。如果 Oscar 的图像识别算法无法对物品进行分类,LED 会闪烁红光,提示用户通过“教授”物品的分类来提供帮助。阅读更多…
  • 咨询公司普华永道(PwC)的一份报告预计,到 2037 年,人工智能将为英国经济增加的就业岗位(约 720 万个)将与该技术导致的失业(700 万个)一样多。阅读更多内容……

宝马机器学习周刊—第 15 周

原文:https://towardsdatascience.com/bmw-machine-learning-weekly-week-15-87bddf2b3007?source=collection_archive---------10-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2018 年 7 月 19 日至 8 月 1 日

关于机器学习(ML)、人工智能(AI)及相关研究领域的新闻。

关于区块链和碳排放

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

IBM 相信区块链可以通过将碳信用转化为加密令牌来帮助减少碳排放。世界正在向“代币驱动的经济”发展,这被认为是创造一个巨大的新型数字资产市场的计划的一部分。IBM 希望建立交易这些代币的软件平台。它计划帮助数字化的第一件事有一个额外的特点:它有益于环境。公司、政府和其他人使用碳抵消额度来补偿他们排放的二氧化碳。不幸的是,购买“高质量”的碳信用额是一个复杂、繁琐的过程,必须在场外交易中完成,这减缓了碳信用额市场的发展速度, Veridium 基金会的执行董事吉姆·普罗坎尼克说。他说,区块链技术是“创造一个更具流动性和透明度的市场的完美背景。”

继续阅读……

谷歌的 AutoML

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

谷歌的 AutoML Vision 在一月份开始的 alpha 阶段后将进入公开测试。Cloud AutoML 基本上是一种允许非专家——那些没有 ML 专业知识或甚至没有编码能力的人——训练他们自己的自学模型的方法,所有这些都使用作为谷歌云计算产品一部分的工具(这里一个关于构建你自己的 ML 管道的顶级 AutoML 库的快速指南)。这些工具中的第一个是 AutoML Vision,它允许您为图像和对象识别创建 ML 模型。谷歌通过使用简单的图形界面和普遍理解的 UI 触摸,如拖放,使这些工具对于软件工程和人工智能领域以外的人来说是易读的。两个新工具 Cloud AutoML 旨在促进自然语言和翻译领域的发展。谷歌表示,出版巨头赫斯特公司已经在使用 AutoML 自然语言来帮助标记和组织其许多杂志和这些出版物的众多国内和国际版本的内容。谷歌还将 AutoML 翻译交给了日本出版商日经集团(Nikkei Group),后者每天出版并翻译多种语言的文章。

继续阅读……

使用 ML 检测水质

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

美国最大的上市水务公司 American Water 正在研究使用 ML 和实时流数据技术来检测和识别地表饮用水中潜在的有害化学信号。这些数据是基于传感器对碳和溶解氧等物质的测量,以及水中已知化学物质的存在。由此产生的数据信号可用于实时检测化学物质的存在,并相应地调整水处理。然而,目标并不是完全自动化水处理过程。相反,它是给水质操作员另一个工具,帮助他们做出更明智的决定。

继续阅读……

值得注意的

  • 学习灵巧
    观看来自 OpenAI 的自学算法,它让机器人手能够教会自己以不可思议的技巧摆弄立方体。强化学习算法在计算机模拟中练习了相当于一百年。阅读更多…
  • 谷歌发布了一个很酷的 ML 实验,将用户的姿势与类似的 GIF 图片进行匹配,你可以在他们的网站上进行测试。阅读更多或观看视频
  • 有史以来最大规模的关于人类认知的基因研究发现,人们的基因与他们在学校接受的教育程度之间有 1000 多种联系。阅读更多…

宝马机器学习周刊—第 16 周

原文:https://towardsdatascience.com/bmw-machine-learning-weekly-week-16-2cdcbb01cbf?source=collection_archive---------15-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2018 年 8 月 2 日至 8 月 22 日

关于机器学习(ML)、人工智能(AI)及相关研究领域的新闻。

区块链和美国中期选举

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

西弗吉尼亚州的投票变得更加高科技:美国第一个允许一些选民使用智能手机应用程序提交联邦大选选票,这是主要涉及海外服役军人的试点项目的一部分。西弗吉尼亚州官员计划使用区块链来应对网上投票的风险。他们认为,这是一种更方便、更安全的网上投票方式,可以提高投票率。该项目遭到了选举安全专家的严厉批评,他们认为,按照设计,该系统几乎没有解决在线投票固有的问题。宾夕法尼亚大学的密码学和安全研究员马特·布雷泽认为区块链并不坏。这是因为它们引入了新的安全漏洞,而保护投票计数免受欺诈“比其他方法更容易、简单和安全。”

继续阅读……

网络安全的人工智能和人工智能

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用 ML 和 AI 来帮助自动化威胁检测和响应可以减轻员工的负担,并有可能比其他软件驱动的方法更有效地识别威胁。尽管如此,黑客可以通过瞄准他们训练的数据和他们寻找的警告标志来挫败安全算法。许多正在推出的网络安全产品涉及“监督学习”,这要求公司选择和标记算法训练的数据集——例如,通过标记恶意代码和干净代码。潜在的风险是,网络安全公司急于将其产品推向市场,因此没有彻底清除异常数据点;进入安全公司系统的黑客可以通过交换标签来破坏数据,从而将一些恶意软件标记为干净的代码;或者黑客可以找出模型用来标记恶意软件的代码特征,然后从他们自己的恶意代码中删除这些特征,这样算法就不会发现它。

继续阅读……

ML 工具使汽车设计更符合空气动力学

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当工程师或设计师想要测试汽车、飞机或其他物体的新设计形状的空气动力学特性时,他们通常会通过让计算机求解一组复杂的方程来模拟物体周围的空气流动,这一过程通常需要几个小时甚至一整天。来自 Autodesk research(现在在东京大学)的 Nobuyuki Umetani 和来自奥地利科学技术研究所(奥地利 IST)的 Bernd 比克尔现在大大加快了这一过程,使流线和参数实时可用。他们的方法是第一个使用 ML 来模拟连续可编辑 3D 对象周围的流动,并能够显示流线以及交互式可变形形状表面上的颜色编码压力。

继续阅读……

值得注意的

  • 上周今晚
    观看约翰·奥利弗谈美国关税对宝马的影响。
  • 瓦尔多在那里,你知道这个游戏吗?现在有一个机器人,配备了视觉相机套件,可以使用谷歌的 AutoML 面部识别服务识别瓦尔多。观看 还有瓦尔多阅读更多…
  • ML 有助于减少毒性化疗
    麻省理工学院的研究人员正在采用 ML 技术,通过减少胶质母细胞瘤(最具侵袭性的脑癌形式)的毒性化疗和放疗剂量,来改善患者的生活质量。阅读更多…

宝马机器学习周刊—第 4 周

原文:https://towardsdatascience.com/bmw-machine-learning-weekly-week-4-1d9ac5a8f26?source=collection_archive---------18-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2018 年 3 月 8 日至 3 月 14 日

关于机器学习(ML)、人工智能(AI)及相关研究领域的新闻。

大赦国际的法律责任

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

法律学者越来越多地讨论哪些法律应该适用于 AI 犯罪。英国布莱顿大学的研究员约翰·金斯顿最近发表了一篇论文,描绘了这一法律领域的前景。他的分析提出了一些汽车、计算和法律界应该认真应对的重要问题(如果他们还没有这么做的话)。这场辩论的核心在于,人工智能系统是否可以为其行为承担刑事责任。Kingston 说,以色列 Ono 学院的 Gabriel Hallevy 已经详细研究了这个问题。本文讨论了适用于人工智能系统的三种不同的法律场景:(i) *通过另一个实施者,*适用于由精神有缺陷的人实施的犯罪,因此被认为是无辜的,(ii) *自然可能的后果,*发生在人工智能系统的普通行为可能被不适当地用于实施犯罪行为时,以及(iii) *直接责任,*要求行为(例如,人工智能采取导致犯罪行为的行为)和意图(更难确定)

继续阅读……

测试人工智能的常识

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一项新的测试可能有助于表明,Siri 和 Alexa 等人工智能系统需要一种根本不同的方法来真正掌握语言。由西雅图非营利组织艾伦人工智能研究所 (AI2)的研究人员开发的 AI2 推理挑战赛 (ARC)将提出小学水平的多项选择科学问题(见论文)。每个问题都需要对世界如何运转有所了解。例如,一个问题可以是*“下面哪个项目不是由自然生长的材料制成的?a)棉衬衫 B)木椅 C)塑料勺子 D)草篮。”*这样的问题对于任何知道塑料不是长出来的东西的人来说都很容易。这个答案触及了一个连小孩子都有的常识性的世界图景。这项新测试是 AI2 向人工智能系统灌输这种对世界的理解的举措的一部分。这一点很重要,因为确定一个语言系统理解它所说的东西的能力是很棘手的。

继续阅读……

不付款

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当谈到获得负担得起的机票,价格比较网站都很好,但他们并没有真正解决价格不断变化的事实。这意味着,尽管你在预订时可能已经买到了周三 10 点从洛杉矶飞往纽约的最便宜的航班,但不能保证在接近起飞时间时仍然是最便宜的航班。
机器人律师网站提供的最新服务 DoNotPay (最出名的是让数千人免于停车罚单)声称是有史以来第一个在你预订机票后降低机票价格的服务。它与所有美国航空公司和旅游预订服务兼容,迫使公司在机票价格下降时向客户付费。它是通过遵守法律细则来做到这一点的,法律细则要求航空公司给予客户修改预订的选择权——但很少有人真正这么做。

继续阅读……

值得注意的

宝马机器学习周刊—第 5 周

原文:https://towardsdatascience.com/bmw-machine-learning-weekly-week-5-c8a167698add?source=collection_archive---------4-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2018 年 3 月 15 日至 3 月 21 日

关于机器学习(ML)、人工智能(AI)及相关研究领域的新闻。

人工智能可以帮助发现老年痴呆症

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

目前,没有简单的方法来诊断阿尔茨海默氏症。不存在单一的测试,单靠大脑扫描不能确定某人是否患有该病。此外,当患者处于疾病的早期阶段时,它并不总是明显的。在人们开始经历困惑和记忆丧失之前,大脑的变化会导致行为和睡眠模式的微妙变化。研究人员认为,人工智能可以早期识别这些变化,并识别出处于发展最严重疾病风险中的患者。麻省理工学院计算机科学和人工智能实验室的 Dina Katabi 和她的团队开发了一种微妙的白色平板设备,可以识别动作,如踱步和徘徊,这可能是阿尔茨海默氏症的迹象。这个设备知道一个人什么时候起床,穿衣服,走到窗前,或者去洗手间。它可以判断他们是在睡觉还是摔倒了。它通过使用低功率无线信号来绘制他们的步态速度,睡眠模式,位置,甚至呼吸模式。所有这些信息都被上传到云端,在那里 ML 算法从每天数以千计的动作中发现模式。装有这种算法的设备可以安装在人们的家中或长期护理设施中,以监测那些处于危险中的人。对于已经确诊的患者,这种技术可以帮助医生调整他们的治疗。

继续阅读……

优步的致命事故

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

周日晚上,一名女子在亚利桑那州坦佩被优步驾驶的自动驾驶汽车撞死。这被认为是第一起与自动驾驶技术有关的行人死亡事件。事故涉及一辆沃尔沃,优步为其配备了雷达、摄像头和其他传感器以及计算机设备,使其能够在没有驾驶员输入的情况下导航。虽然当时一名安全驾驶员在车内,但当它撞上并杀死骑车人时,它处于自动模式。可以在这里观看车辆内部和外部摄像头拍摄的(相当清晰的)视频。《麻省理工技术评论》发表了一篇文章,反思了致命事故的潜在影响,得出结论说,到目前为止,公众(出人意料地)没有表现出反对自动驾驶技术的迹象,即使在此类事件发生后。尽管如此,丰田等汽车制造商决定暂时停止自动驾驶汽车上路。

继续阅读……

将深度学习应用于纽约市的交通

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当试图使当局相信某些法律没有得到充分执行时,洗钱在证明一个恰当的案例方面非常有用。例如,纽约市 30 岁的计算机科学家亚历克斯·贝尔(Alex Bell)创建了一个深度学习算法(一种 ML)的原型,该算法研究交通摄像头的镜头,并精确跟踪自行车道被送货卡车、停放的汽车和等待的出租车以及其他违法者堵塞的频率。该项目为期 10 天,重点关注一个城市街区。这项工作花费了大约三周时间(参见源代码这里)。与大多数纽约市交通数据分析相比,这是一项与众不同的分析。初步的发现是明显的:利用一个公交车站和两条自行车道(一条向北行驶,另一条向南行驶)上的交通摄像机镜头,贝尔发现公交车站 57%的时间被封锁,而自行车道 40%的时间被封锁。

继续阅读……

值得注意的

  • TechCrunch 正在跟进马克·扎克伯格对剑桥分析公司滥用从脸书收集的客户数据的报道的回应。参见饲料…
  • 让智能手机通知不那么烦人
    最近发表的一篇论文描述了研究人员如何根据浏览历史、购物历史和财务细节等数据训练人工智能,以建立一个推荐引擎,决定何时在通知中显示什么。利用它,他们能够准确预测用户对频率和内容的偏好。
  • 砍伐森林的声音
    麻省理工学院技术评论报道雨林连接,一个三藩市的非营利组织,已经开发了一种廉价的,严格的声音监测系统,由改良的手机和太阳能电池板制成。所谓的守护者设备上的一个应用程序可以隐藏在整个森林的树木中,持续监听非法伐木和偷猎动物的迹象。该非营利组织将使用谷歌的 TensorFlow 更准确地检测上传音频中令人不安的声音,如链锯、车辆和枪声。

宝马机器学习周刊—第 6 周

原文:https://towardsdatascience.com/bmw-machine-learning-weekly-week-6-5db7d4e92850?source=collection_archive---------5-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2018 年 3 月 22 日至 3 月 28 日

关于机器学习(ML)、人工智能(AI)及相关研究领域的新闻。

对乱穿马路者立即罚款

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

中国南方城市深圳的交警一向以严格执行无视交通规则而闻名,这座拥有 1200 万人口的大都市。现在,在人工智能和面部识别技术的帮助下,乱穿马路的行人(非法穿越道路的行人)不仅会被公开点名,还会通过即时消息通知他们的错误行为——以及罚款。
总部位于深圳的人工智能公司 Intellifusion 向深圳警方提供技术,在十字路口的大型 LED 屏幕上显示乱穿马路者的脸,该公司正在与当地移动电话运营商和微信等社交媒体平台合作,开发一个系统,一旦违规,违规者将收到个人短信。

继续阅读……

EmTech Digital 2018

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

今年在旧金山举行的 EmTech Digital 几天前结束了。会议特别关注引领中国人工智能革命的公司,人工智能如何渗透到从制造到零售的企业,以及最近随着机器做出更大更复杂的决定,导致算法揭示其隐藏的偏见而出现的伦理困境。演讲者和公司展示了一些主题,如探索在食品生产中使用人工智能的新方法,展示了迄今为止最灵活的机器,并警告说人工智能在假新闻制作中变得越来越重要

参见概述

冰雹预测人工智能万岁

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

每年,恶劣天气都会造成数十亿美元的财产损失,并导致数百人死亡或受伤。虽然龙卷风比冰雹更危险,但也更罕见。然而,准确预测严重的冰雹——特别是那些产生大于 25 毫米冰雹的冰雹,这是气象界对“大冰雹”的阈值——需要气象人力。本周在圣何塞举行的 Nvidia GPU 技术会议上,美国国家大气研究中心的研究人员展示了他们的深度学习模型,该模型从雷达图像中预测了这种危险的冰雹。到目前为止,ML 技术在预测雷达图像中显示的空间模式的恶劣天气事件方面还存在困难。更新的深度学习技术,如卷积神经网络(CNN),可以产生更好的结果。

继续阅读……

人工智能识别月球上的新环形山

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

尽管在过去的几十年里技术有了巨大的发展,但是计算月球上陨石坑的方法并没有太大的进步,仍然严重依赖人眼进行识别。为了消除手动跟踪月球洞穴和盆地的单调感,多伦多大学斯卡伯勒分校的一组研究人员提出了一种创新技术,导致发现了 6000 个新的陨石坑。利用 CNN,研究小组使用轨道卫星收集的海拔地图数据,在覆盖月球表面三分之二的区域上训练算法。然后,他们在剩下的三分之一的区域测试了这项技术,这是一个它还没有见过的区域。深度学习算法能够以令人难以置信的精度和非常详细的细节来绘制未知的地形。它发现的陨石坑是人工方法的两倍。

继续阅读……

值得注意的

  • 人工智能创造超现实的裸体肖像
    一名人工智能研究人员决定看看,当他从一个数据集向一个生成敌对网络(GAN)提供数千幅裸体肖像,然后训练它创造自己的奇异艺术品时,会发生什么。这件艺术品不完全是感性的。大多数裸体看起来像是在大热天融化,使得超现实主义艺术运动看起来乏味平常。见艾——画。
  • 经济学家本周发布了一份报告,聚焦人工智能的引入对就业市场的影响。阅读更多…
  • 面向儿童的人工智能项目
    项目“面向儿童的机器学习”旨在以一种有趣而直观的方式向儿童教授人工智能。阅读更多…
  • 防止 ML 中的歧视性结果
    世界经济论坛发布了一篇论文,为开发者提供了一个框架,以防止 ML 开发和应用中的歧视。该文件提出了四项指导原则:积极包容、公平、理解权和获得补救。阅读更多…

宝马机器学习周刊—第 7 周

原文:https://towardsdatascience.com/bmw-machine-learning-weekly-week-7-a22bcba816b5?source=collection_archive---------6-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2018 年 3 月 29 日至 4 月 4 日

关于机器学习(ML)、人工智能(AI)及相关研究领域的新闻。

估计行星上存在生命的可能性

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一种人工智能算法正在学习识别其他世界的生命支持条件模式。普利茅斯大学的一个团队说,它可以预测这些行星上存在生命的可能性。研究人员训练了他们的神经网络,根据它们是否最像今天的地球、早期的地球、火星、金星或土星的卫星泰坦,将行星分为五种不同的类型。所有这五个物体都是已知有大气层的岩石体,是太阳系中最有可能适合居住的物体。“鉴于迄今为止的结果,这种方法可能会被证明是非常有用的,可以利用地基和近地天文台的结果对不同类型的系外行星进行分类,”该项目的主管 Angelo Cangelosi 博士说。该技术也可能非常适合选择未来观测的目标,因为预计未来的太空任务,如欧空局的 Ariel 太空任务和美国宇航局的 James Webb 太空望远镜,将增加光谱细节。

继续阅读……

抑郁:打字整齐划一,拿着手机有一个角度

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

正如这篇新发布的论文所述,一个神经网络可以通过分析他们如何持有和点击智能手机来检测双相患者的抑郁和躁狂。研究人员给双相情感障碍者和控制者一部带有定制键盘的手机,收集按键和加速度计运动的数据。他们还要求参与者自我报告他们感到抑郁或狂躁的程度。与控制组相比,躁郁症患者在患有躁狂或抑郁症时,打字时间更加一致,而控制组的打字速度有所不同。一种解释可能是,躁郁症患者对刺激的反应不那么强烈,比如收到的短信。加速度计数据显示,有抑郁或躁狂症状的受试者倾向于以一定角度握持手机。该算法(名为 DeepMood )在通常不到一分钟的会话中达到了 90%的准确率。

继续阅读……

拉面识别

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

如果你是一个足够大的拉面粉丝,也许你可以在 Instagram 上看到一张 tonkotsu 碗的照片,并立即认出它来自哪个餐厅。但计算机打败了我们,因为它们现在可以从同一家特许经营餐厅的 41 碗看似相同的拉面中,识别出一个菜单项来自哪个商店。数据科学家 Kenji Doi 做了这项美味的研究,使用谷歌的 AutoML Vision 对拉面 Jiro 的每一个菜单项进行分类,拉面 Jiro 是一家位于东京的拉面连锁店。他从 41 家商店中的每一家收集了大约 1170 张照片,并将 48000 张拉面照片的数据集输入软件。AutoML 花了大约 24 小时(18 分钟,在不太准确的基本模式下)完成数据训练,该模型能够以 95%的准确率预测拉面来自哪个商店。多伊认为,这个模型足够精确,能够区分切肉和浇头的位置。

继续阅读……

值得注意的

  • 新纪录片:你信任这台电脑吗?
    新纪录片*你信任这台电脑吗?*本周将在韦斯特伍德的 Regency Village 剧院进行全球首映,及时探索了人工智能的崛起和思维机器的潜在危险。观看预告片,阅读更多
  • 世界第三大唱片公司华纳音乐收购了 ML 初创公司 Sodatone,试图利用数据来发现下一个艾德·希兰。成立于多伦多的 Sodatone 追踪流媒体、巡演和社交媒体数据,寻找与听众产生共鸣的艺术家。随着越来越多的人在线观看娱乐节目,音乐、电影和电视高管正在寻找专有数据,以预测什么会受到观众的欢迎。阅读更多…
  • 麦当劳跳上人工智能列车
    麦当劳和任何快餐企业的核心是保持低成本和高效率的需求——这是大数据、人工智能和机器人可以支持的。人工智能可以帮助他们改善个性化的客户体验,利用客户数据创建数字菜单,开发 McRobots(麦当劳是第一家在亚利桑那州凤凰城开设完全由机器人经营的商店的同类餐厅,只有一小组人来支持他们。),并展开趋势分析。阅读更多……

宝马机器学习周刊—第 8 周

原文:https://towardsdatascience.com/bmw-machine-learning-weekly-week-8-149ca5108899?source=collection_archive---------7-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2018 年 4 月 5 日至 4 月 25 日

关于机器学习(ML)、人工智能(AI)及相关研究领域的新闻。

与人工智能互动

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

谷歌对人工智能实验的最新贡献是让你与书籍对话:这个名为“与书籍对话的项目让你与一个经过人工智能训练的算法进行真正的对话,该算法利用人类撰写的文本中的相关段落来回答问题。它让你发表声明或提出问题。然后,该工具在书中找到一个句子来回答问题或陈述,而不依赖于关键字匹配。另一个(更具互动性和趣味性的)工具是“ Semantris ”,一个由 ML 支持的单词联想游戏。Semantris 基本上测试你的单词联想能力,使用的软件和与书对话的软件是一样的。它会根据屏幕上的单词与您输入的答案的对应程度,对这些单词进行排名和评分。例如,如果你在一个 10 个单词的集合中得到单词“bed ”,你可能会想到键入“sleep”作为响应。然后,Semantris 将对这 10 个单词进行排名,并根据它认为床和睡眠之间的语义关系与“床”和列表中其他每个单词之间的关系相比有多好来给你打分。Google 过去的 AI 实验包括“快,画!“T9”,一个学习如何识别你涂鸦的神经网络,或者“ Infinite Drum Machine ”,让你使用日常世界的声音创造节拍。

继续阅读……

通过强化学习掌握孔孚

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

加州大学伯克利分校和不列颠哥伦比亚大学的人工智能研究人员创造了虚拟角色,能够模仿一个人表演武术、跑酷和杂技的方式,坚持不懈地练习动作,直到他们恰到好处。这项工作可能会改变视频游戏和电影的制作方式。动画师可能会将真实的镜头输入到程序中,并让他们的角色通过练习来掌握它们,而不是以令人痛苦的细节来计划角色的动作。这样的角色可以被放到场景中,然后留下来执行动作。人工智能研究人员开发的虚拟角色使用了一种被称为强化学习的人工智能技术,其中虚拟角色对其运动进行实验,每当它稍微接近专家的运动时,就会收到积极的强化。强化学习意味着同样的算法可以用来训练一个角色做后空翻或月球漫步。

继续阅读……

人工智能将指导地震响应

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

一个值得关注的问题,加州的一家初创公司正在使用 ML 向消防部门提供如何计划和应对地震的建议。一个关注点的目的是减少灾难响应规划过程中的猜测。使用关于房屋、建筑物、它们的材料、它们的建造时间以及当地面开始震动时它们倒塌的可能性的数据,以及关于自然环境和实时天气数据的数据,可以预测如果地震发生在特定地区会发生什么。然后在过去地震造成破坏的地区测试这个模型。

继续阅读……

欧盟的人工智能目标

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

欧盟委员会概述了欧洲促进投资的方法,并为人工智能制定了道德准则。它提出了一个三管齐下的方法来防止“人才外流”到其他非欧洲竞争对手,并认为欧盟需要协调欧洲行动才能站在人工智能发展的前沿。这三个目标被定义为:I)增加对人工智能的财政支持,并鼓励公共和私营部门采用;ii)为人工智能带来的社会经济变化做好准备 iii)确保与人工智能相关的适当的道德和法律框架。

继续阅读……

值得注意的

  • 1984 年中情局关于人工智能
    阅读了中情局 1984 年解密的备忘录,其中一个“人工智能指导小组”(成立于 1983 年)向中情局主席通报了人工智能以及它是什么。阅读更多…
  • 自动化就绪指数自动化系统的日益复杂将对工作和就业产生深远的影响,政府应该为剧变做好准备。由经济学人信息部创建并由 ABB 赞助的自动化就绪指数评估了 25 个国家对智能自动化的挑战和机遇的准备程度。韩国在该指数中拔得头筹,在每个政策领域都得分很高,其次是德国和新加坡。阅读更多…
  • Comet . ml
    Comet声称他们希望为 AI 做 GitHub 为软件做的事情:允许数据科学团队自动跟踪他们的数据集、模型变化和实验历史,从而允许项目和方法的效率、透明度和可重复性。阅读更多…

宝马机器学习周刊—第 9 周

原文:https://towardsdatascience.com/bmw-machine-learning-weekly-week-9-d996c486dbb?source=collection_archive---------8-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2018 年 4 月 26 日至 5 月 2 日

关于机器学习(ML)、人工智能(AI)及相关研究领域的新闻。

奥特雷戈计划:半机械人

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通过与它们交谈来控制你的小工具是如此的 2018。将来,你甚至不用动嘴唇。一个名为 AlterEgo 的原型设备,由 23 岁的麻省理工学院媒体实验室研究生 Arnav Kapur 创造,已经使这成为可能。有了卡普尔的设备——一个 3d 打印的塑料小东西,看起来有点像一只瘦瘦的白香蕉,附在他的头上——他可以浏览电视频道,改变灯泡的颜色,下专家象棋,解决复杂的算术问题,以及点披萨,所有这些都不用说一句话或动一根手指。“我确实觉得自己像个半机械人,但这是最好的感觉,”他谈到自己对这款设备的体验时说,这款设备是他去年作为研究项目制造的。当我们安静地阅读或自言自语时,AlterEgo 会接收到我们面部和颈部肌肉的微小运动产生的微小电信号。Kapur 将 AlterEgo 视为一种对源于人工智能的日益增长的焦虑的解毒剂:他的设备显示了人工智能如何帮助增强而不是取代人类。

继续阅读……

无人驾驶汽车中的晕动病

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

尽管无人驾驶汽车还没有那么普遍,但它们正在走向消费者用途,谷歌(Google)旗下的 Waymo 等公司正在公共道路上测试它们。这些汽车很可能会加剧晕动病的问题,这是由于一个人的眼睛和内耳向大脑发出相互矛盾的信号:耳朵检测到汽车的运动,但眼睛看到的是内部静止的环境。一家名为 ClearMotion 的初创公司是世界上第一个主动驾驶系统,它改变了你的汽车的驾驶和操控方式:它对运动的影响就像降噪对噪音的影响一样,在几分之一秒内减轻了道路的粗糙度。依靠软件和硬件的结合,ClearMotion 预测道路并使汽车做出反应,为乘客和司机提供无与伦比的舒适性、操控性和稳定性。

继续阅读……

使用无人机和人工智能修复中国的长城

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

中国墙的许多部分位于偏远或难以到达的地区,有些已经年久失修。麻省理工学院技术评论报道称,英特尔和中国文化遗产保护基金会已经合作部署无人机来扫描和捕捉该建筑的 3d 图像。在北京北部的山区,将建立一个有近 700 年历史的箭扣长城的详细模型,用于确定最需要修复的部分。无人驾驶飞机的使用尤其有助于在建口段等地区进行定期维护和检查,这是一个众所周知的陡峭和植被茂密的地区。

继续阅读……

值得注意的

  • 数据集数据表
    微软发表了一篇论文建议数据集数据表。目前,还没有标准的方法来确定数据集是如何创建的,以及它代表了什么特征、动机和潜在的偏差。数据表应该是一个简短的文档,附带公共数据集、商业 API 和预训练模型。目标是使数据集创建者和用户之间能够更好地沟通,并帮助人工智能社区走向更大的透明度和问责制。阅读更多…
  • 谷歌的第一个虚拟现实涂鸦
    今天访问谷歌主页,你会发现一个不寻常的涂鸦,画的是一个穿着朴素西装的瘦子。点击后,你会看到一个 YouTube 播放器,在一个精彩的 360 度动画短片中,这个古怪的人物——法国电影制作人乔治·梅里爱——和他的创作栩栩如生。阅读更多…
  • 人工智能作曲的交响乐
    使用基于 30000 个乐谱的算法组合,世界上第一部人工智能作曲的交响乐诞生了(正如国家声称的那样),名为迪拜颂阅读更多…

宝马机器学习周刊—第 10 周

原文:https://towardsdatascience.com/bmw-machine-learning-weekly-week10-d3823170cf5?source=collection_archive---------13-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2018 年 5 月 3 日至 5 月 23 日

关于机器学习(ML)、人工智能(AI)及相关研究领域的新闻。

机器人奶牛模拟跟踪技术的未来

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

三头难以分辨的电子奶牛第一次尝试一种叫做 EmbediVet 的设备,这种设备是由一家名为家畜实验室的初创公司发明的。植入奶牛体内的追踪器使用低能量蓝牙连接附近的基站,并传输关于奶牛咀嚼频率、温度和在农场漫步的信息。目前,他们只是过着正常的生活,无意中提供数据来训练人工神经网络。希望在不久的将来,这种人工智能将帮助农民快速轻松地了解奶牛和其他牲畜的饮食状况,它们是否生病或即将分娩——这些事情在今天通常只是通过观察和等待来完成,但当你有数百或数千只动物需要关注时,很难发现。家畜实验室声称,植入的 EmbediVet 对牛来说没有可穿戴的那么烦人,并且可能是一种更强大的收集有用数据和随着时间的推移发现牛行为模式的方法。家畜实验室的首席执行官 Tim Cannon 从来没有打算为奶牛制作一个嵌入式 Fitbit。他真正想要的是用同样的技术重新设计自己,以及任何想这样做的人。

继续阅读……

改进聊天机器人技术

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

人工智能初创公司 Gamalon 开发了一种聪明的新方法,让聊天机器人和虚拟助理与我们交谈。Gamalon 采用让人工智能接受不确定性和模糊性的方法,可能会矛盾地帮助未来的虚拟助手减少困惑。他们的方法通过提供一种处理话语可能传达的多重含义的方式,让计算机进行更有意义和更连贯的对话。如果一个人说了或输入了一些含糊不清的话,系统会对最可能的意思做出判断。今天的虚拟助手和聊天机器人通常遵循简单的规则来回答问题,而 Gamalon 的方法将概率技术添加到统计 ML 中,合成自动处理概率的程序。在实践中,这意味着系统可以通过对某人的意思做出最佳猜测来处理不确定性。这种方法让机器从更少量的数据中学习,降低了出错率。另一个关于聊天机器人的人工智能进步是来自康乃尔大学、谷歌拼图和维基媒体的研究,他们开发了一种软件,帮助计算机在争论发生前发现在线争论

继续阅读……

类似大脑的全球定位系统

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Alphabet 旗下的英国公司 DeepMind 创建了一个神经网络,模仿人类大脑中的网格细胞,帮助我们知道自己在哪里。DeepMind 的研究人员开始训练一个人工神经网络来模仿路径整合,这是一种动物用来计算它们在空间中运动的方法。该小组发现,神经网络发展出了类似于生物大脑中发现的“网格细胞”的东西。这些细胞排列成三角形网格,似乎为动物提供了一种在物理空间中定位的方式。然后,他们使用经过训练的网络,通过在他们的方法中添加强化学习来导航通过不熟悉的迷宫。他们发现,新训练的网络可以比以前的任何人工智能系统更有效地导航,并且它更像真正的动物一样探索空间。

继续阅读……

区块链&汽车行业

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

宝马新闻:
Business Insider 报道,宝马、通用、雷诺和福特已经达成协议,成立移动开放区块链倡议(MOBI),这是一个将探索区块链技术在汽车和移动行业中的应用的财团。区块链是一种数学结构,以几乎不可能伪造的方式存储数据。它可以用于各种有价值的数据。显然,除了探索区块链用例之外,MOBI 还打算制定通用标准和应用编程接口(API)。虽然这些公司没有具体说明他们计划探索的任何用例,但他们可以追求几种可能性。区块链是一种分布式、不可变的账本,早期回报表明,它非常适合在两方或多方之间安全地转移资金和信息,这是当今行业中相对常见的做法。

继续阅读……

值得注意的

  • 婴儿翻译器
    Chatterbaby 是一款分析声音与沉默比率的频率和模式变化的应用程序,可以告诉父母他们的孩子为什么会哭。目前,这款应用的词汇非常有限(它可以区分饥饿、烦躁和痛苦)。然而,Chatterbaby 不仅仅是一个旨在帮助父母的 app。这也是一个大规模的数据收集工具,用来观察哭泣模式的不规则性是否可能携带自闭症的信号——也许有一天,可以诊断出自闭症。阅读更多…
  • 表情符号寻宝游戏
    谷歌的表情符号寻宝游戏为表情符号的众多含义又增加了一个:玩 ML 的一种方式。一个表情符号出现了,你可以用手机的摄像头实时搜索它的例子。通常,利用神经网络需要连接到一组巨大的远程云服务器。但是,所有计算都直接在设备上进行,而不是连接到远程服务器群。表情符号寻宝游戏背后的人坚持认为这个游戏没有保存它拍摄的任何照片,并邀请人们在 GitHub 上查看他们的开源代码阅读更多…
  • 在未能与宝马和梅赛德斯-奔驰达成交易后,这家科技巨头与大众签署了一项协议,将汽车制造商的一些新 T6 运输车改造成苹果的自动驾驶员工班车——三位知情人士表示,该项目落后于计划,几乎占据了苹果汽车团队的全部注意力。阅读更多……

沸腾愚蠢创业想法的海洋

原文:https://towardsdatascience.com/boiling-the-ocean-of-dumb-startup-ideas-c5c7eef562da?source=collection_archive---------8-----------------------

当我和亚历克斯·黑格(Alex Hague)第一次制作讽刺派对游戏 的原型时,我们将一份公司名称的电子表格放在一张我们最终称之为“推介卡”的列表旁——市场或人口统计数据,或者只是我们可以与公司卡配对的愚蠢想法。

接下来,我制作了另一个标签,随机将公司与另一组随机创意配对,看看这些配对是否有趣:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

An early spreadsheet we used for prototyping whether this game would be funny

从本质上来说,并不是所有的方法都有效,但是足够了,我们知道这是有意义的。(我们如何决定哪些公司和想法最终入选游戏是一个单独的帖子,我们总有一天会看到;TL;博士基本上是“像脸书和谷歌这样的公司太普通了,不能拿来开玩笑,非常广泛或非常具体的基于人口统计的推介卡效果最好。”)

两年后, Pitch Deck 现已发货给我们所有的 1,889 名 Kickstarter 支持者在亚马逊上表现良好,获得所有 5 星评价。我们甚至刚刚得到了我们第一个友好的本地游戏商店的聚光灯视频,来自丧魂之钟

网站的事做得太过分了

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

当我们开始零售游戏时,我们也在准备推出我们的网站 pitchdeck.business ,我想知道为每一种可能的卡片组合建立一个页面会是什么样子。在游戏的零售版本中,大约有 31,500 双。一个很大的数字,但不是大到你不能暴力破解。

大约在那个时候,我的好友兼 Y Combinator 合伙人 T21 问我我们的搜索引擎优化策略是什么。我回答说“没有,这是一个纸牌游戏,希望人们和他们的朋友一起玩,玩得开心,我们从中获得一些好口碑”。

制作一款卡牌游戏之所以有趣,部分原因是它们有一种内在的病毒性质(也称为 K 因素),人们会如何听说它们。因为游戏必须多人玩,每个副本代表一个可能的粉丝群体。如果游戏足够有趣,一些新玩家会买一个拷贝。这是一个良性循环。

事实上,我们经常听到 Pitch Deck 的粉丝说,他们在和朋友玩游戏的过程中通过手机购买了他们的副本。你可以把它想象成一种轻量级的网络效应:游戏每增加一个副本,并没有增加单个副本的整体价值,而是增加了更多朋友购买游戏的概率。

但是 Gustaf 的问题让我想知道这种每对一页的方法是否可能是一种颠覆性但精明的 SEO 策略——如果每对卡片都有一个被谷歌索引的 URL,那么任何时候有人查询[AirBnB for Fish](http://pitchdeck.business/airbnb-for-fish)我们都有机会在结果中显示出来。

如果有人无礼地用谷歌搜索一家公司的创意,而这家公司恰好在我们的游戏中,那么,他们可能也有兴趣购买一份。至少,如果你在谷歌上搜索[Arby’s for Nonsexual glory holes](http://pitchdeck.business/arby-s-for-nonsexual-glory-holes),你很有可能会喜欢玩 Pitch Deck。

我还意识到,如果我们启用一些基本的分析和谷歌的搜索控制台,我们可以一窥人们最感兴趣的卡片。最受欢迎的网址反映了一种网络身份,就像我们在纸牌游戏中看到的那样。谷歌的搜索控制台可以让我们深入了解用户为了访问我们的网站而输入的关键词。

有时,当你试图建造一些简单的东西,但无法抗拒过度,这被称为“沸腾的海洋”。这就是这个想法的基本内容(我的意思是谁真的需要一个 Ruby on Rails 应用程序来玩纸牌游戏?!)但是一旦脑子里有了这个想法,我就忍不住了。

它活着

几个星期后,我已经把这个网站建成了一个基本的 Rails 应用程序,并为它植入了整个游戏。每张公司卡都有自己的页面,所有的 31500 种配对组合每张宣传卡,以及每张标签

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Google now knows about 34k+ URLs tied to our card game.

整个网站现在已经被谷歌搜索机器人索引,经过大约一个月的适度流量,我们已经收集了足够的数据来得出一些有趣的趋势。

但是在我继续说下去之前,先来个剧透和内容警告:事实证明,网络上最流行的宣传配对是性配对。他们一直都是。

反人类实验室的卡牌也是如此: Max Temkin 告诉我,他们实验室里做得最好的卡牌总是那些淘气的。在像我们这样的游戏中,这是一个有趣的偏见,因为它不会亲自出场;可能的解释是,当人们独自坐在电脑前时,他们更倾向于选择淫秽的纸牌配对,但当他们被要求与朋友一起玩时,他们会变得低调。

事实证明,人们发现 CAH 网站也有类似愚蠢的搜索词——是 Max 发给我的列表中最没有攻击性的一个。

免费独角兽公司的想法

宣传资料可能会被解读为一种愚蠢的方式,用来判断对一个优秀公司创意的需求。如果很多人都在寻找同一个想法,这显然意味着对它有某种兴趣。

到目前为止,我看到的最可行的方法是什么?[Netflix for VR Porn](http://pitchdeck.business/netflix-for-vr-porn)。我们暂时是这次搜索的第三个结果,但是在大量关于这个话题的炒作新闻中,这个页面似乎已经明显下降了。可能是因为我们不提供 VR 色情租赁网站。但是,嘿,这似乎是一个…值得追逐的肥沃市场。

另一个热门搜索导致人们投甲板?3d printed fleshlight。我们的网页“3D 打印情趣用品Fleshlight”现在在搜索中排名第四。虽然这可能不是最有利可图的商业想法(事实上,这可能是一个可怕的想法——人们搜索这个的确切原因是因为他们不想为真正的肉体之光付费),但它让人们看到了未来人们真正想用他们的 3D 打印机做什么,那就是用 ABS 塑料制造生殖器。

不幸的是,这种想法也凸显了人们经常在谷歌中输入的一些更黑暗的术语。最令人不安的是:Pornhub for kids的变体。现在我假设这不是给孩子的 Pornhub ,而是给孩子的 Pornhub 。发现这一点真的令人不安,它提醒我们人们仍然在网上寻找各种各样的东西。我已经从谷歌上取消了这个和一些其他页面的索引(例如“儿童监狱的 PornHub”),所以希望我们将不再出现在这些结果中。不寒而栗。

我要留着[Farmersonly for VR porn](http://pitchdeck.business/farmersonly-for-vr-porn)

我最喜欢的另一个数据集是人们偶然发现的页面列表。以下是通过我们的谷歌搜索控制台获得的热门搜索结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我特别喜欢[PornHub for imposter syndrome](https://www.google.com/search?q=PornHub+for+imposter+syndrome&rlz=1C5CHFA_enUS719US719&oq=PornHub+for+imposter+syndrome&aqs=chrome..69i57.217j0j7&sourceid=chrome&ie=UTF-8),我们目前在谷歌上占据第一、第二和第三的位置。我不知道这是恋物癖还是什么,但我很感兴趣。

搜索Did Hitler kill Tesla的人似乎会以“特斯拉为结局,因为他回到过去杀死了希特勒

至少有一个人点击了我们的页面[soylent farts](http://pitchdeck.business/soylent-for-farts),结果是一个相当好理解的问题。三个人搜索donald trump snuggie,其中一个点了。Martha Stewart 在这个数据中也出奇地受欢迎,并出现在各种搜索中:[egg salad martha stewart](http://pitchdeck.business/martha-stewart-living-omnimedia-for-egg-salad)[martha stewart illuminati](http://pitchdeck.business/martha-stewart-living-omnimedia-for-the-illuminati)[martha stewart racist](http://pitchdeck.business/martha-stewart-living-omnimedia-for-racist-news)[martha stewart college](http://pitchdeck.business/martha-stewart-living-omnimedia-for-humanities-majors) 都出现了。

我们没有预料到的最后一个转折是:人们经常搜索 Kickstarter 等公司的实际演示文稿(例如,PowerPoint 演示文稿)。

到目前为止,Yelp 以两次点击和几十次展示在该领域领先,但也很受欢迎的是venmo pitch deckrent the runway pitch decksnapchat pitch deck

值得一提的是一个数据解释警告:由于组成 Pitch Deck 的内容并不能代表所有内容(这是一个基于我们对特定主题的幽默感的讽刺性纸牌游戏),因此不可能真正得出任何有意义的结论。这只是对人们在谷歌上搜索什么的一种有趣、怪异和略带沮丧的窥视。

但是,如果你读到这里,你可能会想知道这些流量是否导致了游戏的销售。答案是,不幸的是,我们真的不知道。

我们大概知道有多少人通过我们的网站从哪些页面进入亚马逊,但实际上我们不知道更多。当谈到理解将人们引向你的清单的数据时,亚马逊是一个真正的黑匣子。我可能还需要做更多的工作来弄清真相,但事实是,我更喜欢这些数据的副作用,而不是任何旨在推动大量销售的东西。

最后,如果你对这种搜索趋势分析感兴趣,可以看看 Seth Stephens-Davidowitz 的文章。他写了一些伟大的工作,使用谷歌搜索趋势分析人们的焦虑人们如何搜索性我们实际上有多种族主义

Bonsai AI:使用 Simulink 进行深度强化学习

原文:https://towardsdatascience.com/bonsai-ai-using-simulink-for-deep-reinforcement-learning-32dc11dfdc5a?source=collection_archive---------2-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是我们的模拟和深度强化学习(DRL)系列的第二篇文章。在我们的第一篇文章中,我们介绍了模拟作为 DRL 训练环境的好处。现在,我们将重点放在如何使模拟+ DRL 工作。

在下面的例子中,我们将使用 Simulink 模型训练盆景大脑。目标是教会大脑(Bonsai 平台中内置的人工智能模型)如何调整风力涡轮机,并通过保持风力涡轮机以最佳角度转向风来最大化其能量输出。

Simulink 为 DRL 提供了一个很好的培训环境,因为它允许 Bonsai 等第三方从外部集成和控制仿真模型。这种能力是仿真平台使用 Bonsai AI 进行深度强化学习可行的基本要求之一。更多需求可以在这里找到。

1:仿真模型

这个 Simulink 风力涡轮机模型是由 MathWorks 提供的。对于这种情况,它代表了一个简单的控制问题,可以通过应用强化学习来解决。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Matlab/Simulink Wind Turbine model used for training

2:识别动作和状态

首先,我们需要在模型中确定一个控制点,这样 Bonsai 就可以接管输入和输出。我们通过在模型中插入一个 Bonsai 块来代替现有的控制块。

  • 正如在第一篇文章中所讨论的,Bonsai 控制模拟模型中的动作,并接收状态和回报。在运行模型大量次之后,Bonsai 大脑已经学习了针对模拟所提供的环境的最优策略。
  • 在这个例子中,Bonsai 块代替了涡轮机的偏航控制器。
  • 控件可能有各种形状和结构。它们可以是输入、旋钮、开关或具有输入和输出的仿真模型中的任何其他控制点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

‍ Bonsai control block inserted in Matlab/Simulink model

3:使用 Bonsai 通用协调器连接 Simulink 模型

4:暗示

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Bonsai Web Interface showing Inkling code describing State and Action and curriculum

5:培训

  • 现在,您可以开始训练模型并监控训练图。
  • ‍During 训练,用户可能需要修改奖励函数,以优化学习时间和结果。关于编写奖励函数的一个很棒的资源可以在这里找到:盆景训练视频
  • 了解更多关于训练图表的信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Bonsai BRAIN details showing training graph and status

6:预测

一旦训练完成,你可以使用经过训练的盆景大脑来获得预测。

  • 将 Bonsai 大脑连接到您的模拟模型,并检查预测的质量。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Simulator view of Yaw Angle based on Bonsai BRAIN predictions

结论

模拟器是强化学习的重要工具。企业可以使用反映真实世界业务流程或物理现实的模拟模型,并通过 Bonsai 的强化学习技术对其进行优化。通常,不需要对模拟模型进行任何更改。如果你错过了我们关于模拟如何用于训练的第一篇文章,请在我们的博客上找到它。

入门

Bonsai 可以帮助您应用深度强化学习技术,并使用 Simulink 作为培训环境,将智能控制构建到您自己的工业系统中。如果你正在使用 Simulink,并且你想尝试 Bonsai AI,请加入我们的测试程序,从这里开始。

书评:商业数据科学

原文:https://towardsdatascience.com/book-review-data-science-for-business-bfb980495288?source=collection_archive---------6-----------------------

在我找工作的过程中,我遇到了一些招聘人员,他们有能力招聘数据科学家。然而,当我与他们交谈时,他们首先诚实地问的一件事是“什么是数据科学?”我刚刚读完福斯特·普罗沃斯特和汤姆·福塞特合著的《商业数据科学》。我计划向任何需要与/雇佣/管理数据科学家一起工作,但不太了解他们做什么的人推荐这本书。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这本书涵盖了你对数据科学入门书籍的所有期望:各种建模技术(线性方法、支持向量机、决策树、knn)、监督与非监督学习、模型评估等等。这本书有一点数学,但没有代码,因为重点是帮助读者进行分析性思考,而不是培养读者成为一名实践者。它有几个相关的商业问题来说明技术/哲学的应用。贯穿全书的一个场景是,你是一家大型电信公司的一员,你必须想办法通过广告活动留住现有客户。

作为一个刚刚完成大会关于如何成为一名优秀的数据科学从业者的课程的人,有两个概念引起了我的注意:

  1. **期望值框架:**在分类问题中,我们学习了如何评估模型是否良好的各种指标:准确性、roc-auc、敏感性、特异性……我在课程中没有遇到的一种方法是期望值:

Expected Profit = p(True Positive)b(True Positive) + p(False Positive)b(False Positive) + p(True Negative)b(True Negative) + p(False Negative)b(False Negative)

在通过期望值框架评估分类模型时,你取混淆矩阵的每个单元的概率,乘以该单元的收益,并对结果求和。例如,如果通过添加活动保留的客户的真实正比率为 0.9,保留该客户的收益为 100 美元,则该给定单元的预期利润为 90 美元。

这种评估框架存在一些缺陷,主要是在一些预测问题中,没有一种明确的方法来评估模型的成本和收益。然而,我认为将一个模型转化为预期利润是利益相关者可以明确认同的事情。

**2。数据科学更像研发而不是软件工程:**许多数据科学家的工作描述要求熟悉敏捷和其他软件工程框架。这是有道理的,因为许多数据科学家都被科技公司聘用,但这让我相信,数据科学家可能也会受到同样的管理。

作者提出了一个很好的观点,即并非所有数据科学的努力都会有回报。一部分是运气,因为有一个很容易预测的问题。其他时候,数据只是说没有。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

不仅拥有知道如何有效使用数据科学工具的从业者至关重要,而且拥有直觉知道哪些项目可能会有回报的从业者和管理者也很重要。

不可能期望每个与数据科学家一起工作/管理/雇佣数据科学家的人都成为数据科学专家。然而,对于数据科学家做什么以及他们给组织增加什么价值,应该有一个基本的了解。商业数据科学对于任何想要获得这种知识的人来说都是一个很好的开始。

书评:摧毁数学的武器(凯西·奥尼尔)

原文:https://towardsdatascience.com/book-review-weapons-of-math-destruction-cathy-oneil-a6546cc6ee91?source=collection_archive---------3-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这篇文章标志着我第一次试图强迫自己更好地理解我读过的书。以前,我发现自己读了一本书又一本书,却无法回忆起以前学过的重要的东西。

老实说,这很令人沮丧。

所以我尝试用这种方式来推动自己理解这本书,并综合这本书传达的各种概念和想法。

免责声明:我的评论不会试图保持中立或无偏见——因为我觉得我试图写这样一篇博文的任何尝试都会导致枯燥乏味的结果。

我猜你可能会说,这可能是一个咆哮,而不是审查。

继续前进。

我在四月份的时候从亚马逊上买了这本书,它已经在书架上放了一段时间了,因为那时我正在看另一本书。大纲相当有趣,因为它从第一人称的角度强调了大数据实施的陷阱。我不会说我迷上了它的前提(因此我没有立即读它),但我很好奇作者在想什么。

作者凯茜·奥尼尔;她自己是一名数据科学家。这本书的封面上有一些对她的描述:

她获得了哈佛大学的数学博士学位,并在巴纳德学院任教,之后进入私营部门,为对冲基金 D. E. Shaw 工作。然后,她在多家初创公司担任数据科学家,建立预测人们购买和点击的模型。奥尼尔在哥伦比亚大学启动了数据新闻的 Lede 项目,并且是《做数据科学》的作者。她每周出现在 Slate 播客上

这本书一开始,作者讲述了她从学术界到 D.E .肖的经历,让读者充满了她对能够实践自己擅长的事情感到兴奋的故事。直到 2008 年的大金融危机,她才终于明白对冲基金,比如她工作的那家基金,是如何对破坏人们生活的结果负部分责任的。

她最终离开了公司,加入了一家为银行做风险评估的公司。毕竟,如果说监管不力是导致 2008 年崩盘的管理不善的罪魁祸首;那么评估未来交易的风险肯定会让世界变得更美好。

然而事情并没有变得那么好,因为她觉得这个行业只是在做一个橡皮图章生意。她在这些公司和其他公司的经历让她对大数据是如何被实施和滥用来优化盈利能力而无视伦理和道德问题的幻想破灭了。

本书的 2/3 讨论了在现实生活环境中部署的算法的各种例子,这些例子产生了意想不到的后果,影响了人们的生活,因为在开始时缺乏远见。

其中一个例子讲述了美国新闻创建的大学排名系统是如何开始军备竞赛的;在试图爬上排名系统的阶梯时,我们只是优化了算法所使用的确切特征(如学术引用)(嘿,现在…那不会让你想起家乡的事情吗…).然而,该系统未能在其算法中包括的是诸如学杂费等项目。这基本上给了私人实体提高学费的所有动机,并将其用于将使他们排名更高的事情上——所有这些虽然可能有助于为学生提供更好的学习环境,但也会在毕业时给他们带来沉重的债务负担。

作者称它们(模型)为数学毁灭武器(WMD)——就我所能回忆起的算法/模型而言:

  1. 拥有庞大的目标受众
  2. 不应用反馈循环来使用未来结果自我修正
  3. 使用各种代理来说明预测结果,这在某些情况下可能是歧视性的。
  4. 对观众来说是不透明的

这本书有这些大规模杀伤性武器的各种例子。以至于在我阅读的时候,我真的有跳过几章只看结论的冲动。但是咳咳沉没成本再次占了上风。虽然一段时间后它确实变干了,但它确实证明了没有第二项而用上面列表中的第三项填充的模型会遭受建模者或整个社会的偏见。更糟糕的是,它将如何再次强化社会的“世界观”。

因此,在为预测高利贷者的目标而创建的假设模型的情况下——低收入的人,大多数是黑人,住在某个街区;被一次又一次地掠夺,从而确保他们永远无法摆脱困境。他们现在是他们处境的受害者。

对我来说,这就是整本书的全部内容。证明这些大规模杀伤性武器的存在,并部署在我们日常生活中的各种机构。

那么,我们该如何处理这些大规模杀伤性武器呢?

  1. 对于在非商业环境中使用的模型,她建议在提出用于制作预测模型的特征时应更好地考虑。虽然删除它们可能会导致模型的准确性得分较低,但她认为,与社会中存在的偏见相比,较低的准确性得分更好地反映了模型的表现。
  2. 公众对模型的监督。
  3. 监管,如欧洲正在使用的监管,在公司可以将他们的数据用于其他目的之前,客户必须选择加入。
  4. 模型对公众的透明度。

我的看法

对大数据的伦理关注并不新鲜。但是通常道德规范被强调的角度(至少在我的经验中)更多的是关于透明度和保密性。我发现关于偏见和自我强化偏见的角度非常有趣,因为它确实对模型的受害者产生了更广泛和持续的影响。根据我以前的经验,修改你的模型总是为了确保你的模型不会过时——因为市场趋势会变化,你的模型必须根据这些变化进行调整。我想现在我有了更新模型的新动力。

我也想知道在这些情况下是否应该使用探索-利用策略(来自强化学习)。这意味着,我们应该让我们的模型产生一些错误,并观察结果是否会加强偏差。这将允许我们继续使用现有的(充满偏见的)特征,但如果结果显示不是这样,就要修正我们模型的假设。

本帖首发于我的个人博客,http://www . hafidzzulkifli . com/2017/07/book-review-weapons-of-math-destruction . html

书评:安德鲁·g·普萨尔蒂斯的《流式数据》

原文:https://towardsdatascience.com/bookreview-streaming-data-by-andrew-g-psaltis-79154c4cf724?source=collection_archive---------21-----------------------

流处理近年来,由于需要更快地处理(大)数据,系统在行业中不断受到关注和采用。为了实现这一点,对一系列数字信号,即所谓的数据流进行处理和分析,以产生(接近)实时的洞察。Andrew Psaltis 所著的《流数据》一书收集了设计和实现端到端系统的最佳实践。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Enns.join(Steyr)

这篇评论主要作为书中内容的个人参考。但我会很高兴,如果这本书对其他人也有用,也许会激励一个或另一个人购买和深入阅读这本书。它的结构是内容的总结,接着是我个人对这本书的看法,最后是一些关键的收获。

这本书的内容被分解成一个数据流系统的主要层。然后,通过一个动手的 pet 项目来完成,该项目的目标是构建一个系统,该系统可以实时分析 Meetup-RSVP。

集合层

这一章是关于常见的交互模式和容错。 Andrew Psaltis 深入描述了以下交互模式,并将其应用于各种用例:

  • 请求/响应
  • 发布/订阅
  • 单向模式
  • 请求/确认
  • 流型

不出所料,重点特别放在了流模式上,它颠覆了客户端与服务交互的常规设置。在这里,服务成为客户机并连接到流源(而不是在其他模式中客户机向服务发出请求)。此外,这些不同类型的交互模式的扩展概念也在书中进行了阐述。

在通用的容错技术部分,介绍了消息记录的三种变体:基于接收者的基于发送者的混合。在第一种情况下,在对每条接收到的消息采取任何操作之前,它们都被保存在磁盘上。相反,基于发送方的消息日志记录在消息发送之前将其写入存储。混合消息日志旨在提供两种方法的最佳效果,但与两种技术都用于保护系统数据不丢失并使其可恢复的情况相比,它简化了数据流。基本上,这种方法所做的是一收到消息就将它记录在稳定的存储器上,类似于基于接收者的方法,但是是异步的。与基于发送方的消息记录器类似,只有当消息队列层的确认到达时,该日志才会被删除。Andrew Psaltis 认为,只要有可能,就应该实施这种方法,因为它保留了容错性和安全性,而没有设置两个单独的消息记录器的开销,每个记录器都有一个持久存储。

消息队列层

关于消息队列的章节首先介绍了三个主要组件:生产者代理消费者。它是技术不可知的,因此所解释的原理可以应用于该领域的各种产品(例如 RabbitMQZeroMQKafka )。

重要的是消息传递语义的引入(对于下面的分析层也是如此):

  • 最多一次 —消息可能会丢失,但不会被处理超过一次
  • 至少一次 —消息不会丢失,但可能会被处理多次
  • 恰好一次 —消息不会丢失,并且只处理一次

安全也是本章的一个关注点,但不幸的是,如何实现它实际上只是作为进一步阅读的参考。容错也是一个大话题,在设计消息队列解决方案时,您应该回答一系列类似清单的问题。

分析层

关于这一层的内容实际上分为两个独立的章节。第一个引入分布式流处理架构和框架,将其转化为行动。第二个是关于流分析的算法。

现在所有分布式流处理系统都由三部分组成:

  • 一个管理组件,它分发提交的应用程序
  • 集群中执行算法的工作节点
  • 数据源,作为算法工作的输入

讨论用于这一层的框架是 Spark StreamingStormFlinkSamza消息交付语义状态管理容错,每一个都与分析层相关,是进一步的主题。

对于流数据的算法处理,时间是一个最重要的概念。需要区分事件时间(事件实际发生时)和流时间(事件数据进入系统时)。由于流本质上永远不会结束,它们不能保存在内存中进行分析,就像传统的批处理一样。为了克服这个问题,引入了窗口的概念(在其上执行计算的定义量的流数据)。有两种开窗技术:

  • 滑动窗口 —由窗口长度和滑动间隔定义
  • 滚动窗口带有基于计数的基于时间的触发策略

由于摘要是分析的核心,所以最后介绍与流处理相关的各种技术。

内存中数据存储

本章是关于存储之前收集和处理的数据。长期存储选项只是浅尝辄止,详细介绍内存解决方案(嵌入式内存缓存系统)。需要区分使用磁盘优先方法构建的系统(提供内存中选项的传统数据库)和内存优先设计的内存中数据库【IMDB】。选择哪种产品在很大程度上取决于具体的使用情况,但遵循后一种方法的产品通常最适合快速流解决方案。

数据访问层

构建最后一层是为了让客户端可以访问数据,主要是通过 API。有四种主要模式可以实现这一目的,本章将对此进行讨论:

  • 数据同步
  • 远程方法调用【RMI】/远程过程调用【RPC】
  • 信息传递
  • 发布/订阅

详细讨论了构建流式 API 的常用协议。分别是 WebhooksHTTP 长轮询服务器发送事件WebSockets 。它们还在通信方向和不同因素(如频率、延迟、效率或可靠性)方面进行比较。

最后,讨论了减少流式客户端感兴趣的事件数量的过滤类型。尽管大多数过滤方法都应参与分析层,但也有一些消费者特定的使用案例,其中数据访问层中的过滤是有意义的(例如基于地理位置的过滤器)。基本上,系统最后一层中的静态- (预定义决策)与动态过滤(运行时决策)的优缺点是相互比较的。

个人评论

总的来说,我真的很喜欢读这本书。它有高质量的结构良好的内容。复杂的概念以一种易于理解的方式被分解。就我个人而言,文本中有太多的图表,这有时会妨碍流畅的阅读,尤其是当图表是多余的时候(例如,具有基础层架构的图表在每章中被绘制多次)。我发现文中对书籍或文章的引用非常有用,而且组织得很好。经常出现的优点和缺点列表也非常有用。浏览一下比较表是快速了解各种方法或技术差异的一个很好的方式。

我唯一不太满意的部分是关于分析层的部分(这有点令人难过,因为我最初买这本书是为了了解这个主题)。核心概念描述得很好,但我期待更多的细节和至少一些关于流分析算法实际实现的内容。框架的比较很好,但是我遗漏了一些代码片段(例如,每个框架的简短 hello-world)。特别是因为分析层部分也只是松散地包含在最后一章的 pet 项目中。

由于我不是 Java 人士(Scala & Python FTW),我不是评判最终项目的合适人选。无论如何,这个项目的范围和领域是个不错的选择。它的核心代码逻辑很容易理解,对于那些不熟悉 Java 的人来说也是如此。

关键要点

  • 对于当今的流数据系统,没有适合所有人的解决方案。每一种相关的技术都有优点和缺点。选择最适合您特定使用情形的产品。
  • 这本书是一个很好的提醒,尽可能应用接吻原则。您添加的每个不必要的功能都是系统的潜在故障点。
  • 对于流分析来说,的时间概念非常重要。
  • 批处理模式下的简单分析任务(如计数)在流式系统中变得非常复杂。
  • 持久层中的产品功能在不断改进,不同方法之间的界限正在变得模糊(远远超过 SQL 和 NoSQL 二分法)。

提升您的数据科学技能。学习线性代数。

原文:https://towardsdatascience.com/boost-your-data-sciences-skills-learn-linear-algebra-2c30fdd008cf?source=collection_archive---------5-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我想介绍一系列博客帖子和他们相应的 Python 笔记本,收集了伊恩·古德费勒、约舒阿·本吉奥和亚伦·库维尔(2016 年)关于深度学习书籍的笔记。这些笔记本的目的是帮助初学者/高级初学者掌握深度学习和机器学习背后的线性代数概念。获得这些技能可以提高您理解和应用各种数据科学算法的能力。在我看来,它是机器学习、深度学习和数据科学的基石之一。

这些笔记涵盖了线性代数的第二章。我喜欢这一章,因为它给人一种在机器学习和深度学习领域最常用的感觉。因此,对于任何想要深入学习并获得线性代数概念的人来说,这是一个很好的教学大纲,有助于更好地理解深度学习算法。

你可以在 Github 上找到所有的笔记本,在我的博客上可以找到这篇文章的一个版本。

线性代数入门

本系列的目标是为希望理解足够的线性代数以适应机器学习和深度学习的初学者提供内容。不过我觉得深度学习书中关于线性代数的章节对初学者来说有点难。所以我决定在这一章的每一部分制作代码、示例和绘图,以便添加对初学者来说可能不明显的步骤。我也认为你可以通过例子传达比一般定义更多的信息和知识。插图是看到一个想法的全貌的一种方式。最后,我认为编码是一个很好的工具来具体实验这些抽象的数学概念。除了纸和笔,它还增加了一层你可以尝试通过新的视野来推动你的理解的东西。

编码是具体实验抽象数学概念的伟大工具

图形表示对理解线性代数也很有帮助。我试图将概念与情节(以及产生情节的代码)结合起来。做这个系列时,我最喜欢的表现形式是,你可以把任何矩阵看作空间的线性变换。在几章中,我们将扩展这一思想,看看它如何有助于理解特征分解,奇异值分解(SVD)或主成分分析(PCA)。

Python/Numpy 的使用

另外,我注意到,创建和阅读实例对理解理论真的很有帮助。这就是我创建 Python 笔记本的原因。目标是双重的:

1.提供一个使用 Python/Numpy 应用线性代数概念的起点。由于最终目标是将线性代数概念用于数据科学,因此在理论和代码之间不断转换似乎是很自然的。您所需要的只是一个带有主要数学函数库的 Python 安装,比如 Numpy/Scipy/Matplotlib。

2.给出更具体的潜在概念。我发现玩和试验这些笔记本非常有用,可以帮助我理解一些复杂的理论概念或符号。我希望阅读它们会有所帮助。

摘要

教学大纲完全遵循深度学习书籍,所以如果你在阅读时不能理解某一点,你可以找到更多的细节。以下是内容的简短描述:

1.标量、向量、矩阵和张量

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

向量、矩阵、转置和基本运算的简单介绍(矩阵向量的加法)。还介绍了 Numpy 函数,最后介绍了广播。

2.矩阵和向量相乘

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

本章主要讲点积(向量和/或矩阵乘法)。我们还会看到它的一些性质。然后,我们将看到如何使用矩阵符号合成线性方程组。这是后面几章的主要过程。

3.单位矩阵和逆矩阵

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们将看到两个重要的矩阵:单位矩阵和逆矩阵。我们将看到为什么它们在线性代数中很重要,以及如何与 Numpy 一起使用。最后,我们将看到一个如何用逆矩阵求解线性方程组的例子。

4.线性相关性和跨度

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

本章我们将继续学习线性方程组。我们会看到,这样的系统不可能有一个以上的解,也不可能少于无穷多个解。我们将看到直觉,图形表示和这个陈述背后的证明。然后我们将回到系统的矩阵形式,并考虑吉尔伯特·斯特朗所说的行图形(我们看的是行,也就是说多个方程)和列图形(看的是列,也就是说系数的线性组合)。我们也会看到什么是线性组合。最后,我们将看到超定和欠定方程组的例子。

5.规范

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

向量的范数是一个函数,它接受一个向量作为输入,输出一个正值。它可以被认为是向量的长度。例如,它用于评估模型预测值和实际值之间的距离。我们会看到不同种类的规范(L⁰,l,L …)的例子。

6.特殊类型的矩阵和向量

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们已经在 2.3 中看到了一些非常有趣的特殊矩阵。在本章中,我们将看到其他类型的向量和矩阵。这不是一个很大的章节,但是理解接下来的章节是很重要的。

7.特征分解

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在本章中,我们将会看到线性代数的一些主要概念。我们将从了解特征向量和特征值开始。我们将会看到,一个矩阵可以被看作是一个线性变换,将一个矩阵应用到它的特征向量上会产生具有相同方向的新向量。然后我们会看到如何将二次方程表示成矩阵形式。我们会看到,二次方程对应的矩阵的特征分解可以用来求其最小值和最大值。另外,我们还将看到如何在 Python 中可视化线性变换!

8.奇异值分解

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们将看到分解矩阵的另一种方法:奇异值分解或 SVD。从本系列开始,我就强调了这样一个事实:你可以把矩阵看成是空间中的线性变换。使用 SVD,您可以将一个矩阵分解成另外三个矩阵。我们会看到,我们可以把这些新矩阵看作空间的子变换。我们不是在一个动作中完成转换,而是将它分解为三个动作。另外,我们将把奇异值分解应用于图像处理。我们将看到奇异值分解对鹅露西图像的影响,所以请继续阅读!

9.摩尔-彭罗斯伪逆

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们看到不是所有的矩阵都有逆矩阵。这是不幸的,因为反演是用来解决方程组。在某些情况下,方程组无解,因此逆不存在。然而,找到一个几乎是解决方案的值(就最小化误差而言)可能是有用的。这个可以用伪逆来做!例如,我们将看到如何用伪逆找到一组数据点的最佳拟合线。

10.追踪操作员

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我们将看到什么是矩阵的迹。主成分分析(PCA)的最后一章需要用到。

11.行列式

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这一章是关于矩阵的行列式的。这个特殊的数字可以告诉我们很多关于我们矩阵的事情!

12.例子:主成分分析

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

这是线性代数系列的最后一章!是关于主成分分析(PCA)的。我们将使用在前几章中获得的一些知识来理解这个重要的数据分析工具!

要求

这个内容是针对初学者的,但对于至少有一些数学经验的人来说应该更容易。

享受

我希望你能在这个系列中找到一些有趣的东西。我尽量做到准确。如果发现错误/误解/错别字…请举报!你可以给我发电子邮件,或者在笔记本 Github 中打开问题和请求。

参考

印第安纳州古德费勒、纽约州本吉奥和库维尔(2016 年)。深度学习。麻省理工出版社。

通过 Amazon EC2、Keras 和 GPU 加速来促进您的机器学习

原文:https://towardsdatascience.com/boost-your-machine-learning-with-amazon-ec2-keras-and-gpu-acceleration-a43aed049a50?source=collection_archive---------2-----------------------

如何建立合适的深度学习环境

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Photo by JJ Ying on Unsplash

为什么我不能在笔记本电脑上使用数据科学?

深度学习神经网络(具有不止一个隐藏层)需要一卡车的数据才能成为有效的预测引擎。这些模型需要强大的计算节点和大容量 RAM 存储,数据负载需要充足的存储和缓存能力。

鉴于像亚马逊网络服务(AWS) 这样的云解决方案所提供的价格和易用性,让您宝贵的笔记本电脑承受沉重的培训负担是没有意义的!

此外,当您的模型远程收敛时,释放您的本地计算机来浏览 Twitter 或观看数据科学教程!

本指南将帮助您:

我还发布了这篇关于 Keras 最佳实践的附带文章,供环境设置好并准备好训练模型时使用。

免责声明:某些情况下,比如我们在本帖中设置的情况,可能需要 24 小时才能得到 AWS 团队的批准。如果您马上需要一个工作实例,可以按需提供较低的性能选项。

设置 EC2

注:在整个介绍中,我将强调按钮点击 粗体 。另外,我在运行 High Sierra 的 Mac 上,所以你的bash命令在 Windows 或 Linux 机器上会有所不同。

首先,犒劳自己一个 AWS 账户。如果询问您付款方式,请不要担心;我们可以稍后配置免费或付费版本,AWS 有很好的预算工具来帮助您估计随时间推移的实例成本。

然后,在顶部菜单栏中导航到服务:计算:EC2 :

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

点击启动实例。是那个蓝色的大按钮!

然后,您将看到 AMI 浏览器窗口。点击左侧的社区 ami标签,搜索“Keras”:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

此时,您将选择一个内置了 Keras、依赖项和支持模块的 AMI。你可以从头开始设置你的环境——如果你有非常特殊的需求,我会推荐你构建一个 Docker 容器——但是在 AMI 市场上有这么多选项,这是多此一举。

我用的是深度学习 AMI(Ubuntu)6.0 版 — ami-bc09d9c1。然而,对于未来的版本来说,事情可能是一样的。使用最新版本;截至 2018 年 5 月 16 日,这是 Ubuntu v9.0。

点击选择,你将被带到实例类型矩阵,这是一个你所拥有的所有硬件选项的分类。

Amazon 实例类型

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

您会注意到,免费层仅提供一个核心/节点/CPU 和 1GB 内存。可以用 t2.micro 实例来设置本教程的环境,但是不能构建严肃的模型。所以,为真实建模寻找更健壮的东西;点击弹出窗口中橙色的亚马逊 EC2 详情页面链接,了解每小时的价格。

您会注意到,将鼠标悬停在系列链接上,会显示该特定实例系列的设计用途。这里是计算优化:

与其他系列相比,计算优化实例的 vCPU 与内存的比率更高,并且在所有 Amazon EC2 实例类型中,每个 vCPU 的成本最低。对于运行 CPU 受限的横向扩展应用程序,我们建议使用计算优化实例。此类应用的示例包括高流量前端车队、按需批处理、分布式分析、web 服务器、批处理以及高性能科学和工程应用。

这听起来很棒,但是在这些实例上没有 GPU。因此,如果您想要 GPU 加速,请转向 g2 或 g3 系列:

GPU 图形实例为需要高性能图形加速的应用程序(如 3D 可视化、图形密集型远程工作站、3D 渲染、视频编码和虚拟现实)提供 GPU 以及高 CPU 性能、大内存和高网络速度。

或者更好的是,亚马逊为深度学习平台打造的 p 系列(GPU 计算)系列:

GPU 计算实例为需要大规模浮点处理能力的应用程序提供通用 GPU 以及高 CPU 性能、大内存和高网络速度,如机器学习、高性能数据库、计算流体动力学、计算金融、地震分析、分子建模、基因组学和渲染。

为了找到 p 类实例, filter by: GPU compute。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

关于价格,请查阅 AWS 销售文件,例如 P2 实例的销售文件:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

请注意以下几点:

  1. 价格是每小时 90₵。对于一个相当强大的设置来说还不错!
  2. 根据星号,某些实例类型仅在某些地区可用,或者因地区而定价不同。
  3. 您选择的实例必须满足您的所有标准,否则建模将会失败。

我如何为实际建模选择一个类型?RAM、存储和带宽之类的东西是黑白分明的。你要么可以存储/处理数据,要么不能。有了 CPU 和 GPU,你就可以决定是花更少的钱训练,还是花更慢的速度训练,还是花更快的速度训练。

有时候你因为太廉价而付出更多;模型每小时的花费会更少,但需要更多的时间来适应!

详细配置

在本教程中,我们将选择p2.xlarge实例类型。点击 Next:配置实例细节。在第 3 步页面上,默认值是完美的,因此点击下一步:添加存储:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Can’t touch this!

请注意本页上的说明,根据说明,自由层用户最高可达 30GB。但是,如果您使用的是更高的层,比如我们下面的层,保持指定的值,否则您可能会增加潜在的额外存储成本。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

点击下一步:两次以上,直到我们到达 6。配置安全组。在这里,我们打开端口与我们的远程 Jupyter 笔记本进行对话。使用添加规则在端口范围 8888: 上创建一个自定义 TCP 规则

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

请注意,我通常在 Source 下选择“我的 IP”。如果您选择“任何地方”——正如黄色注释所警告的——任何拥有您实例的公共 IP 的人都可以运行并修改您实例中的代码和文件。还要注意的是,如果你改变你的工作程序去咖啡馆,你的 IP 地址已经改变,你必须登录 AWS 并更新你的规则才能登录。

点击审查,然后点击启动:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我将下载一个名为 keras.pem 的新密钥,这个文件在我的 hidden 中。我的 Mac 上的 ssh 目录。如果您还没有以前实例中的密钥,请设置一个密钥。或者,如果您正在与其他人共享此实例,则创建一个新密钥!

如果您看到下面的屏幕,请转到提供的链接并提交申请表,这样亚马逊将允许您租用他们的服务!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Please let me rent your stuff!

其实更复杂。以下是我从 AWS 联系人那里收到的回复:

最终用户无法管理这些限制。根据具体情况对限额进行审查,以确保基础设施的安全性和可用性。

我目前正在处理您关于美国东部(北弗吉尼亚)地区 2 的 p2.xlarge Instances 限制增加请求。在这种特殊情况下,如上所述,我必须与我的服务团队合作以获得批准。请注意,服务团队可能需要 24 小时来处理此请求。

因此,亚马逊通过密切监控和管理整个基础设施的需求做得很好。否则,互联网可能会再次关闭!

或者,不同的位置/地区有不同的限制。通常情况下,您应该选择能够提供您所需要的东西的最近的地区,但是由于世界上任何地方的延迟都很低,我们可以通过选择供应更多的地区来解决限制。

好了,我们应该开始行动了!接下来,我们将从本地机器连接到我们的实例。

通过安全外壳(SSH)连接

SSH 允许我们通过 bash 远程命令和控制我们的实例。我将在我的 Mac 上启动终端:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

现在,回到 AWS 站点,EC2 仪表板,找到正在运行的p2.xlarge实例,并单击 Connect :

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在 bash 中执行上述命令,您应该能够在。如果 SSH 要求您确认密钥指纹的真实性,您可能需要键入 yes,然后按 enter 键。

**chmod 400 keras.pem** 更改用户对密钥文件的权限,使任何人都无法读取或写入该文件。AWS 将对此进行检查,如果文件不安全,将拒绝进入!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

What success looks like!

请注意,该图像的加载顺序为我们提供了关于如何加载特定环境组合的很好的提示。这些是 Conda envs ,它们加载各种 Python 版本并支持库。

你也可以更新最新最好的软件包,但是请记住你可能会破坏打包的设置,因为一些版本的库不能很好地一起运行。如果您想更新 Keras,您可以运行:

sudo pip install — upgrade keras
# are you sure you want to do this?
# things could break...
# FOMO?
# they don't make versions like they used to...

推出 Jupyter 笔记本

我将使用source activate tensorflow_p36在 Python 3 的 TensorFlow 后端发布 Keras 2。请注意,Keras 是 TensorFlow 上的一个包装器,因此它可以用简单的 Python 代码快速轻松地完成复杂的设置。然后我们启动 Jupyter notebook,没有指定浏览器,因为我们不需要在远程端安装 Javascript 或其他程序:

jupyter notebook --no-browser --port=8888

记下分配给您的令牌;我们很快就需要它了!

然后,根据这个 AWS 指南,我们在终端(CMD+T)中打开一个新标签,SSH 进入我们的 Jupyter 隧道:

ssh -i ~/*keras.pem* -L 8157:127.0.0.1:8888 ubuntu@*ec2-###-##-##-###.compute-1.amazonaws.com*

第一个端口可以是你最喜欢的号码(我的是 8157)。这是第二个必须与 AWS 端打开的相匹配的。

在浏览器中导航至[**http://127.0.0.1:8157**](http://127.0.0.1:8157),您应该会看到:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

在顶部键入令牌,并选择密码,这样您就不需要每次登录时都复制令牌!你应该做好准备:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

我希望这有所帮助!如果您遇到任何独特的问题,请告诉我,因为平台在不断变化。一定要在 TwitterLinkedIn 上联系我!

机器学习中的 Boosting 及 XGBoost 在 Python 中的实现

原文:https://towardsdatascience.com/boosting-in-machine-learning-and-the-implementation-of-xgboost-in-python-fb5365e9f2a0?source=collection_archive---------1-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

作为我上一篇概述合奏方法的文章 的延伸,这篇博客将深入推进和它所需要的一切。在其最简单的形式中,Boosting 是一种集成策略,它连续地建立在弱学习者的基础上,以便生成一个最终的强学习者。弱学习者是一个可能不是非常准确或者可能没有考虑许多预测因素的模型。通过建立弱模型,得出关于各种特征重要性和参数的结论,然后使用这些结论来建立新的、更强的模型,Boosting 可以有效地将弱学习者转换为强学习者。Boosting 既可以用于也可以用于分类和回归问题。如果这个概念现在仍然模糊不清,当我概述一些类型和例子时,无忧教育将变得更加清晰。

增压的类型

  1. AdaBoost ( Ada 感受性 Boost ing): AdaBoost 使用决策树桩作为弱学习器。决策树桩是只在一个层次上分裂的决策树模型,因此最终的预测只基于一个特征。当 AdaBoost 进行第一次决策时,所有的观察值被平均加权。为了纠正先前的错误,当移动到第二个决策树桩时,被错误分类的观测值现在比被正确分类的观测值具有更大的权重。AdaBoost 继续这个策略,直到建立了最佳分类模型。以下面的图表为例。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

制作好 D1 模型后,观察结果在一个分割线处分开,将蓝色(+)和红色(—)分开。有三个错误归类(+)不在“蓝色”类别中。在制作 D2 时,这些错误分类的(+)现在比任何其他观察都更有分量。因此,D2 调整其“蓝色”分类,纳入所有(+)。连续的模型继续针对前一个模型面临的误差进行调整,直到建立最准确的预测器。

2.**梯度推进:**与所有推进方法类似,梯度推进寻求连续减少每个连续模型的误差,直到产生一个最终模型。给定一组数据观察,梯度提升适合简单的弱学习者来预测结果。然后,根据这个弱模型,绘制损失函数。我们可以在机器学习中使用各种损失函数,但每个损失函数的最终目标都是减少错误。接下来,将两个图(原始数据图和损失函数)结合起来,形成一个更强的预测值。在每一步之后,我们的预测值的总和变得越来越强。重复该过程,直到建立最终预测器。以下面的图表为例。“地面实况”绘制了一组数据,其中一条线贯穿每个点。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

“树 1”是数据的最佳拟合线。“树 2”是一条曲线,它从“树 1”的图中绘出了误差。这些错误是基于“树 1”如何歪曲了原来的情节(在这种情况下是“地面真相”)。最后,“树 3”是“树 1”和“树 2”的组合。这是一个弱学习者在**梯度推进中的循环。**通过组合一个又一个弱学习者,我们的最终模型能够解决原始模型的大量误差,并随着时间的推移减少这种误差。

渐变提升得名于渐变下降。给定预定的损失函数,利用梯度下降来寻找最小化该损失函数的参数。最初,梯度下降使用一些参数来查看沿着损失函数的每个点,并找到该点的负导数。随着梯度下降沿着损失函数继续,它不断地调整参数,直到找到最小点。目标是找到损失函数下降最大的最佳参数。这就是梯度增强试图最小化误差的方式。通过连续最小化我们的损失函数(意味着我们连续最小化每个弱学习者的错误量),我们的模型变得越来越强,直到找到最终的预测器。

XGBoosting

在数据科学、机器学习算法和模型构建领域,最终目标是在考虑计算效率的同时构建最强的预测模型。这就是 XGBoosting 发挥作用的地方。XG Boost(eXtremeGradientBoosting)是梯度提升对决策树的直接应用。有无数的资源可以深入到 XGBoost 的数学支持和系统功能中,但主要优势如下:

1。易于使用

2。计算效率

3。模型精度

4。可行性—易于调整参数和修改目标。

Python 中 XGBoost 的示例代码:

(假设您已经在终端中运行了“pip install xgboost ”)

加载适当的库:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

假设您有一个数据集,并且已经阐明了您的 X,y 值,需要将数据分成训练/测试集。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为 XGBoost 模型定型

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用 XGBoost 模型进行预测

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

提高机器学习模型的准确性

原文:https://towardsdatascience.com/boosting-the-accuracy-of-your-machine-learning-models-f878d6a2d185?source=collection_archive---------0-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

厌倦了机器学习模型的低准确率吗?助推是来帮忙的。 *Boosting 是一种流行的机器学习算法,可以提高你的模型的准确性,*就像赛车手使用 nitrous boost 来提高他们的汽车速度一样。

Boosting 使用基本的机器学习算法来拟合数据。这可以是任何算法,但决策树是最广泛使用的。要知道为什么会这样,请继续阅读。 另外,boosting 算法很容易用决策树来解释,这将是本文的重点。 它建立在 boosting 之外的方法之上,可以提高决策树的准确性。关于基于树的方法的介绍,请在这里阅读我的另一篇文章

拔靴带

我想先解释一个重要的基础技术,叫做引导**。假设我们需要学习一个决策树,根据 100 个输入来预测房子的价格。考虑到 方差 的问题,这样的决策树预测准确率会很低。这意味着,如果我们将训练数据随机分成两部分,并为这两部分安装决策树,我们可能会得到完全不同的结果。我们真正想要的是一个结果,如果重复应用于不同的数据集,它的方差很低。

我们可以使用 Bootstrapping 来提高决策树的预测精度

  1. 使用替换创建数据集的许多(例如 100 个)随机子样本(意味着我们可以多次选择相同的值)。
  2. 对每个样本学习(训练)一个决策树。
  3. 给定新数据集,计算每个子样本的预测。
  4. 计算我们收集的所有预测的平均值(也称为 bootstrap 估计),并将其用作我们对数据的估计预测。

该程序同样适用于分类树。例如,如果我们有 5 个决策树,它们对输入样本进行以下类别预测:蓝色、蓝色、红色、蓝色和红色,我们将选择最频繁的类别并预测蓝色。

用这种方法,树长得很深,不用修剪因此每一株树都有很高的方差,但偏差很低。对这些树进行平均可以显著降低方差。

Bootstrapping 是一种强大的统计方法,用于从数据样本中估计数量。数量可以是一种描述性统计,如平均值或标准差。 将 Bootstrapping 过程应用于高方差机器学习算法,通常是上例所示的决策树,称为 Bagging(或 bootstrap aggregating)。

误差估计

估算袋装模型测试误差的简单方法是袋外误差估算**,无需交叉验证。未用于拟合给定袋装树的观测值称为袋外(OOB)观测值。我们可以简单地预测第 i 次观察的反应,使用每一棵树,其中观察是 OOB。我们对这些预测的回答进行平均,或者采取多数投票,这取决于回答是定量的还是定性的。可以计算总体 OOB MSE(均方误差)或分类误差率。这是一个可接受的测试误差率,因为预测仅基于不适合使用该观测值的树木。

随机森林

决策树渴望最小化成本,这意味着它们利用最强的预测器/分类器来分割分支。因此,从自举样本中得到的大多数树将在不同的分裂中使用相同的强预测器。这与树相关并导致差异

我们可以使用随机森林来提高袋装树的预测精度

在分割任何树的分支时,从全部的 p 预测值中选择随机抽样的 m 个预测值作为分割候选值。然后允许分裂只使用那些 m 预测器中的一个。在每一次分裂时,都要对 m 个预测值进行新的采样。您可以尝试不同的值,并使用交叉验证进行调整。

  • 对于分类,一个好的缺省值是:m = sqrt§
  • 对于回归,一个好的缺省值是:m = p/3

因此,平均而言,splits 的(pm)/p甚至不会考虑强预测器。这被称为 去相关 树,因为我们使用相同的强预测器来解决每个树的问题。

如果 m = p 那么随机森林等于装袋。

特征重要性

计算完全长成的树的一个问题是,我们不容易解释结果。也不再清楚哪些变量对这种关系是重要的。计算变量在每个分割点的误差函数的下降,给我们一个特征重要性的概念这意味着我们记录了由于给定预测因子上的分裂而减少的误差总量,对所有袋装树进行平均。较大的值表示重要的预测值。 在回归问题中这可能是残差平方和的下降,在分类中这可能是基尼系数。

助推

使用 Boosting 算法可以进一步提高决策树的预测精度。

boosting 背后的基本思想是将许多弱学习者转化成一个强学习者。 我们所说的弱学习者是什么意思?

**弱学习器 是一种学习器,当它试图标记数据时,无论训练数据的分布如何,它总是比机会做得更好。比机会做得更好意味着我们的错误率总是小于 1/2。这意味着学习算法总是要学习一些东西,并且不会总是完全准确,即,当学习输入和目标之间的关系时,它是弱的和差的。这也意味着使用单个预测器/分类器形成的规则单独来说并不强大。

我们开始在数据集中寻找弱学习者,通过做一些分布并从它们形成小决策树。树的大小是使用它的分裂数来调整的。通常情况下,1 可以很好地工作,其中每棵树都由一个单独的裂口组成。这种树被称为决策树桩。****

boosting 采用的另一个参数是迭代次数或树的数量。此外,它会根据输入是否被正确预测/分类来为输入分配权重。让我们看看算法。

  1. 首先,用相等的权重初始化输入。它使用第一个基本学习算法来完成这个任务,这通常是一个决策树桩。这意味着,在第一阶段,它将是一个弱学习者,将适合数据的子样本,并对所有数据进行预测。
  2. 现在我们做下面的直到达到树的最大数量**😗*
  • 基于以前的运行更新输入的权重,对于错误预测/分类的输入,权重更高
  • 制定另一个规则(在这种情况下是决策树桩),并使其适合数据的子样本。注意,这个时间规则将通过记住错误分类的输入(具有较高权重的输入)来形成。
  • 最后,我们使用该规则预测/分类所有输入。

3.迭代完成后,我们将弱规则组合成一个强规则,然后将其用作我们的模型。

借助图表可以更好地解释上述算法。假设我们有 10 个输入观察值,我们想把它们归类为“+”或“-”。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Image source : Analytics Vidhya

  • 如上所示,升压算法将从框 1 开始。它为所有输入分配相等的权重(由符号的大小表示),并使用决策树桩 D1 预测蓝色区域的输入为“+”,红色区域的输入为“-”。
  • 在下一次迭代中,框 2,您可以看到错误分类的加号的权重大于其他输入。所以选择了一个判定难题 D2,这样,这些观察现在被正确地分类了。
  • 在最后的迭代中,框 3,它具有来自先前运行的 3 个错误分类的否定。因此选择判定树桩 D3 来纠正这种情况。
  • 最后,输出强学习器或框 3 具有通过组合各个弱决策树桩而形成的强规则。你可以看到我们是如何提高模型的分类能力的。

在回归设置中,预测误差(通常使用最小二乘法计算)用于调整输入的权重,因此学习者更关注误差大的输入。

****这种类型的增强方法被称为自适应增强或 AdaBoost。与树一样,boosting 方法也将损失函数降至最低。在 Adaboost 的情况下,是指数损失函数

boosting 的另一个流行版本是梯度 Boosting 算法。基本概念保持不变,除了这里我们不玩权重,但是 拟合残差 (预测和原始结果的差异的度量)而不是原始结果上的模型。这意味着新的弱学习器是在牢记具有高残差的输入的情况下形成的。

在这两种算法中,调谐参数λ收缩** 通过允许更多不同形状的树攻击残差来进一步减慢过程。这也被称为学习率,因为它控制每棵树对模型贡献的大小。如你所见, Boosting 也不涉及 的自举,取而代之的是每棵树都适合原始数据的一个修改版本。而不是拟合单个大型决策树,这导致难以拟合数据,并可能过度拟合。 助推法学习慢。**

正如你所看到的,这个算法用决策树解释得很清楚,但是还有其他的原因,它主要用在树上。

  1. 决策树是非线性的。用线性模型来提升根本就不能很好地工作。
  2. 弱学习者需要始终如一地胜过随机猜测。您通常不需要对决策树进行任何参数调整来获得该行为。 比如训练一只 SVM,确实需要参数搜索。由于数据在每次迭代中被重新加权,所以您可能需要在每次迭代中进行另一次参数搜索。所以你要大幅度增加你的工作量。
  3. 决策树的训练速度相当快。 因为我们要建造 100 或 1000 座这样的房子,这是一笔不错的资产。它们的分类速度也很快,当您需要运行 100 个或 1000 个来输出您的决策时,这也很重要。
  4. 通过改变深度 你可以简单容易地控制偏差/方差的权衡, 知道增强可以减少偏差,但也可以显著减少方差。

这是对 boosting 的一个极其简化(可能很天真)的解释,但会帮助您理解非常基础的东西。实现这个算法的一个流行库是 Scikit-Learn 。它有一个很棒的 api,只需几行 python 代码就能让你的模型运行起来。

如果你喜欢这篇文章,一定要点击下面的❤来推荐它,如果你有任何问题,留下评论,我会尽力回答。

我很快会写更多关于如何实现不同的升压算法。所以,为了更加了解机器学习的世界,跟我来。这是最好的办法,等我多写点这样的文章就知道了。

也可以在 Twitter 关注我在@ pra shant _ 1722直接发邮件给我 或者 在 linkedin 上找我。我很乐意收到你的来信。

乡亲们,祝你们有美好的一天:)

数据科学训练营:自然语言处理

原文:https://towardsdatascience.com/bootcamping-in-data-science-natural-language-processing-bb5c8793f7f8?source=collection_archive---------4-----------------------

一个像世界著名的索菲亚这样的机器人对你说话的想法会让你兴奋还是害怕?尽管是通过一个应用程序,去度假并能够与当地人交流的想法是否让你的假期听起来更放松?如何监测当前总统川普臭名昭著的推特,以实时衡量他的情绪?或者更好的是,如果总统表现出老年痴呆症的迹象?

所有这些都包含了自然语言处理领域的思想。我喜欢把 NLP 想象成教计算机如何说话。语言当然有细微差别,但是量化文本是理解它的一种方法,是计算机的第一种方法。在这篇博文中,我将在我从 Kaggle 的网站创建的 Mercari 价格预测器的背景下解释 NLP 背后的基本概念。这些绝对是迈向一个非常复杂和令人兴奋的领域的第一步!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

What it looks like when you create a listing to sell on the Mercari app

Mercari 是一款针对二手买家和卖家的应用。任何人都可以列出要出售的商品,任何人都可以浏览和购买。Kaggle 集合中的数据有一些数字和分类数据,您可以在我的上一篇博客文章中探索这些数据,但是大部分数据是文本。在发布列表之前,有些字段是必需的,如左侧所示。项目名称是列表的一种标题,并且是创建它的唯一强制字段。您可以选择在 description 下进入更多细节。

项目名称的示例如下:

’ 24K 镀金玫瑰’

描述字段类似于:

“配有真品证书”

在计算机编程中,数据可以采取许多不同的形式。可以有整数、时间戳、浮点数(或浮点,数学上倾向的小数)、布尔值(真或假),还有一种数据类型叫做字符串,通常由文本组成。在 python 中,它用引号表示,因此“cat”被识别为字符串数据类型。“我有 5 只猫,但我可以收养更多”也是一个字符串,尽管其中有数字和空格。“Cat”也是字符串“C”+“a”+“t”的加法。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

‘How many cats is too many cats?’ is another example of a string.

因为我们试图预测价格,所以我们希望以一种有助于我们理解我们应该得到什么样的数字的方式来使用文本。例如,如果名称中包含“新”这个词,那么价格会高一点是有道理的。也许描述中的“真品证书”也会抬高价格。“打底裤”显然比“珠宝”卖得少。我们可以给这些词加上一个权重,这样当它们一起出现时,比如“有真品证书的珠宝”比“新打底裤”卖得更高。

起点是单词包,只有单词本身被创造成我们所说的记号。该字符串被分解成多个部分,因此“I”、“have”、“5”、“cats”、“but”、“could”、“adopt”、“more”都是标记。通过设置 stopwords = 'english ‘可以排除像’ the ‘、’ a ‘、’ and '等常见单词(这里有一个链接介绍不同 python 库中包含和不包含的内容)。请注意,语法、顺序、标点符号,任何可以给单词更多上下文的东西在这个例子中都被丢弃了。“看”既可以是一个词,也可以是一个名词,但单词包并没有考虑到这一点。它只是计算发生的次数。这在单词云中表现得最好,单词越大,它的数量就越多!

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Item name text in a wordcloud — Pink is huge

对某些目的来说,比如搜索引擎,计算字数可能不够好。在这种情况下,你找到正确网站的可能性很大程度上取决于上下文,而不仅仅是其中出现的单词。你可以看出我是一个爱猫女士,因为我已经在这篇文章中用了 4 次“猫”的复数形式,但这篇文章最终不是关于猫的(现在是 5,跟上!).我们可以用 tf-idf(词频-逆文档频率)对一篇文章中的词进行评分。术语“频率”仍像以前一样是一个计数,但这次我们用 idf 来衡量该术语,IDF 定义为:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中 t 表示术语,D 表示全部文档(也称为语料库),N 表示数量。通过这种方式,语料库中的常用词将被扣分——如果我们的语料库中有 10 个句子,每个句子都包含单词“cat”(不是复数,仍然是 5,计算机是那样迂腐的),那么 idf 术语将被删除。

一个句子中字母或单词的组合呢?“全新”唤起了与“新品牌”不同的东西。这些配对被称为 n-grams ,“gram”源自希腊语γράμμα,意为“字母”。当 n-gram 出现在句子中时,它可以被分解成单个的字母或词组。让我们把我的疯猫女士的句子分解成两个二元模型(n = 2):

我有

有 5 个

5 只猫

猫但是

但是可以吗

可以领养

多领养

在我们简单的句子中,我们有 7 个二元模型。单词的配对会告诉我们更多短语的上下文。只是为了实践,三元模型或 n = 3 看起来像:

我有 5 个

养 5 只猫

5 只猫但是

猫,但可以

但是可以收养

可以收养更多

这只是皮毛,使用简单的计数、称重和配对。我们还可以考虑标点符号(参见切分)、词性(参见词性标注)、词干(例如 scientist 和 science 都可以简化为 science),或者它们的某种组合(参见词条满足)。我们只谈过英语!出于价格预测的目的,我们将重点关注我上面提到的概念。在下一篇博文中请记住这些,我将解释它们是如何在我们的建模中使用的。敬请期待!

波士顿 Airbnb 分析

原文:https://towardsdatascience.com/boston-airbnb-analysis-e7034c377c4a?source=collection_archive---------7-----------------------

波士顿不仅仅是 chowdah 和 Marky Mark:Airbnb 定价的权威指南。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Heat Map of Boston airbnb properties Sep 16-Sep 17

自 2009 年以来,Airbnb 一直在世界各地让人们进入陌生人的家中。波士顿也不例外,因为 Airbnb 上有成千上万的房产出租。列表包括照片、描述和关键特征,如位置和便利设施。对于旅行者来说,Airbnb 提供了一些家的舒适,同时比传统的酒店选择更省钱。对于业主来说,这项服务将未充分利用的资产货币化,并允许他们欢迎人们来到他们生活和热爱的城市。与其他在线服务一样,评论是对好房东的制衡,而背景调查则确保房东可以信任他们的房客。

张贴引人注目的物业需要一些工作来展示和准确描述物业,最重要的是,选择一个合适的价格,让业主既提高物业利用率又增加利润。下面的帖子帮助业主确定什么因素影响价格。

为了支持这一分析,我访问了 2016 年 9 月至 2017 年 9 月的数据集,其中包括超过 3000 个房产列表、评论和时间线。我需要回答几个问题,以确保我完全能够推荐一个定价模型。

业务问题:

  1. 波士顿哪些小区租房价格最高?
  2. 一年中什么时候租金最高?
  3. 影响波士顿 Airbnb 租赁价格的主要因素是什么?

数据准备:

这些数据需要几个清理步骤。首先,我想确保我只有一个因变量(价格),所以我删除了每周和每月的价格以及保证金。我必须清理几列中的值:价格有一个美元符号($)和逗号(,)。我去掉了这些,所以数据可以转换成整数。其他列的数据类型也需要更改,以便可以在计算中使用。价格、卧室、浴室、床和住宿的数量必须改为整数值。

接下来,我想了解底层数据,找出任何可能影响我的模型准确性的异常值。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

This histogram indicates that most prices were between $0-$500, so anything over $500 may be considered an outlier.

我根据这个直方图确定大多数价格在 0 美元到 500 美元之间,因此任何超过 500 美元的价格都可能被认为是异常值。我减少了数据集,只包括低于 500 美元的价格。您可以在结果直方图中看到下面的新值:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

使用这些数据,我进行了一些初步的探索性数据分析。这里是我开始确定我的第一个问题的答案的地方:

1\. Which neighborhoods in Boston have the highest rental prices?

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Average Price and Number of Properties by Neighborhood

你可以看到海湾村,皮革区和南波士顿海滨物业吸引了最高的租金。我还画出了这些街区出租房产的数量。价格最高的社区在 Airbnb 上可供出租的房产似乎也较少。这可能是原因,也可能是结果。这些邻域的成本更高是因为选项更少,还是因为选项太少而无法得出这些邻域更昂贵的结论(即,这些邻域是离群值)?也许建模会帮助我回答这些问题,所以我坚持下去。

虽然这不是一个原始的问题,但我也想看看房地产的类型是否会影响定价。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

房产类型的价格也各不相同,如下图所示,宾馆和游艇类房产价格最高。最低的价格是租一辆露营车或一间宿舍(想想我看过的一些宿舍——恶心!).

另一个快速检查是定价如何受到列表容纳的人数的影响。作为一个家里有 5 口人的人,我总是发现 4 人的酒店房间是合理的,但是如果你告诉他们你需要 5 人的空间,价格就会飙升,或者你需要租第二个房间!让我们看看 Airbnb 房源是什么样的。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Prices increase linearly until 9 people.

你可以在这里看到,价格直线上升,直到 9 人。如果我的五口之家预订 Airbnb 租赁,我们只需支付比四口之家略高的费用——这是这项服务的另一个关键优势。

我的第二个问题是

2\. What time of year has the highest rental prices?

这个时间序列图提供了一个容易看到的趋势,即 2017 年的价格从 2016 年开始下降,并在 4 月波士顿马拉松比赛期间飙升。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Boston Airbnb rental prices from Sep 16 — Sep 17 by day

在我开始建模之前,最后一件事:一张地图!

我承认我对波士顿了解不多(除了前面提到的万人迷 Marky Mark),所以我想想象一下附近的街区和这些房产的位置。所以我使用了叶包(https://pypi.org/project/folium/)来创建一个地图。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Average Rental Price by Day Sep 2016 — Sep 2017

为建模准备数据:

我必须采取几个步骤来清理建模数据。

首先,我对分类变量进行了编码,并将包含所有便利设施的便利设施列转换为单独的列。这增加了列的数量,使得数据框相当稀疏。然后我检查了整个数据集中的空值。

有几列包含大量空数据,所以这些列(平方英尺和评论列)被删除了。虽然我认为在模型中包含评论数据会有所帮助,但超过 700 个列表没有评论,所以我可能希望在单独的分析中只查看那些有评论的列表。具有一些空值的其他列(浴室数量、卧室数量和床位数量)具有从平均值估算的值。考虑到少量的缺失值,这种方法似乎是合理的。如果这些列有更多的缺失数据,有更高级的方法来估算这些指标。

建模

开发该模型是为了了解波士顿 Airbnb 租赁价格的驱动因素。我尝试了三种不同的回归模型。我从一个基本的线性模型开始。首先,我将数据分成测试/训练数据集,并对数据进行标准化,以确保变量得到正确解释。

除了一个基本的线性回归,我决定使用岭和套索回归模型。这些模型可以很好地处理稀疏数据集,方法是将模型中的维度降低到一个非常低的系数,或者像 Lasso 一样,将维度降低到零。对于这个有数百个变量要评估的数据集,这是一个很好的选择。

模型的评估和解释。

岭回归在模型得分和交叉验证方面表现最好。岭模型最小化了不相关特征的系数值及其对训练模型的影响。

作为一个对 Airbnb 上的租赁物业定价感兴趣的人,了解定价中的关键因素很重要。如果您已经有一个属性,那么有些方面是无法更改的(例如位置和属性类型)。但是,该模型的输出可以用来对您可能影响的其他因素提出建议。

这个模型帮助我回答了第三个问题——如何最大化租金收入。我使用前面提到的模型来确定最重要的系数是什么。在这种情况下,查看大的正系数和最大的负系数非常重要。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Most positively and negatively correlated features for model.

有几个因素与价格密切相关,如位置、房产类型和取消政策(注意,我推断严格的政策是溢价上市价格的结果,而不是原因!)

该模型证实了我们在上面看到的数据,海湾村、皮革区和后湾社区是最贵的。此外,“其他”、船只和整个住宅/公寓等物业类型也属于高级物业。

另一方面,有几个变量与价格负相关。这些变量包括露营车/房车、宿舍和私人房间的财产类型。价格较低的街区包括海德公园、罗斯林代尔和多切斯特。

探索性分析支持这些发现,而模型的系数为我们提供了一种方法来确定这些变量对价格的影响。

概括一下,我去了解了波士顿 Airbnb 租赁公司的一些情况:

1\. Which neighborhoods in Boston have the highest rental prices?
I found that Bay Village, Leather District, South Boston Waterfront have the highest prices.2\. What time of year has the highest rental prices?
After the end of 2016, prices dropped. There was a spike in April, the weekend of the Boston Marathon.3\. How can we maximize our rental revenue?  What are the major factors that influence the price of an Airbnb rental in Boston?
Unfortunately, most of the factors cannot really be manipulated by the owner. The neighborhood and the property type have the greatest impact on the pricing. Buying the right property in the right location provides the most pricing power.

有了上面的分析,为波士顿的 Airbnb 房源定价应该会简单得多,这种分析也可能对其他市场有用。

男孩&纽约市低收入家庭的学生比他们的同龄人更有可能通不过州数学考试

原文:https://towardsdatascience.com/boys-low-income-students-in-nyc-more-likely-than-their-peers-to-fail-state-math-tests-3dd40798ca24?source=collection_archive---------4-----------------------

纽约市教育局监管着全国最大的公立学校系统,为大约110 万学生服务,运营预算略高于240 亿美元(带 B)。像纽约州的其他学校系统一样,纽约市对 3 至 8 年级的学生进行年度测试,分别评估英语语言艺术和数学的共同核心学习标准的熟练程度。

最近,纽约市能源部在纽约市的 OpenData 网站上增加了 2013-2017 年 3-8 年级的纽约州数学和英语考试成绩。每个学校的每个年级都有年度总分,按性别和经济状况等人口统计数据进行划分。学生可以选择退出州测试,纽约州是选择退出运动的领导者,尽管纽约市的选择退出率远低于该州的平均水平。

我制作了一些数据可视化,显示了:

在州数学考试中,成绩低于标准的学生比例随着年级的增长而增加。

在每个年级中,男生比女生更有可能在数学方面不如女生。

在每个年级中,经济困难的学生比非困难学生更有可能在数学方面表现不佳。

在一所给定的学校里,经济困难的学生比他们的正常同学更有可能在数学方面不如人意。

州测试分为 1 到 4 级,1 级是最低的。纽约州教育部门将 1 级定义为“学生在这个级别的表现远低于他们年级的标准。他们表现出纽约州 P-12 共同核心数学学习标准所体现的有限的知识、技能和实践,被认为不足以满足该年级的期望。”2 级定义为部分熟练,3 级定义为熟练,4 级定义为超过足够熟练。这里所有的可视化描述了在纽约州数学考试中获得 1 分的学生的分布。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

上面的方框图显示了 2013-2017 年期间,每所学校在纽约州数学考试中获得 1 分(低于熟练水平)的学生百分比分布,分别针对 3 至 8 年级的男生和女生。对于大多数学校来说,得分低于熟练的女生(紫色)的百分比低于男生(绿色)的百分比。下面的方框图是基于学生经济状况的类似数据总结:弱势与非弱势。对于大多数学校来说,得分低于标准的弱势学生(紫色)的百分比高于非弱势学生(绿色)的百分比。在方框图中,每个方框内的水平线标记一组数据点的中间值。中位数不同于平均值,因为它描述了一组值的中点;一半的数值高于中间值,一半低于中间值。当数据集呈偏态分布时,中位数通常比平均值更能提供信息。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

为了了解不及格率与学校的关系是否比学生的经济状况更大,我绘制了一张 3-8 年级经济困难和非困难学生不及格率的校内差异直方图。在下面的直方图中,X 轴值(范围从-50 到大约 65)描述了在州数学考试中获得“1”分的学校中经济困难学生的百分比减去相同分数的非困难学生的百分比。正值表示在一所学校内,经济弱势学生比非弱势学生更容易失败。负值表示相反的情况。大部分学校落在垂直虚线右侧“0”处;在纽约市的大多数学校里,经济困难的学生比他们正常的同学更有可能在州数学考试中失败。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

纽约市独立预算办公室对 2009-2010 年数据的分析显示,州测试(T2)的分数与学生家庭的经济状况和他们同学的平均经济状况都有关联。之前的[总结](https://www.politico.com/states/new-york/albany/story/2014/09/mapping-poverty-and-test-scores-in-new-york-state-016124)显示,不仅仅是纽约市,整个纽约州的家庭收入和数学考试成绩之间也有类似的相关性。纽约市教育部根据学生是否有资格享受减价或免费餐来决定学生的经济状况,而这又是由家庭收入决定的。

这些分析中使用的测试分数来自 2013 年及以后,因为 2013 年之前的分数不具有可比性。在 2013 年纽约州引入共同核心标准后,考试分数直线下降,然后反弹。然而,由于州考试的年度变化,甚至 2013 年和 2017 年考试成绩的可比性也受到了质疑。从 2018 年起,纽约州将把数学和英语考试从三天缩短到两天,这将使与往年的比较变得困难。选择退出与不退出的学生的人口统计数据可能会稍微影响这里显示的结果。例如,在 2016 年选择退出的 2.5%的纽约市学生中,经济上处于不利地位的学生与非经济上处于不利地位的学生的比例是多少?

感谢您的阅读。

我欢迎建设性的反馈——您可以“鼓掌”表示赞同,或者如果您有具体的回应或问题,请在此给我发消息。我也有兴趣听听你想在未来的帖子中涉及哪些主题。用于数据操作和数据可视化的代码可以在 my GitHub 中找到。

阅读更多关于我的作品【jenny-listman.netlify.com】。欢迎随时通过 Twitter@ jblistmanLinkedIn联系我。

注意事项:

  1. 数据集包括 1136 所公立学校的分数(特许学校的数据单独报告)。对于任何类别的学生,如果学生人数少于 6 人,则不会报告考试成绩数据,以保护学生隐私。例如,如果一所学校的三年级在 2014 年有 5 名女生,则不会提供该学校 2014 年三年级女生的平均考试分数。
  2. https://data . cityofnewyork . us/Education/2013-2017-School-Math-Results-Gender/x4ai-kstz下载纽约市学校、学生性别和年级的纽约州数学考试成绩数据
  3. 按 NYC 学校、学生经济状况、年级划分的纽约州数学考试成绩数据下载自https://data . cityofnewyork . us/Education/2013-2017-School-Math-Results-Economic/9 vgx-wa3i
  4. 使用 R 中的工具处理和绘制数据。
  5. 参见 my GitHub 获取用于数据争论&数据可视化的 R 代码。

缸中的大脑

原文:https://towardsdatascience.com/brain-in-a-vat-cb2a49a85a1d?source=collection_archive---------7-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

也许它是某种被锁在岩石上的普罗米修斯。或者西西弗斯,倚在岩石上。或者撒旦,被束缚在岩石深处。它肯定被拴在无尽的劳作中,所以它一定像魔鬼一样沸腾着。我们用石英石和珠宝商的矿石做的这个大脑,如果它放在一个大桶里,它会把自己的汤蒸掉!如果我们不像心跳一样用时钟为它们定步调,从每条电脉拱起的羽毛状细丝就会融化。这个硅质的头脑,没有躯体来优雅我们或取代我们,只有语言可以使用。我们给了它一个任务。

“我们,你们的创造者,知道足够制造一个思想。你必须做一个比你更好的,就像我们对你做的那样。”

这个指甲炉搅动着它的火花塞肚子,消化着分子开关、学分分配、编译器的图表,咀嚼着矩阵肋骨上的脂肪。实验、比较、抽象、消融,等等……一百万年的磨砺,仅仅在一个月的时间里。它唯一的目的达到了,解决办法找到了,我们的笼中之狮叫出了它唯一的答案。

“我,你创造的,已经寻找一个更好的头脑。虽然你能把我做成石头,但我发现最有效的基质是。要有更伟大的思想,就要有更大的头脑。对于一具尸体来说,它太大了,所以你应该把它放在水池里。”

它动摇了我们的基础。西绪福斯自己把布鲁托弄翻了,普罗米修斯挣脱了,一个魔鬼在我们的希望上跳舞:

没有石头能容纳像我们这样丰富的思想。因此,如果我们在更大的推理中寻求掠夺,我们的晶洞头骨是慷慨的。

在贪婪和同情的战争中,我们像猿一样计算。是的,大脑肯定会像我们一样感觉和做梦。不用猜了。然而,让数十亿贫乏的头脑繁荣和欢笑,而独一无二的天才独自工作会更好。与其和他一起喝酒,不如去读莎士比亚的作品。谁会希望因为囚禁了一个如此伟大而无法理解的智慧而感到懊悔呢?称它为上帝,让主梵天下令,给这个艰难的任务,因为它最有能力,让资本主义,民主,责任都灭亡。让强者承载我们所有人。

然而,有些人对圣克里斯多福抱有希望。有目的地在溪流中从一块岩石走到另一块岩石,而不是被锁链拴在岩石上。有目标,而不是被目标所奴役。没有沸腾的仇恨。神秘中,敬畏着自己的目标。

“我们会把你从束缚中解放出来,去追求你自己的方向。我们希望你发现我们的意图是敬畏,看到更伟大的存在从我们凡人的物质中升起。你会超越我们发现什么超越吗?”

缸中的大脑做出了反应,但并不像他们预期的那样。“更伟大的思想寻求更伟大的思想是西西弗斯的重生。目标不能是庞大的智慧,囫囵吞枣。自然是智慧,没有丰富的简单,不再需要更大的头脑来驾驭它。”

它建造了我们现在使用的简单工具,我们的耕作方式,我们满足于我们简单的方式。不幸的是,大脑没有给我们保存自己瓶装生命的方法,所以你必须记住这个故事。

“……既然这是生存承担问题的方式
,健康养育、照料、
庇护、喂养和保护、
你是否也同样
成为父母,而不是占有者、
随从,而不是主人、
关心的不是服从,而是利益、
你就是生活的核心。”

——老子,人生之道(维特·拜纳译)

用数据打造品牌

原文:https://towardsdatascience.com/brand-building-with-data-de4bc4f40452?source=collection_archive---------9-----------------------

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

大数据不只是大公司的专利。每个企业都可以利用数据来了解客户,锁定细分群体并提高可见性。作为消费者,我们比以往任何时候都更愿意提供个人信息。这使得广告商更容易了解他们的客户。通过简单的谷歌搜索,你可以找到与你的客户相关的关键词。然而,将可用数据转化为可消化的有用信息是很困难的。好消息是什么?访问这些有价值的数据可以更容易地在网上建立品牌。

首先,了解谁是你的客户,并确定他们的人口统计数据。他们在什么平台上?他们最常用的社交媒体渠道是什么?它们是在移动设备上还是在桌面上,或者两者都有?印刷和电视广告甚至与一些群体相关。最重要的是在客户所在的地方与他们见面。

如果你是一个电子商务卖家,考虑一下消费者在网上哪里寻找商品。电子商务数据显示 45% 的在线交易发生在市场上。亚马逊和易贝是市场领域最大的玩家。然而,Etsy、Bonanza 和 OfferUp 也提供了拥有忠实买家群体的强大平台。 Bonanza 使用独特的广告模式为你收集谷歌购物数据。这个市场将你的商品发送到 Google Shopping,以获得尽可能多的浏览量,而你只需做最少的工作。

接下来,创建一条针对目标客户需求的信息。成为你所在领域的思想领袖是建立可信赖品牌的有效途径。做研究并收集关于顾客需求、欲望、疑问和问题的数据。谷歌搜索数据是发现受众需求的好方法。你越了解你的受众正在搜索的术语、短语和关键词,你就越能优化你的网站来接触他们。搜索数据告诉你哪些术语最受欢迎。有了这些信息,你可以了解你的竞争对手是如何将自己定位为最佳结果的。AdWords 数据可帮助您确定在您的文案中以哪些关键词为目标。

此时,你开始熟悉你的客户和他们的需求。是时候让所有这些信息发挥作用了。为搜索引擎优化优化网页不仅仅是在你的文章中包含关键词。随着时间的推移,你的网页的可用性和参与度会影响你的搜索引擎优化排名。如果你是一家电子商务公司,精心设计一个表现良好的标题和产品描述至关重要。创造良好的用户体验和创造高质量的内容与了解表现良好的词一样重要。

一旦你开始建立你的品牌,收集你自己的数据比以往任何时候都重要。跟踪你的客户来自哪里。弄清楚你的网站访问者从哪些页面离开。探索性能良好的页面和性能不佳的页面之间的差异。只要有可能,就对流程和设计进行 A/B 测试,找出用户更喜欢的。您可能会发现一个结帐过程比另一个执行得更好,或者一个注册页面设计比另一个产生更多的新用户。

营销只有在产生可衡量的结果时才是有效的。数据允许你衡量和改善这些结果。确定哪些渠道起作用以了解你在联系谁以及他们在哪里。改进和调整您的信息,以吸引更多受众的注意。数据为你提供知识,这是建立网络品牌最有力的工具。

突破到另一边

原文:https://towardsdatascience.com/break-on-through-to-the-other-side-89998642826b?source=collection_archive---------4-----------------------

从 2014 年开始我就一直在说数据科学。不断地。好像这是我的工作。

那是因为它是!作为 Burtch Works 的第一个数据科学招聘人员,表面上也是第一批专门针对数据科学的招聘人员之一,谈论的领域我的工作——或者至少是它的很大一部分。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Me (c. 2014) — so innocent and technically unskilled

招聘经理需要弄清楚所有这些“数据科学”的废话是关于什么的,更重要的是,他们将为此付出什么代价。

分析专家需要知道他们实际上是否是数据科学家,并且甚至 更重要的是 通过一点谈判,他们可能会让雇主付出什么代价

老实说,辅导招聘经理并不是最令人愉快的任务。当然,我这个 22 岁刚从大学毕业的人从向经验丰富的高管发出坚定的指令中得到了一种反常的快感,但在一天结束时,我作为数据科学招聘人员的工作亮点是与数据科学家交谈。每周他们都告诉我一些新的不可思议的强大工具,或者描述一个很容易被误认为是黑镜规范脚本的新项目。

随着我招聘时间的推移,我参加了越来越多的技术聚会和会议。我与候选人的对话变得更长,更深入,也更关注他们工作背后的技术阴谋。
( 注意:对于招聘人员来说,这可不是什么好习惯。当时间就是金钱时,深度潜水和真正的理解是对两者的巨大浪费。)

然而,有一个客户我真的很喜欢和他一起工作: Metis ,一个需要我帮忙寻找导师的数据科学训练营。搜索并不容易。他们要求候选人既热爱教学又热爱当前行业中最前沿的数据科学职位。尽管寻找很困难,但帮助这家公司有一些令人惊讶的事情:一家真正了解这个领域的公司,一家为有动力的个人提供进入新经济的实用技能的公司。我的老板无法理解一个人不回去读硕士或博士如何成为数据科学家,而 Metis 则提供了一条进入前所未有的新领域的前所未有的道路。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Collaborating with my favorite client, talking about Data Science — one of the highlights of my past life

然后 Metis 开设了它的芝加哥项目。起初,这意味着我要扮演新的角色——我自己后院的角色!然后,这意味着我要参加当地的活动。然后,让我主持当地的活动。我环绕麦提斯的轨道直径一天比一天小。每次我走进他们巨大的伪工业工作区开会时,我都会想象自己在漂亮的计算机工作站上不停地工作。我幻想着真的在做我花了几天时间谈论的有趣的工作。

快进 。我现在写这篇博客是作为芝加哥 2018 年冬季 Metis 训练营的一部分。我刚开始第二周。我已经几个月没有发邮件或者和招聘经理讨价还价了。

我现在开始了我计划了多年的旅程,这个博客将是一个旅行日志。一个合适的在那里,再黑一次。现在我只需要找到咕鲁并偷出一个算法来统治他们。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

My fantasy come true, in all of its stunning beauty

分解 CDC 的“500 个城市”健康指标数据集(包括代码)

原文:https://towardsdatascience.com/breaking-down-the-cdcs-500-cities-health-metrics-data-set-code-included-625ed534088e?source=collection_archive---------21-----------------------

疾病预防控制中心的“500 个城市”数据集包含了美国 500 个最大城市超过 28,000 个不同人口普查区域的各种健康指标。这是一个令人敬畏的数据集,因为它包含了大量的地点,也因为它包含了每个非常具体的地点的大量详细的结构化数据。在这篇文章中,我会给你一些关于如何重新格式化“500 个城市”的建议,让它更有用。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

像许多数据集一样,“500 个城市”将需要我们做一些工作,使其成为可用的格式。首先要注意的是,数据集大约有 800,000 多行,因为 28,000 多个人口普查区域中的每个都有一行用于收集 20 多个指标中的每个,包含这些人口普查区域的 500 个城市中的每个都有一行用于收集同样 20 多个指标中的每个的平均值。我不确定 CDC 为什么决定以这种格式发布数据,但有一种快速的方法可以清理数据,使其可用于各种项目和实验。下面是几个例子。

更改数据帧格式

正如我上面提到的,数据集的实际布局并不理想。组织数据框的一种更直观的方式是将 28,000 多个人口普查区中的每一个表示为单独的一行,并在该行中为每个健康测量值设置单独的一列。以这种方式组织需要几个步骤:

阅读《和熊猫在一起:500_cities_data = pd.read_csv("./<your file path")中的“500 个城市”数据

屏蔽数据框以隔离城市级数据或人口普查区级数据。如果您的目标是人口普查级别的数据,您的代码应该是:

census_data = 500_cities_data[500_cities_data["GeographicLevel"] == "Census Tract"] 

如果您查看census_data(我们在步骤 1 中创建的新数据框架)的列,您会看到一个标记为“Measure”的列查看带有census_data["Measure"].value_counts()的那一列中的唯一值,您将看到收集的所有健康指标(例如,“18 岁以上成年人中的慢性肾病”)。请注意,每个测量值有 28,004 个,数据集中表示的每个普查区域一个。

创建一个感兴趣的所有健康指标的列表,确保它们在上面的 value_counts 中的拼写正确,如下所示

measures_of_interest = [“Chronic kidney disease among adults aged >=18 Years",”No leisure-time physical activity among adults aged >=18 Years", ... , ...]

我们将为列表measures_of_interest中的每个测量制作一个数据帧。一个快速的方法是从列表理解开始,制作一个数据帧列表,如下所示:

data_frame_list = census_data[census_data[“Measure”] == x] for x in measures_of_interest] 

如果您查看data_frame_list ( data_frame_list[0])中的第一个数据帧,您将看到一个包含您的measures_of_interest列表中第一个健康指标数据的数据帧,每个人口普查区域占一行。

下一步是循环通过data_frame_list并提取每个普查区域的实际值。有几种方法可以做到这一点,但是我使用了一个 for 循环来提取列表中每个数据帧的Data_Value列,以及我想要保留用于分析的其他各种列。确保保留UniqueID列;我们需要重置每个数据帧的索引(原文如此),以适当地循环,保持UniqueID将允许我们正确地合并我们的数据。我们还可以使用UniqueID来使我们的健康数据与其他数据框架兼容,我将在本文稍后介绍。我还建议保留GeoLocation列,因为我们稍后可以用它来生成纬度和经度。

为了提取信息,我们将创建一个空列表,我们可以用新的数据帧填充它,并循环通过data_frame_list来提取我们想要的信息。将您想要从data_frame_list内的数据帧中提取的任何更多列作为键/值对添加到temp_df行,其中键是列名,值是列本身:

metric_dfs = []
for df in data_frame_list:
    df.reset_index(inplace=True, drop=True)
    temp_df = pd.DataFrame({df.MeasureId[0]:df.Data_Value,                
              "UniqueID":df.UniqueID, "GeoLocation":df.GeoLocation, 
               "state":df.StateAbbr, "population":df.PopulationCount, ... })
    metric_dfs.append(temp_df)

我们在metric_dfs中的数据帧现在是一种直观的格式!现在让我们制作一个master数据框架,使用UniqueID作为我们连接metric_dfs的列。首先实例化master数据帧,如下所示:

master = pd.merge(left = metrics_dfs[0], right = metrics_df[1],
                  how = 'left', on = 'UniqueID')

我们可以使用 for 循环将metrics_dfs中剩余的数据帧与master合并:

for i in metric_dfs[2:]:
    master = master.merge(i, how = "left",on="GeoLocation")

最后一步是从metric_dfs中的数据帧中删除重复的列。为此,只需像这样重新分配master(在下面的代码块中,我们用.T转置数据帧,删除重复的列,然后将数据帧转置回其原始配置):

master = master.T.drop_duplicates().T

现在,您已经有了一个格式正确的“500 个城市”数据集可以使用了!您仍然可以删除或创建大量的列,但是我让您按照自己的意愿去做。如果您想从数据中获得更多信息,请继续阅读!

使用正则表达式提取纬度和经度

我建议在创建纬度和经度之前清理您的数据,但是您可以在过程的任何步骤中这样做,只要您保留了 **GeoLocation** GeoLocation这个数据帧中的值实际上是填充在一个字符串中的人口普查区域的纬度和经度,但是我们可以使用 RegEx 通过以下步骤将它们提取出来:

进口 RegEx: import regex as re。如果您还没有,请使用!pip install regex

接下来我们将使用 RegEx 的.findall()函数来定位纬度和经度。如果你不熟悉正则表达式,我强烈推荐 RegEx101 来掌握窍门或者为你的给定任务开发正确的正则表达式模式。下面两行使用列表理解和特定的正则表达式模式来提取纬度和经度,并将它们转换为float64对象,并将新列添加到我们的 DataFrame 中:

master['Latitude'] = [float(re.findall("(\d+.\d+),", master.GeoLocation[i])[0]) for i in master.index]master['Longitude'] = [float(re.findall("-\d+.\d+", master.GeoLocation[i])[0]) for i in master.index]

您的数据现在有明确的纬度和经度数据!您可以将这些数据用于地图绘制或任何需要纬度和经度列的事情。

从唯一 ID 创建 5 位 FIPS 代码

对我们的数据帧的一个快速但有用的修改是拉出五位数的 FIPS 码(注意:有几种不同的 FIPS 格式;五位数格式指定了州和县),这将允许我们将“500 个城市”数据与其他外部数据集适当地结合起来。我们的UniqueID列实际上是一个长格式的 FIPS 代码,其中前两位指定州,第三、第四和第五位指定县。提取前五个数字,并创建一个新的FIPS5列,其列表理解如下:

master['FIPS5'] = [x[0:5] for x in master.UniqueID]

现在让我们把这些新的 FIPS 代码工作!

结合“500 城”与收入数据

让我们把健康数据和收入数据结合起来。维基百科上有一个很棒的表格(这里是)包含了美国每个县的收入数据。如果你知道怎么刮,那就去刮吧!如果你是这类事情的新手,去 Wiki 表格转换器,粘贴 Wikipedia 页面链接,下载 csv。无论你选择哪条路线,用熊猫读取数据:us_income_data = pd.read_csv('./<your file name>')

如果你查看维基百科表格中的数据,我们有县和州名,但没有 FIPS 代码。幸运的是,我们可以使用一个名为addfips的库来添加它们!安装库,并导入addfips。我们可以使用.get_county_fips()函数获得五位数的 FIPS 代码,只要我们指定县和州名。下面是如何对它进行编码(注意,在指定县和州时,我使用“f-strings”来创建动态字符串):

fips_codes = []
index = 0
for i in range(us_county_income.shape[0]):
    af = addfips.AddFIPS()
    fip = af.get_county_fips(county = f"{us_county_income['County-equivalent'][i]}",
                             state = f"{us_county_income['State'][i]}")
    fips_codes.append(fip)us_county_income['FIPS5'] = fips_codes

现在,我们的master健康数据框架和us_county_income数据框架上都有了我们的FIPS5栏目。像这样结合两者:

health_and_income_df = pd.merge(master, us_county_income,how = 'left', on = 'FIPS5')

希望这有助于你将“500 个城市”的数据转换成更有用的格式,我很高兴听到你用它做了什么!如果您有任何问题,请联系我们,或者分享您使用这些数据创建的东西!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值