绝不原创的飞龙-CSDN博客

原创 TowardsDataScience 博客中文翻译 2019（一百二十二）

一次散步正是我们在公园或其他地方进行漫无目的的漫步时所做的事情。我们站在某个地方(可以认为是公园里有一些坐标的位置)，迈一步，最后到了另一个地方(是公园里的某个其他位置)。*漫步，*或者更准确地说，关于本文的内容，随机漫步是系统从一个状态到另一个状态的转换序列。需要注意的一个重要事实是，这种转移是随机的，或者形式上有一个概率分布。在本文中，我们介绍了使用 Azure 平台从物联网设备接收和使用消息的参考设置，包括物联网中心、Azure 流分析和 Azure 事件中心。

2024-09-25 00:45:52 685

原创 TowardsDataScience 博客中文翻译 2019（一百二十九）

拥有大型数据集对于深度学习模型的性能至关重要。然而，我们可以通过增加我们已经拥有的数据来提高模型的性能。深度学习框架通常有内置的数据增强工具，但这些工具可能效率低下或缺乏一些必要的功能。在这篇文章中，我将概述最流行的图像增强包，专门为机器学习设计的，并演示如何使用这些包与PyTorch框架。对于每一个图像增强包，我都介绍了用二进制遮罩和边界框转换图像、流水线转换以及用 PyTorch 进行转换。我正在使用下面的演示图像:Demo image这篇文章的完整代码在这个 Jupyter 笔记本中提供。

2024-09-25 00:45:15 865

原创 TowardsDataScience 博客中文翻译 2019（一百二十三）

对于这个例子，我们将采用整个赛季的 NHL 每日游戏统计数据。输出将由两行数据组成，每行是一个队对比赛的看法。这些数据将以CSV(逗号分隔值)格式保存到一个文本文件中，这本质上只是一个 excel 工作表，但它没有用线来分隔单元格，而是用逗号和换行符。作为参考，我们将从 NHL.com 每日统计页面的假设你是留言板或评论区的版主。你不想阅读你的用户在网上写的所有东西，但你想在讨论变得不愉快或人们开始到处散布种族诽谤时得到提醒。所以，你决定为自己建立一个自动检测仇恨言论的系统。

2024-09-25 00:44:37 643

原创 TowardsDataScience 博客中文翻译 2019（一百二十七）

数据清理是任何机器学习项目中最重要的部分。事实上，您的数据可能有多种格式，并且分布在不同的系统中，这使得在将数据提供给 ML 模型之前，必须对其进行适当的处理。数据准备是 ML 流程中最繁琐和耗时的步骤之一(一些调查显示，数据科学家将 80%的时间花在数据准备和管理上！).然而，这也是最关键的一步，因为输入数据是模型的主要成分。Python 提供了某些包，这些包提供了不同的工具来简化数据准备过程，其中一个解决方案是使用自定义转换器和管道。

2024-09-25 00:44:01 653

原创 TowardsDataScience 博客中文翻译 2019（一百二十一）

我希望这篇文章能帮助你了解这个 R 包通知程序，它使得从 R 发送桌面通知成为可能——我甚至不知道这是可能的。这篇文章中使用的完整代码可以在我的 github上找到。如果你对学习处理 web 数据感兴趣，可以看看这篇关于处理 Web 数据的教程请在评论中告诉我们你想尝试或已经尝试过的通知！本文原载于DS+如果你从事教学工作或者喜欢实验，并且不想使用陈词滥调的数据集，那么fakir是一个非常好的软件包。正如fakir包的作者在描述中提到的，是另一个这样的 R 包，它帮助生成有意义的虚假数据。

2024-09-25 00:43:22 634

原创 TowardsDataScience 博客中文翻译 2019（一百二十）

创建于 2008 年的是一个独特的电影问答游戏，人们上传电影剧照，其他人必须猜猜这张照片是从哪部电影中拍摄的。在十多年的时间里，该网站已经从我们的优秀用户上传的 30 000 部电影中积累了超过 470 000 张图片。我们重视质量胜于数量。因此，并非所有提交的图像都会被接受。今天，我们可以拥有超过一百万张图片，但这不是我们的首要任务。上传的图像必须对测验有趣，测验本身应该在难度和电影类型方面保持平衡。主要区域如下所示:给你一张取自电影场景的图片，你必须猜电影的名字。

2024-09-25 00:42:47 749

原创 TowardsDataScience 博客中文翻译 2019（一百九十四）

没有扎实的线性代数基础，理解主成分分析(PCA)背后的数学是一个挑战。当我在旧金山的 General Assembly 教授数据科学时，我发现帮助学生可视化特征和主成分之间的转换极大地增强了他们的理解。PCA 是一种降维技术，它有四个主要部分:特征协方差、特征分解、主分量变换和根据解释的方差选择分量。这个博客的目的是分享一个视觉演示，这个演示是帮助学生理解最后两步。如果你读了我的第一篇文章，你有希望很好地理解什么是特性工厂，为什么它很重要，以及如何最好地培养一个特性工厂的一般想法。

2024-09-25 00:42:10 938

原创 TowardsDataScience 博客中文翻译 2019（一百九十六）

深度前馈网络或者也称为多层感知器是大多数深度学习模型的基础。像CNN和RNNs这样的网络只是前馈网络的一些特例。这些网络主要用于监督机器学习任务，其中我们已经知道目标功能，即我们希望我们的网络实现的结果，并且对于实践机器学习极其重要，并且形成了许多商业应用的基础，这些网络的存在极大地影响了诸如计算机视觉和NLP等领域。前馈网络的主要目标是逼近某个函数 f*。例如，回归函数 y = f *(x)将输入 x 映射到值 y。前馈网络定义了映射 y = f(x；θ)并学习导致最佳函数逼近的参数θ的值。

2024-09-25 00:41:31 732

原创 TowardsDataScience 博客中文翻译 2019（一百九十八）

小时候，我一直想帮助尼莫回到他爸爸身边。我只是不知道怎么做。现在我在技术的陪伴下成长，我想我终于找到了出路。我们可以用 Azure 帮助马林找到尼莫。Azure 订阅—查看如何为学生激活AzureAzure 自定义视觉帐户尼莫的照片Azure Custom Vision 是一项认知服务，让我们可以构建、部署和改进我们自己的图像分类器和对象检测器。图像分类器是一种人工智能服务，它根据图像的视觉特征将标签应用于图像，而对象检测器是一种人工智能服务，它在图像中找到特定的对象，在我们的情况下，就是 Nemo。

2024-09-25 00:40:51 811

原创 TowardsDataScience 博客中文翻译 2019（一百九十五）

遗传算法(GA)是一种数学模型，其灵感来自著名的查尔斯·达尔文的自然选择思想。在不同的世代中，自然选择只保留最适合的个体。想象一下 1900 年有 100 只兔子，如果我们看看今天的数量，我们会发现其他兔子比它们的祖先更快更熟练地找到食物。在模型中包含更多要素会使模型更加复杂，并且模型可能会过度拟合数据。一些特征可能是噪声，并可能损坏模型。通过移除那些不重要的特征，该模型可以更好地概括。Sklearn 网站列出了不同的功能选择方法。这篇文章主要是基于那个网站的主题。

2024-09-25 00:40:10 625

原创 TowardsDataScience 博客中文翻译 2019（一百九十二）

FastText 的核心依赖于用于单词表示的连续单词包(CBOW)模型和一个分层分类器来加速训练。连续单词包(CBOW)是一个浅层神经网络，它被训练来从其邻居预测一个单词。FastText 用预测类别取代了预测单词的目标。这些单层模型训练速度非常快，并且可以很好地扩展。此外，fastText 用分层的 softmax 替换标签上的 softmax。这里每个节点代表一个标签。这减少了计算量，因为我们不需要计算所有标签的概率。有限数量的参数减少了训练时间。

2024-09-25 00:39:30 1135

原创 TowardsDataScience 博客中文翻译 2019（一百九十九）

你会在竞赛讨论中发现许多更好的讨论，所以如果这些想法没有让你获得最高的 LB 分数，请原谅这篇文章。这真的是我在比赛中学到的东西的个人总结。最后，我保证会参加更多的比赛，希望你会在最近的比赛中发现“rm-rf /”队。我已经被“Kaggle Bug”咬了一口，比起注册更多的 MOOC，我可能更喜欢未来的比赛LB 上见，快乐的卡格林！如果你觉得这些面试很有趣，并且想成为我的学习之路的一部分，你可以在 twitter 上找到我。如果你有兴趣阅读关于深度学习和计算机视觉的新闻，可以查看我的简讯这里。

2024-09-25 00:38:49 866

原创 TowardsDataScience 博客中文翻译 2019（一百九十三）

什么是特性，为什么我们需要它的工程化？基本上，所有的机器学习算法都使用一些输入数据来创建输出。该输入数据包括特征，这些特征通常是结构化列的形式。算法需要具有某些特定特征的功能才能正常工作。这里，出现了对特征工程的需求。准备适当的输入数据集，与机器学习算法要求兼容。提高机器学习模型的性能。你使用的特性比其他任何东西都更能影响结果。据我所知，没有任何算法可以单独补充正确的特征工程所提供的信息增益。—卢卡·马萨隆根据《福布斯》的一项调查，数据科学家花费80%的时间在。

2024-09-25 00:38:11 590

原创 TowardsDataScience 博客中文翻译 2019（一百九十七）

任何机器学习算法的目标都是在样本数据中找到模式，然后使用这些模式来预测给定的未知样本(测试)数据的结果。机器学习算法学习的模式被编码在模型的权重(也称为参数)中。然而，机器学习算法可以应用于不同类型的数据，即使对于数据“类型”相同的情况，数据的分布也可能不同。一个具体的例子，让我们看看 scikit-learn 的支持向量分类器(SVC)的 API。根据上图，您可以理解为不同类型和分布的输入数据集找到 C、核、度、Gamma 和 Coef0 的适当组合并不是一项简单的任务。

2024-09-25 00:37:35 766

原创 TowardsDataScience 博客中文翻译 2019（一百九十一）

你在一家管理意大利大城市地铁运输的公司担任业务分析师，你需要向营销和传播部门提供该地区酒吧和咖啡馆的列表，并向他们分发可以贴在窗户上或房间内的地图。此外，销售部门将联系离车站最近的酒吧和咖啡馆，提议加入贵公司提供的交通服务的售票计划。这是一个每月发生的定期请求。在试图理解使用深度学习的对象检测的关键概念和里程碑时，之前关于使用 CNN【1】的区域的文章强调了有史以来第一个具有深度学习主干的检测器网络中每个阶段的功能和训练细节。这篇文章深入挖掘了它的热门继任者 Fast R-CNN 的细节。[2]

2024-09-25 00:36:47 1073

原创 TowardsDataScience 博客中文翻译 2019（一百三十四）

好吧，如果你刚刚从 10 年的昏迷中醒来，不知道什么是数据科学，不要担心，还有时间。很多年前，统计学家有一些很好的想法来分析数据并从中获得洞察力，但他们缺乏计算能力，所以他们的手被束缚住了。直到有一天，计算机设法赶上了那些家伙，并使他们所有的梦想成真。突然间，我们不仅拥有了历史上前所未有的可用数据，而且我们还拥有了强大的机器来对这些数据进行繁重的计算，让统计学家可以尝试所有这些新算法。数据科学是统计学和计算机科学联姻的产物。换句话说，它是利用计算机能力从数据集中提取有用模式的科学。

2024-09-25 00:35:22 1428

原创 TowardsDataScience 博客中文翻译 2019（一百三十六）

数据科学就是理解数据，这在商业中至关重要。它主要是用 Python 或 R(编程语言)完成的，目的是从业务数据中提取有趣的可操作信息。在我们定义 KPI 之前，我们需要首先引入指标。那么什么是度量呢？指标只是一个测量单位，用于定量评估或评价。例如，厘米是一种公制，它用来描述长度。度量对于成长是必不可少的，正如现代企业管理之父彼得·德鲁克曾经说过的，“你不能改进你不度量的东西”。就像运动员试图将自己的最好成绩缩短几秒钟一样，电子商务商家也在努力提高他们商店的转化率。那么什么是 KPI 呢？KPI 代表。

2024-09-25 00:34:42 823

原创 TowardsDataScience 博客中文翻译 2019（一百三十八）

这是对数据科学项目流程的建议。它也非常具体，范围有限——为了简单和可见性——并且显然不能涵盖实践中存在的这个流程的许多变体。也代表了我的经历。出于所有这些原因，我希望听到您在运行、领导或管理数据科学项目时的反馈、见解和经验，无论这些项目的规模有多大，也无论您所在的数据科学团队有多大。关于这个话题的另一个精彩观点，我推荐阅读我的朋友 Ori 关于数据科学敏捷开发的文章。因巴尔·纳尔，希尔·梅厄·拉多尔(@数据夫人)和@塞弗。科恩对他们的反馈。Shay 是一名数据科学顾问。他还为一些社区项目工作。

2024-09-25 00:34:05 933

原创 TowardsDataScience 博客中文翻译 2019（一百三十五）

代码重构是对代码进行修改，以提高其可读性和性能。对于性能部分，这意味着您必须调整代码，以减少内存使用或缩短运行时间。首先，让我们完成导入和数据加载。Seaborn 更喜欢这里。当我在 jupyter 笔记本上创建情节时，我使用 seaborn 来设置情节背景。现在我们的导入和数据已经设置好了，让我们来看看我们的 ecdf 绘图功能。*"""**"""*对于速度重构，我们将关注于定义yaxis的地方。注意，我们调用了两次len()来构造yaxis。这导致运行时间不必要的增加。

2024-09-25 00:33:26 1099

原创 TowardsDataScience 博客中文翻译 2019（一百三十二）

当训练机器学习模型时，我们通常会瞄准在某些指标上得分最高的模型，例如准确性。自然地，当我们训练一个在我们的验证或测试数据集上表现很好的模型时，我们选择它作为一个表现良好的模型，并生产/最终确定它。但是，您是否遇到过这样的情况:一个模型在测试期间表现良好，但在实际使用中却无法达到相同的性能水平？例如，您的模型在测试期间是否达到了 99%的准确性，但是一旦它被生产出来并作用于真实数据，它就无法达到那个性能水平？测试性能和真实性能之间的这种差异通常可以用一种叫做数据泄漏的现象来解释。

2024-09-25 00:32:47 695

原创 TowardsDataScience 博客中文翻译 2019（一百三十九）

不要盲目的变换和反变换数据！转换后的数据通常会产生无法解释的系数(没有求解适当的方程)自然对数转换是这个规则的一个重要例外。ln 变换产生系数，其中 X 增加一个单位，y 增加β÷100β÷100。回归有一些假设，必须满足这些假设才能产生有意义的结果和良好的预测。诊断图将允许您评估您的模型满足这些假设的程度。数据的转换需要仔细考虑。始终为您创建的任何模型提供诊断图！您可以将这些内容放在文档/演示文稿末尾的附录中。

2024-09-25 00:32:13 684

原创 TowardsDataScience 博客中文翻译 2019（一百三十三）

Snapchat 拥有超过3 亿月活跃用户、和每天创建的 30 亿张快照，是一家拥有巨大数据宝库的公司。这种类型的数据可以进行各种有趣的分析，对于那些有社会科学背景的人来说尤其有趣。Evan Chow就是这样一个人，拥有普林斯顿大学经济学、统计学和机器学习的本科背景。他已经在 Snapchat 担任了两年的数据科学家，他的工作包括因果推理、应用计量经济学、定量社会科学研究和异常检测。在这篇文章中，我们将探讨 Evan 是如何用技术技能增加他的社会科学背景的，他在 Snapchat 所做的工作类型，以及。

2024-09-25 00:31:36 622

原创 TowardsDataScience 博客中文翻译 2019（一百三十七）

数据科学中的方法论是组织你的工作的最佳方式，可以做得更好，并且不浪费时间。数据科学方法由 10 个部分组成:Source:从问题到方法从需求到收集从理解到准备从建模到评估从部署到反馈如果我们看最后一张图中的图表，我们会看到它是高度迭代的，永远不会结束；这是因为在真实的案例研究中，我们必须重复一些步骤来改进模型。

2024-09-25 00:30:57 1004

原创 TowardsDataScience 博客中文翻译 2019（一百三十一）

数据仓库是一种数据存储或数据仓库的体系结构，它使用了不同于标准操作数据库的设计。与操作数据库不同，数据仓库旨在提供长期的数据。因此，数据聚合被触发，交易量成为一种权衡。处理数据的过程是混乱的，需要仔细的计划、工程和研究，并且包含许多未知和陷阱。最重要的是，人们并不总是清楚如何利用数据，因为数据本身太嘈杂，无法提供价值。把数据等同于石油，就是忽略了这个杂乱而复杂的现实。话虽如此，我们今天看到的最强大的数据应用之一可以说是个性化，它推动了亚马逊、脸书、谷歌、网飞、Spotify 等科技公司的成功。

2024-09-25 00:30:19 851

原创 TowardsDataScience 博客中文翻译 2019（一百三十）

想象一下，你最终得到了一份数据科学的工作，它需要手动检查、标记和分类添加到数据集的每一个新数据。这样的工作会是一个枯燥乏味的工作！此外，今天收集的数据量超过了大西洋的水量。这不可能由一个人完成，更不用说有一大群数据科学家了。解决办法？您可能听说过数据聚类。这是将数据分组并将其分类到组和簇中的自动化过程。一个集群可以被认为是数据的集合，这些数据彼此之间有许多相似之处，并且它们与其他集群中的对象不同。在本文中，以简化的方式解释了一种依赖于哈密顿动力学的聚类算法。

2024-09-25 00:29:42 645

原创 TowardsDataScience 博客中文翻译 2019（一百七十四）

团结就是力量”。这句老话很好地表达了机器学习中非常强大的“集成方法”的基本思想。粗略地说，通常信任许多机器学习竞赛(包括 Kaggle 的竞赛)的顶级排名的集成学习方法是基于这样的假设，即将多个模型组合在一起通常可以产生更强大的模型。这篇文章的目的是介绍集成学习的各种概念。我们将为读者提供一些必要的答案，以便更好地理解和使用相关方法，并能够在需要时设计合适的解决方案。

2024-09-25 00:29:03 805

原创 TowardsDataScience 博客中文翻译 2019（一百七十六）

期望和方差是一个基本而又重要的话题。为了解决统计问题和理解机器学习，数据科学家必须深入理解这一主题。让我们做一个快速测试来检查你的理解。你如何从 PDF 或 CDF 中得到期望和方差？如果 PDF 或 CDF 没有明确定义，还有什么其他方法？什么是渐近方差？我们如何计算它，为什么它很重要？给定我们的特征，目标变量的条件期望和条件方差是什么？如何应用于线性回归？期望和方差如何应用于贝叶斯统计？比方说，如果下雪，我们在一天中以 0.2 的概率去杂货店，如果不下雪，以 0.6 的概率去杂货店。

2024-09-25 00:28:15 831

原创 TowardsDataScience 博客中文翻译 2019（一百七十八）

简单地说，激活函数是添加到人工神经网络中的函数，以便帮助网络学习数据中的复杂模式。当与我们大脑中基于神经元的模型进行比较时，激活功能最终决定向下一个神经元发出什么信号。这也正是激活函数在人工神经网络中的作用。它接收前一个单元的输出信号，并将其转换成某种形式，可以作为下一个单元的输入。下图总结了这种比较。语义分割问题是由一些最早的 CNN 如 AlexNet，VGG，Inception，ResNet 等解决的。然后出现了这些模型的改进版本，如 Wide ResNet、Xception、ResNeXt 等。

2024-09-25 00:27:37 805

原创 TowardsDataScience 博客中文翻译 2019（一百七十五）

我们上周的表现好于平均水平，总共得了 51 分，由于恩多姆贝勒和坎特的受伤，只有 10 名球员参加了比赛。如果拉什福德没有错过那个点球，我们会做得更好。见下文:上周我们又一次表现得比平均水平好，但也比 61 分好不了多少。我在考虑让亚伯拉罕代替斯特林做队长，这本来是一个好的选择，但是，唉…我们都知道在 EPL 的幻想中“本可以，本应该”的痛苦我们经历了有史以来最糟糕的一周，这让我们很受伤，因为我们决定在转会上花 8 分来得到更多失望的曼城球员。

2024-09-25 00:26:53 581

原创 TowardsDataScience 博客中文翻译 2019（一百七十二）

输入 ELMo。它由 AllenNLP 在 2018 年开发，超越了传统的嵌入技术。它使用深度的双向 LSTM 模型来创建单词表示。ELMo 不是一个单词及其对应向量的字典，而是在单词使用的上下文中分析单词。它也是基于字符的，允许模型形成词汇表外单词的表示。因此，这意味着 ELMo 的使用方式与 word2vec 或 fastText 完全不同。ELMo 没有在字典中“查找”单词及其相应的向量，而是通过将文本传递给深度学习模型来动态创建向量。阅读、回复甚至整理电子邮件往往会耗费大量时间。

2024-09-25 00:26:07 761

原创 TowardsDataScience 博客中文翻译 2019（一百七十九）

这就结束了我们的雪花参数系列。我希望这是一个有用的介绍。不过，需要注意的是:不要在生产雪花环境中更改任何参数，除非有强有力的理由，并且该更改已经过测试和批准。对于 DBA:在创建或修改用户帐户或仓库时，考虑为这里描述的一些参数分配标准值。如果你喜欢这篇文章，请鼓掌欢迎，并在 Medium、Twitter 和 LinkedIn 上关注我。TensorFlow 是 Google 在 2015 年开源的通用高性能计算库。从一开始，它的主要焦点就是为构建神经网络(NNs)提供高性能的 API。

2024-09-25 00:25:31 808

原创 TowardsDataScience 博客中文翻译 2019（一百七十三）

在这篇文章中，我们看到了如何使用 PySpark 来执行时间序列数据的端到端插值。我们已经演示了如何使用重采样时间序列数据，以及如何将Window函数与first()和last()函数结合使用来填充生成的缺失值。然后，我们看到了如何使用用户定义的函数来执行简单的样条插值。希望这篇帖子有助于填补 PySpark 中关于端到端时间序列插值的文献空白。原发布于。简而言之，主题模型是一种统计语言模型，用于揭示文本集合中隐藏的结构。降维，不要将文本T。

2024-09-25 00:24:53 944

原创 TowardsDataScience 博客中文翻译 2019（一百七十七）

二元分类模型可以用精确度、召回率、准确度和 F1 度量来评估。我们不必指定指标适用于哪个组，因为模型只有两个选项可供选择；观察值要么属于该类，要么不属于该类，模型可能是正确的，也可能是不正确的，因此有混淆矩阵的四个部分。当模型有多个类别作为预测选项时，我们必须计算适用于每个类别的指标。敏感度是评估模型预测每个可用类别的真阳性的能力的指标。特异性是评估模型预测每个可用类别的真实否定的能力的指标。这些指标适用于任何分类模型。计算这些指标的公式如下。你可能已经注意到回忆的方程式看起来和敏感度的方程式一模一样。

2024-09-25 00:24:13 1432

原创 TowardsDataScience 博客中文翻译 2019（一百七十一）

自我网络(在人类社会网络分析中也称为个人网络)由称为自我的焦点节点和与自我直接连接的称为 Alters 的节点组成，边显示自我与祭坛之间或祭坛之间的链接。自我网络中的每一个改变者都有自己的自我网络，所有的自我网络结合起来形成社会网络。在这样的网络中，自我可以是人，也可以是商业环境中的产品或服务。在下图中，我看到了所有 Twitter 认证用户的自我网络，这些用户拥有超过 100 万的追随者。请务必查看他的媒体中关于探索和可视化网络数据的精彩帖子。

2024-09-25 00:23:35 816

原创 TowardsDataScience 博客中文翻译 2019（一百七十）

r 可以将一个分类变量表示为一个因子，它允许对类别进行任何排序。用 Rfactor函数转换成一个因子，或者更简单更通用的lessR版本factors。用级别参数指定类别或级别的顺序。在这里，将变量 Dept 转换为默认d数据框中的 R 因子，其中类别排序为财务第一，管理最后。然后将创建的因子保存回d数据框。同样，如果要转换的变量不在d数据框中，包括数据参数。现在条形图中的条形遵循指定的顺序。

2024-09-25 00:22:55 715

原创 TowardsDataScience 博客中文翻译 2019（一百一十四）

最近的技术进步使我们能够存储数量惊人的数据。最初，**【大数据】**被感知为待解决的问题。事实上，我们已经到了能够存储太多数据却不能充分利用的地步。这推动了对数据科学和人工智能进步的需求。如今，最初被认为是一个问题的东西，现在已经成为一扇通向创新世界的大门。大数据使计算机视觉和深度学习等许多研究领域蓬勃发展。这使得机器能够执行复杂的决策任务，并从原始数据中提取人类肉眼看不到的信息。生物学是一门广泛使用生物数据库来尝试解决许多不同挑战的学科，例如理解疾病的治疗和细胞功能。

2024-09-25 00:22:13 735

原创 TowardsDataScience 博客中文翻译 2019（一百一十六）

在本文中，我们已经为模型性能评估中使用的度量奠定了基础:混淆矩阵。事实上，混淆矩阵显示了分类模型的性能:有多少正面和负面事件被正确或错误地预测。这些计数是计算更一般的类统计度量的基础。在这里，我们报告了最常用的指标:灵敏度和特异性、召回率和精确度以及 F 值。混淆矩阵和类统计量已被定义为二项式分类问题。然而，我们已经展示了它们如何能够被容易地扩展以解决多项式分类问题。— — -正如最初发表在KNIME 博客红牛。

2024-09-25 00:21:35 923

原创 TowardsDataScience 博客中文翻译 2019（一百一十八）

本文将以图像分类为例来解释卷积神经网络(CNN)。它使用 Python 上的 PyTorch 框架提供了 CNN 算法的简单实现。网上有很多免费的课程。个人建议斯坦福的安德烈·卡帕西(@卡帕西)的课程。你会学到很多，这是一个循序渐进的过程。此外，它还提供了许多实现 CNN 架构的实用策略。[## 用于视觉识别的 CS231n 卷积神经网络在深入研究卷积神经网络之前，有必要了解一下它们的概念。CNN 属于监督算法的范畴。该算法从训练数据中学习，例如，输入中的一组图像和输出中的它们的相关标签。

2024-09-25 00:20:56 604

原创 TowardsDataScience 博客中文翻译 2019（一百一十五）

正如我之前提到的，蒸汽波艺术不仅仅是可怕地扭曲了一幅图像。没有那些 80 年代和 90 年代的参考，我的作品感觉不太完整。所以我拿了一堆图像和时代精神的符号，用几个随机发生器把它们组合起来，扔在那里。最重要的是，我添加了一个高对比度的滤镜，并用高斯噪声对图像进行了爆破，使图像呈现出一种老式阴极射线管电视和计算机的美感。从最基本的统计学意义上来说，条件反射包括将某个变量或一组变量固定为固定值，并观察由于将你考虑的世界限制在符合这些条件的范围内而产生的移位分布。

2024-09-25 00:20:16 788

原创 TowardsDataScience 博客中文翻译 2019（一百一十二）

在这个故事中，我们看到不同的 Transformer 模型使用不同的标记器和不同的子词标记。正因为如此，在令牌级对模型进行比较是困难的。全球标准化子词模型的可能性是一个公开的问题。即使对于英语来说，标记化的词汇也有很大差异。首先，让我们看看激活函数的识别和绘制:🌈你可以在 Google Colab 里找到代码。现在我们有了 4 个特性列表，我们终于可以用一行代码创建一个熊猫数据框架了！瞧啊。您的数据框已准备好进行后期分析！请注意出现在“名称”列中的系统生成的消息。

AIGC系列报告202312（上）

2024-02-25

公司的自建邮件服务器投不进 163，显示“451 DT:SPM”

2020-02-19

imagemagick 从 png 转换的 pdf 太大了

2020-02-19

TA创建的收藏夹 TA关注的收藏夹

TA关注的人