MLM
文章平均质量分 97
绝不原创的飞龙
这个作者很懒,什么都没留下…
展开
-
UCB CS162 操作系统笔记(五)
Okay。Anyway。Okay。All right。All right。algorithms。Okay。Okay。No, okay。Okay。Okay。A use bit。And in the。All right。Okay。Well。Okay。Yeah。Great。Okay。That’s it。Okay。原创 2024-10-23 01:30:38 · 777 阅读 · 0 评论 -
UCB CS162 操作系统笔记(二)
Okay。All right。So。Ta-da。So now。Or。Okay。So。You know。Okay。Okay。Okay, so。Okay。etc。Okay。Okay。Okay。Right。Yeah。Yeah。Okay。Oh。Well。Okay。Okay。Okay。So。All right。原创 2024-10-23 01:30:02 · 1253 阅读 · 0 评论 -
UCB CS162 操作系统笔记(九)
Well。Okay。Well。Now。Well。All right。Okay。Okay。Okay。And again。Okay。Well。right?原创 2024-10-23 01:29:29 · 705 阅读 · 0 评论 -
UCB CS162 操作系统笔记(三)
memory。Okay。Okay。All right。All right。No。Right。Likewise。Okay。Right。Right。Right。Right。Okay。Right?Right?Right?Right?Right?So instead。Yes?No?Okay?Okay。Guess what?Right?Right?Questions?原创 2024-10-23 01:28:54 · 534 阅读 · 0 评论 -
UCB CS162 操作系统笔记(七)
right。Yeah。Yeah。Okay。All right。Oh。Yeah。Okay。Okay。Okay。Okay。All right。Good。Okay。Okay。Right。All right。Okay。Yeah。Okay。Specific。Okay。All right。原创 2024-10-23 01:28:16 · 569 阅读 · 0 评论 -
UCB CS162 操作系统笔记(一)
So, anyway。Okay。Yeah。Okay。widely。Okay。Okay。is amazing。Well。I mean。原创 2024-10-23 01:27:40 · 654 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百零四)
在 Python 上下文中,集合是一种容器类型,包含唯一且不可变的元素。它的存储也没有任何特定的顺序。知道集合和列表的区别的关键是提到的前两个属性,和不可变。任何集合都不能包含具有相同值且类似于元组的多个元素。一旦创建了集合,就不能在其中修改项目。使用集合数据类型时的另一个关键方面是,与列表或数组不同,它们是无序的,或者每个元素不与集合中的唯一索引或位置相关联。了解这一点很重要,因为当创建集合时,每个项目的顺序永远不会成为集合的特征。原创 2024-10-23 01:26:59 · 669 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百零六)
单元测试是数据科学家能够掌握的最强大的技能之一,它是编程的灵魂。这是一个测试,检查代码的单个组件,通常作为一个功能模块化,并确保它按预期执行理想情况下,我们希望我们的测试很小。越小越好。这是因为更小的测试不仅从实践的角度来看更有效——因为测试更小的单元将使您的测试运行得更快——而且从概念上来说,它将为您提供粒度代码如何运行的更详细的视图。由布雷登·安德森在Unsplash上拍摄的照片与 unittest 相比,Nose2 提供了更好的插件 API,并简化了内部接口和过程。原创 2024-10-23 01:26:06 · 694 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百零八)
与 matplotlib 相比,Seaborn 中的 FacetGrid 函数提供了一种非常有用、快速和方便的方法来创建具有多个子情节的图形。通过内置的功能,这些图可以以多种方式进行定制,并制作非常漂亮的图表,以包含在您的演示或报告中。在你走之前,你一定要订阅我的内容,把我的文章放到你的收件箱里。你可以在这里做!其次,通过注册会员,你可以获得完整的媒介体验,并支持我自己和成千上万的其他作家。它每个月只花你 5 美元,你可以完全接触到所有令人惊叹的媒体文章,也有机会用你的写作赚钱。如果你用我的链接。原创 2024-10-23 01:25:22 · 782 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百零五)
回归预测一个连续的数值变量。一升汽油的价格道琼斯工业指数的价值钻石的价格Q1 2022 年的收入有许多与回归相关的算法。它们通常以“回归者”或类似的词结尾。线性回归套索如你所料,输出或预测(到目前为止)是一个连续的数字——就像石油价格一样,给出一堆与石油价格相关的数据。分类问题比回归问题更快地切入正题,预测一个*分类目标。*分类变量就像一个下拉列表框,包含可供选择的值列表。这些值可以是数字或文本,尽管它们通常以文本开头。一周中的几天衬衫尺码(小号、中号、大号)原创 2024-10-23 01:24:37 · 854 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百零二)
在过去几年从事多个计算机视觉和深度学习项目后,我在这篇博客中收集了我关于如何处理图像数据的想法。几乎总是预处理数据比直接将其输入深度学习模型更好。有时,甚至可能不需要深度学习模型,经过一些处理后,简单的分类器可能就足够了。最大化图像中的信号和最小化图像中的噪声使得手头的问题更容易处理。应用过滤器来增强特征,并使图像对光照变化、颜色等更加鲁棒。在构建计算机视觉系统时应该加以考虑。考虑到这一点,让我们探索一些可以帮助解决经典计算机视觉或基于图像的深度学习问题的方法。这个博客附带的笔记本可以在这个仓库中找到。原创 2024-10-23 01:23:55 · 1025 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百零九)
真实的组织是复杂的,许多不同的过程不断地涉及到用户。在这种情况下,不一定满足 A/B 测试所依赖的要求。在这种情况下,因果 ML 可以用来回答反事实问题。因果 ML 有许多优点:它是灵活的,它是不可知的,它允许模拟几乎任何场景。我希望你喜欢这篇文章。如果你愿意,在 Linkedin 上加我!(粗略的描述)在这个项目中,我想建立一个工具,可以帮助我的表弟,一个名叫“KC 制作音乐”的嘻哈艺术家。这个工具将评估他尚未发布的歌曲是否有可能在黄金标准音乐流媒体服务 Spotify 上流行。原创 2024-10-23 01:23:13 · 788 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百零三)
在其核心,MixNMatch 是一种使用条件生成对抗网络(GAN)的条件图像生成技术。MixNMatch 将来自不同实像的多个因子解开并编码成一个单一的合成图像。具体来说,它将不同真实图像的图像背景、姿态、形状和纹理组合成一个单一的合成图像,只需最少的监督。在训练过程中,MixNMatch 只需要一个松散的包围盒来模拟背景,而不需要物体的姿态,形状或纹理。罗斯·斯奈登在Unsplash上的照片与任何突破一样,作为实验室实验的一部分,证明数据科学问题的可行解决方案理所当然是一个激动人心的时刻。原创 2024-10-23 01:22:34 · 643 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百零七)
由瓦尔德马·布兰德在Unsplash拍摄的照片大多数时候,当我们训练一个机器学习模型时,所有的候选标签/目标都是事先知道的,这意味着如果你的训练标签是科学政治教育,你将无法预测医疗保健标签,除非你重新训练你的模型,考虑到那个标签和相应的输入数据。情感分析,也称为观点挖掘,是自然语言处理(NLP)的典型应用,广泛用于分析给定句子或语句的整体效果和潜在情感。情感分析模型以其最基本的形式将文本分类为积极的或消极的(有时是中性的)情感。因此,最成功的方法自然是使用监督模型,这种模型需要大量的标记数据来训练。原创 2024-10-23 01:20:40 · 780 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百零一)
数据管理架构的前景正在以闪电般的速度发展。每隔几个月就会有新的技术和术语出现,有时会让专业人士更难跟上发展的步伐。法托斯 Bytyqi在Unsplash上的照片最近,一个名为“数据结构”的新概念进入市场,承诺加快用户对不同数据的访问。但是什么是数据结构呢?它像听起来那样具有革命性吗?或者它只是另一种用新术语包装起来的“旧技术”?这个故事将试图用极其简单的解释来揭示数据结构的概念。希望能让任何级别的数据管理专业人员更好地理解。为了开始理解数据结构的旅程,让我们先回顾一下传统的数据管理架构。原创 2024-10-23 01:19:54 · 614 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百二十四)
生存分析。虽然生存分析是统计学的一个分支,但它通常不包含在统计学的介绍性课程中,而且对普通大众来说相当陌生。它主要是在生物统计学课程或高级统计研究项目中讲授。在这篇文章中,我将解释什么是生存分析,以及如何和在什么环境中使用它。我将解释生物统计学家用来分析生存数据的主要工具和方法,以及如何估计和解释生存曲线。我将通过具体的例子详细展示如何在 R 中应用这些技术。在实践中,生存分析几乎总是通过统计程序完成,而不是手工完成。原创 2024-10-23 01:18:49 · 1021 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百二十六)
Emmanuel Ikwuegbu 在Unsplash上拍摄的照片这是我的系列文章中的第三篇,讨论 Python 中有用的特性以及使用它们的好处。Lambda 中有什么?和什么是列表理解?当我还是计算机科学入门的助教时,我经常被问到的话题之一就是 Python 字典。学生们还不清楚 1)语法是如何工作的,以及 2)词典应该用于什么目的。我将在本文中解决这两个问题。照片由在图片栏上打开图标当我还是计算机科学入门的助教时,经常让我的学生困惑的话题之一是 Python 中的 lambda 函数。原创 2024-10-23 01:18:10 · 574 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百二十八)
毫无疑问,我们可以利用从 Strava API 获得的所有数据做更多的事情。这只是回答一个不寻常的问题的第一枪,也是一个很好的练习。如果你想分析你的 Strava 活动,找出谁是你最大的支持者,完整的代码可以在这里找到:s欢迎在下方留言,如有任何问题/备注,也可通过LinkedIn联系我!更多来了!数据科学面试中的一个常见问题是*‘当你 99%的数据属于一个类别时,你如何衡量一个分类模型的性能?’*这是一个直截了当的问题,然而许多人却结结巴巴,不知道如何回答。在本文中,我们将通过讨论。原创 2024-10-23 01:17:25 · 1003 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百二十五)
奥卡姆剃刀是一种哲学思想,也可以应用在机器学习中。在机器学习的背景下,剃刀理论认为,在其他条件相同的情况下,简单的模型比复杂的模型更受青睐。这种说法并不意味着简单的模型普遍比复杂的模型更好,而是说模型必须足够复杂以学习数据集中的模式,但又足够简单以避免过度拟合。因此,如果你想使用奥卡姆剃刀而不被割伤,请确保在决定选择更简单的模型而不是更复杂的模型之前,比较不同模型的泛化误差,并考虑你正在解决的问题的实际要求。(图片由 Pixabay 上的jarmoluk 提供)原创 2024-10-23 01:16:44 · 1187 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百二十二)
我可以在这里开始说一些术语,但是你和我都会在几秒钟内睡着。所以让我们来打个比方。想象一下,你得到了一条最有趣的科技八卦——苹果正在向娱乐性大麻领域扩张,以真正帮助人们“改变思维”。你不可能把这么激动人心的事情保密。世界必须知道。所以你把它贴在你的博客上,blogspot.applefansunite.com。完成了,对吧?就像 Hyperloop 隧道中的汽车一样,我们都知道它不会去任何地方。你不能只是把故事放在某个地方,然后希望人们会发现它。你必须把它送到人们手中。原创 2024-10-23 01:16:03 · 593 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百二十九)
虽然不像其他“数据”学科(科学、工程、管理、分析师等)那样吸引人,但数据治理是目前大多数公司都无法承受的一个领域。在这篇文章中,我将讨论为什么这很重要,以及为什么不管是哪家公司,这都是双赢的。坎凯奥·维莱辛在Unsplash上拍摄的照片这是关于数据治理及其相关性系列的一部分。主数据管理(MDM)通常被认为是数据治理的一部分。先从了解主数据开始。毕竟,这是我们的目标。关于Wikipedia主数据的定义表示包含最有价值的、在整个组织中共享的一致同意的信息的业务对象。原创 2024-10-23 01:15:19 · 924 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百二十三)
(用DALLE Mini创建)我们应该永远相信一个表现良好的模型吗?一个模特可能会拒绝你的抵押贷款申请或者诊断出你患有癌症。这些决定是有后果的。后果严重。即使他们是正确的,我们也会期待一个解释。人类可以给一个。人类能够告诉你,你的收入太低,或者一群细胞是恶性的。为了从一个模型中得到类似的解释,我们把目光投向了的可解释机器学习领域。我们探索这个领域,了解它的目标是什么。本质上可解释的模型模型不可知的方法因果模型反事实的解释对立的例子非不可知方法。原创 2024-10-23 01:14:30 · 777 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百二十七)
图片由在Pixabay上作为一名数据科学家,您可能已经听说过 SQL 和 r。SQL 非常适合与关系数据库进行交互。另一方面,r 是执行高级统计分析的一个很好的工具。然而,有些任务在 SQL 中比在 R 中简单,反之亦然。如果我们能有一种工具,可以结合每种工具的优点,会怎么样?这就是**sqldf**派上用场的地方。本文旨在强调sqldf的一些特性,类似于 SQL 中的特性。sqldf是一个开源库,用于在 R 数据帧上运行 SQL 语句。原创 2024-10-23 01:09:15 · 916 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百二十一)
卡尔曼滤波器是一种复杂的算法,在大多数情况下,人们在没有完全理解其方程的情况下使用它。当我开始使用卡尔曼滤波器时,我也是这样做的。我阅读了一堆试图直观地解释算法的教程,但这样做,忽略了关于协方差矩阵的作用的关键部分。我正在开发的产品是一个基于检测的物体追踪器。其中,卡尔曼滤波器用于预测和更新给定视频流中对象的位置和速度,以及对每一帧的检测。在某些情况下,我们还想通过调整给定运动角度的对象的位置来考虑摄像机的倾斜和平移。当然,物体的速度应该不受这种摄像机运动的影响。原创 2024-10-23 01:08:32 · 610 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百二十)
21 世纪初,LinkedIn、网飞和优步等公司遇到了问题。整个组织的团队都在大规模地处理数据,而且是大量的数据。数据为他们的产品路线图提供动力,推动管理层决策,并为他们的付费营销活动提供信息。内部和外部数据在公司内外流动。对于如何使用这些数据以及由谁使用这些数据,有一些法规、指导方针和限制。但没有人负责开发数据解决方案,以使分析具有可操作性、可扩展性和可访问性。存在哪些数据?谁需要这些数据?这些数据从哪里流入/流出?这些数据有什么用?有没有一种方法可以更容易地处理/访问这些数据?原创 2024-10-23 01:07:24 · 917 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百三十四)
在运行你的 A/B 测试之前,你是否估计了效应大小并计算了样本大小?当您结束 A/B 测试时,您是否只检查一次p值?当p-值为 5.1%(比阈值 5%高 0.1%)并且已经达到预先计算的样本量时,您是否会停止实验并得出产品特性没有改善业务的结论,而不是延长实验时间?如果你对任何一个问题的回答是否定的,那么你的实验的假阳性率(第一类错误率)很可能是夸大的。当实验者在实验达到预先计算的样本量1】之前,根据观察到的结果偷看并做出决定时,假阳性率被夸大。原创 2024-10-23 01:06:43 · 1034 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百三十六)
XGBoost(极限梯度提升)是一种强大的学习算法,在过去的许多比赛中胜过了许多传统的机器学习算法。简而言之,XGBoost 集顺序和并行架构于一身:虽然它是一种顺序学习算法(加法策略),但它将并行计算融入其架构中,以提高系统效率。制作人:杉尾道夫这篇文章是针对初学者的 XGBoost 的介绍性概述,是一篇一站式的文章,它将向您提供关于 XGBoost 的整体情况(如果不是细节的话)——它的谱系、架构特性和创新特性。原创 2024-10-23 01:06:00 · 602 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百三十八)
机器学习中最常见的任务之一是二进制分类。在这些任务中,目标是建立一个可以预测某个现象是否会发生的机器学习模型。现象可能是任何东西:客户是否会流失,是否会发生地震,用户是否会喜欢一部电影。由于问题是二元的,我们的目标向量只由 1(也称为正)和 0(也称为负)组成。当积极因素比消极因素少得多时,就会出现阶层失衡。阳性占总数的百分比也称为患病率。即使没有硬阈值,当患病率≤ 10%时,我们也会同意考虑数据集不平衡。在实际应用中,类不平衡是最常见的情况。的确,很多值得解决的问题本来就不平衡。这是因为资源有限。原创 2024-10-23 01:05:18 · 756 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百三十五)
数据库是存储和处理产品。他们从应用程序中获取数据并存储它们。当您发出查询时,数据库引擎会处理这些查询,并将查询的输出返回给您。应用程序捕获的数据种类以及用户使用数据的方式千差万别。早期,存储和处理工作负载分为两大类:事务性和分析性。最近,数据工程中出现了第三种类型的工作负载— translytical。本文将研究这三种类型的工作负载——何时使用它们以及它们的定义特征是什么。本文还将带您浏览一些示例和资源,以进一步理解这些工作负载。请记住,这三种工作负载是运行各种数据库、数据仓库、数据湖、数据集市等的基础。原创 2024-10-23 01:04:43 · 658 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百三十二)
SHAP 值似乎消除了机器学习模型的复杂性和解释难度之间的权衡,鼓励研究人员和数据科学家设计算法,而不用担心如何理解任何黑盒给出的预测。但是 SHAP 能解释所有的财产吗?在这篇文章中,我们将通过一些例子来讨论 SHAP 价值观的一个重要弱点。可能的解决方案概述也将很快提交。GDPR,简称通用数据保护条例,是一项于 2018 年 5 月生效的条例,更新和规范了整个欧盟(EU)的数据隐私法律。官网将其定义为“世界上最严厉的隐私和安全法”。要求用户同意处理他们的数据。匿名化从用户处收集的数据以保护隐私。原创 2024-10-23 01:04:06 · 1043 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百三十三)
使用问题来获得对你的工作的更好的清晰和理解。如果做一个假设,问问自己这是不是作品的准确写照,还是需要更多的洞察?使用问题来帮助促进您的持续学习之旅。问问你自己你知道什么,不知道什么?你想在哪些方面有所改进?使用问题来询问您自己和您的团队如何改进并符合最佳实践。在不断学习的同时,总会有新的方法来做事情,但这是你和你的团队最好的方法吗?你为什么会问数据科学方面的问题,你问的最多的是什么类型的问题?我希望你喜欢阅读我所学到的东西。要了解更多,请订阅我的简讯。原创 2024-10-23 01:03:25 · 871 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百三十七)
我们习惯于为每个观察返回单个值的模型,也称为“点预测但是,我们必须记住,在点预测的背后,总是有一个完整的分布。如果你喜欢花哨的统计术语,你可以称之为“后验分布后验分布是什么意思?后验分布给出了预测不确定性的完整描述。让我们借助一个例子来理解它。假设我们训练了一个模型,根据一个人的国家、性别、年龄、婚姻状况和工作来预测她的收入。国家:美国。性别:女。年龄:27。婚姻状况:已婚。工作:销售人员。当然,即使他们有相同的特征,他们也不会有相同的收入。原创 2024-10-23 01:02:46 · 1230 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百三十一)
“偏差-方差权衡”*是你在ML/AI中会遇到的一个流行概念。为了让它变得直观,我想我应该给你们当中的公式爱好者一个关于这个关键公式来源的简单解释:MSE =偏差+方差嗯,这篇文章不仅仅是要证明这个公式——那只是一个的意思(呵)到此结束。我用它作为一个借口,给你一个幕后的视角,看看统计学家如何和为什么操纵一些核心构件,以及我们如何思考是什么让一些估算者比其他人更好,但要注意:这是关于这里的技术。作者创造的形象。我的博客不喜欢探究公式和一般化的事实,所以许多读者可能想借此机会赶紧离开。原创 2024-10-23 01:01:58 · 673 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百三十)
在数据科学中,预测通常涉及创建预测未来事件的最佳模型。通常,“最佳”模型是最小化给定误差度量的模型,例如均方误差(MSE)。最终结果是一系列数值,描述了时间序列的预测轨迹。统计学家或计量经济学家称之为点预测。更传统的预测模型通常预测给定未来时期的整个概率分布。从现在开始,我们将这些称为概率预测。概率预测的一个好处是能够导出点预测和*区间预测。*将后者视为应用于预测的置信区间的时序模拟。当然,一个点的预测更容易传达给非技术利益相关者。原创 2024-10-23 01:01:08 · 992 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百一十四)
在当前的数据科学或机器学习应用中,通常会涉及到庞大的数据集和复杂的网络。因此,在处理计算工作量时,代码效率变得非常重要。例如,在经典的多层感知器(又名前馈神经网络)中,网络通常包含多个线性层。假设输入层包含 64 个神经元,而第一个隐藏层包含 128 个隐藏神经元。然后,为了在给定输入的情况下计算隐藏层的输出,直接的方法是使用由Numpy库提供的如果我们想计算执行这个方法的时间,我们可以使用我们可以看到,这种方法平均需要 1.4 微秒。然而,如果我们不使用np.dots = 0res[i] = s。原创 2024-10-23 01:00:20 · 856 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百一十六)
图片由作者提供。在本教程中,我们将开发一个函数来可视化带有NLTK和SpaCy的词性(POS)标签。结果函数将把这个输入句子(图片由作者提供)变成这样:输出句子(图片由作者提供)虽然displaCy的命名实体突出显示并不突出显示现成的 POS 标签,但是您可以定制它应该突出显示的内容。也可以使用 displaCy 手动呈现数据。[…]如果您在render()或serve()上设置了,您可以将 displaCy 格式的数据作为字典(而不是Doc对象)传入。— [2]实体可视化工具允许您定制以下。原创 2024-10-23 00:59:26 · 733 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百一十八)
战略是指为实现一个长期目标而进行的规划!从历史上看,战略是为赢得军事行动而计划的艺术。然而,在我们的现代生活中,战略更多地用于商业战略和策划艺术的背景下,以赢得你的商战!Google.com 战略定义快照数据策略也不例外。它指的是通过高效和有效地使用数据来计划实现您的业务的长期目标!换句话说,数据战略没有意义,除非它与商业战略相联系。汽车的平均价格是气缸数量的函数。加州大学欧文分校用法术语)(图片由作者提供)我们首先注意到的是调整后的 R 平方为 0.027。期望。原创 2024-10-23 00:58:42 · 1023 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百一十五)
音频只是简单的声音,我们在日常生活中听到的声音。例如,通过经验,人类大脑可以很好地区分救护车的声音和出租车的声音。但是我们能创建机器学习模型来进行这样的分类吗?处理音频数据变得有点势不可挡,因为我们无法像处理一组表格或图像那样将其可视化。在本文中,我们将可视化音频数据,然后从音频中提取有用的特征。复杂的数据树通常可以简化而不失去其本质意义(布兰登·格林拍摄的树,经许可使用,所有其他图片由作者提供)你有一些重要的数据,你渴望与思想家和决策者分享。原创 2024-10-23 00:57:57 · 748 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百一十二)
图片由来自Pixabay的拍摄在本文中,我介绍了 Python 内置模块之一 Argparse。它允许我们非常容易地开发命令行界面工具。我们可以用它来定义位置参数和可选参数。它也有现成的帮助说明,所以我们只需要为每个参数写一个字符串。然而,当我们有一些更复杂的需求时,它也有一些缺点。这些缺点可以通过一些第三方库来消除,以后我的帖子会重点介绍。如果你觉得我的文章有帮助,请考虑加入灵媒会员来支持我和成千上万的其他作家!(点击上面的链接)原创 2024-10-23 00:57:18 · 621 阅读 · 0 评论 -
TowardsDataScience 博客中文翻译 2022(四百一十九)
下面是五个转置的行车票记录。我们将使用的关键信息是违规的时间、地点和类型(描述)。五个转置行的示例对原始数据进行了一些基本的预处理,例如合并日期和时间列,删除时间不正确的异常行等。如果我们绘制每日门票数量,我们可以在 2020 年 4 月左右看到明显的“covid19 下降”。我们将只使用 2019 年的数据,因为 2020 年的数据不典型。每日停车票转置卷积就像卷积家族的“丑小鸭它们古怪而怪异,但转置卷积并不像看上去那样简单。你会经常在自动编码器的解码器部分,或者GANs的。原创 2024-10-23 00:56:38 · 685 阅读 · 0 评论