榛樿鍒嗙被
文章平均质量分 90
绝不原创的飞龙
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
探索二维批量归一化在深度学习架构中的超级英雄角色
原文:towardsdatascience.com/exploring-the-superhero-role-of-2d-batch-normalization-in-deep-learning-architectures-b4eb869e8b60?原创 2025-12-09 00:52:31 · 384 阅读 · 0 评论 -
探索睡眠障碍与健康指标之间的联系
原文:towardsdatascience.com/exploring-the-link-between-sleep-disorders-and-health-indicators-ace631d814b9由在上的照片。原创 2025-12-09 00:39:47 · 381 阅读 · 0 评论 -
探索“小型”视觉-语言模型与 TinyGPT-V
AI 技术正日益融入我们的日常生活。AI 的一种应用是多模态的,例如将语言与视觉模型结合起来。这些视觉-语言模型可以应用于视频字幕生成、语义搜索以及许多其他问题。本周,我将重点介绍一个名为 TinyGPT-V 的最新视觉-语言模型(ArxivGitHub这个多模态语言模型之所以有趣,是因为它对一个大规模语言模型来说非常“小”,并且只需要 8GB 的 GPU 或 CPU 就可以在单个 GPU 上进行推理。这对于在实际应用中最大化 AI 模型的速度、效率和成本具有重要意义。原创 2025-12-09 00:38:12 · 427 阅读 · 0 评论 -
探索递归艺术:使用 Context Free 的分形
Context Free(以及命令行工具cfdg)是一个数字艺术程序,它接受图像的描述并将其生成为位图、矢量图像,甚至电影。Context Free 的魔力在于其递归性质:形状可以包含其他形状,而这些形状又可以包含更多的形状。这种递归分层允许从简单的指令中产生复杂和精细的设计。随着我们深入探索,你将看到这个过程如何使创建详细和动态的生成艺术成为可能。让我们从创建一个简单的程序开始。原创 2025-12-09 00:37:42 · 535 阅读 · 0 评论 -
用数据探索真实与虚拟空间
揭示了单目深度估计的复杂性,“从 2D 图像预测 3D 空间中的距离”——这是一个要求实践者应用地理空间、计算机视觉和深度学习技能的问题,而一个新的基础模型旨在解决这个问题。在地理空间数据领域,总有新的令人兴奋的领域等待探索:从帮助我们更好地理解物理地形和社会基础设施的实际应用,到允许我们在抽象空间中导航的理论方法。的首篇 TDS 文章深入探讨了它们的内部工作原理。原创 2025-12-09 00:35:26 · 394 阅读 · 0 评论 -
探索跨语言的 RAG 应用:与《密示拿》对话
原文:towardsdatascience.com/exploring-rag-applications-across-languages-conversing-with-the-mishnah-16615c30f780?原创 2025-12-09 00:13:38 · 455 阅读 · 0 评论 -
探索公共存储轨迹
存储访问轨迹是“优化云工作负载的宝贵信息源它们对于容量规划、数据放置、系统设计和评估至关重要,尤其适用于现代应用程序。在学术研究中,特别需要多样且更新的数据集来研究新颖且不直观的访问模式,这有助于设计新的硬件架构、新的缓存算法或硬件仿真。存储追踪数据很难找到。SNIA 网站是最著名的“存储相关 I/O 追踪文件、相关工具及其他相关信息的仓库”,但许多追踪数据并不符合它们的许可或上传格式。寻找追踪数据变成了一项繁琐的过程,需要扫描学术文献或尝试自己生成数据。流行的追踪数据。原创 2025-12-09 00:11:46 · 532 阅读 · 0 评论 -
探索使用 R-CNN 模型进行目标检测——全面的初学者指南(第二部分)
原文:towardsdatascience.com/exploring-object-detection-with-r-cnn-models-a-comprehensive-beginners-guide-part-2-685bc89775e2?原创 2025-12-09 00:11:15 · 186 阅读 · 0 评论 -
通过数据分析探索我的 LinkedIn 之旅
今天,LinkedIn 是领先的职业社交平台。我在那里开始了我的旅程,好几年前,我分享了我的工作和职位信息。然而,在过去的一年里,我决定更专注于创建与我新的数据与分析工作经历相关的内 容。具体来说,我一直在发布和分享关于领导力、团队发展和地理空间分析的故事,包括数据可视化和图论。从 LinkedIn(LI)中,你可以提取各种统计数据,如曝光次数、互动次数和每日粉丝增长。此外,还有一个 LI API 可以用来获取更详细的统计数据。原创 2025-12-09 00:10:44 · 151 阅读 · 0 评论 -
探索多模态语言模型在音乐转录中的应用
Llark 使用OpenAI 的 Jukebox作为音频塔,而 Qwen2-Audio 使用OpenAI 的 Whisper作为音频塔。Jukebox 是一个音乐生成模型,但它也可以接收音频片段作为输入,并输出音频片段的延续。Whisper 用于将语音转录为文本。根据其用途,音频模块的选择是明确的:Llark 专注于音乐分析,而 Qwen2Audio 主要专注于响应语音指令,并具备一些基本的音频和音乐分析能力。确定从大型预训练模型中提取嵌入的最佳来源需要研究和实验。原创 2025-12-09 00:10:14 · 355 阅读 · 0 评论 -
探索 mergekit 用于模型合并,AutoEval 用于模型评估,DPO 用于模型微调
我们将在以下步骤中尝试模型合并、模型评估和模型微调:使用,我们将从 Hugging Face hub 合并两个模型,和。在基础模型上运行 AutoEval。在合并后的模型上运行 AutoEval。使用 QLoRA 对合并后的模型进行监督微调。在微调后的模型上运行 AutoEval。使用 DPO 微调合并后的模型。在微调后的模型上运行 AutoEval。作者绘制的图表让我们深入探讨。首先,我们如何选择要合并的模型?在本文中,我们探讨了模型合并、模型评估和模型微调技术。原创 2025-12-09 00:09:43 · 490 阅读 · 0 评论 -
探索 Medusa 与多 token 预测
发布于·阅读时长 11 分钟·2024 年 7 月 10 日图片来源:作者 — SDXL互联网是一个竞争异常激烈的地方。研究表明,如果网页加载时间超过 5 秒,用户就会离开网页[2][3]。这对大多数大型语言模型(LLM)来说是一个挑战,因为它们无疑是目前最慢的程序之一。虽然定制硬件可以显著加速 LLM,但运行在这种硬件上目前仍然非常昂贵。如果我们能找到充分利用标准硬件的方法,将能显著提高 LLM 的客户体验。“MEDUSA:一种简单的 LLM 推理加速框架,具有多个解码头”原创 2025-12-09 00:09:12 · 429 阅读 · 0 评论 -
探索目标编码中的层次混合
所有普遍性都是错误的,包括这一条——马克·吐温分层混合只有在分类系统与问题相关,并且处于正确的细节级别时才有用。分层混合使数据准备复杂化,并且可能不会提高所有代码集的性能。但是,当层次结构适合且未见代码对您的目的很重要时,这项技术可能非常有价值。即使罕见或新的代码至关重要,并非所有代码分组都将有用。当代码与目标响应无关、处于错误的粒度级别或偏置均值估计时,分层混合可能不起作用。在使用分层编码之前,测试保留代码的性能以评估代码集是否适合此方法可能是明智的。原创 2025-12-08 01:23:44 · 133 阅读 · 0 评论 -
探索 DRESS Kit V2
除了前面提到的主要新特性外,DRESS 工具包中的几乎每个方法都进行了大量增强。大多数操作比以前明显更快,而压缩后的代码库几乎保持不变。如果您之前使用过 DRESS Kit V1,强烈建议升级到 V2。对于那些尚未将 DRESS Kit 纳入研究项目的人,现在是探索其功能的绝佳时机。请随时分享您的反馈和评论,以便我们不断改进这个库。请随时从其GitHub 仓库获取 DRESS Kit 的最新版本并开始构建。原创 2025-12-08 01:23:08 · 306 阅读 · 0 评论 -
探索 Python 中的因果关系。差异-差异
例如,如果未接受治疗,治疗组中的对象应该与对照组中的对象表现相同。他将其定义为“对事件和选择对特定感兴趣的结果的影响进行估计的研究”。从网站优化到 A/B 测试,从药物临床试验到评估发展计划的影响,因果推断的应用范围广泛且多样化。反之亦然,对照组中的对象应该与那些如果接受过治疗的治疗组对象表现相同。我们将最低工资的变化视为分析研究中的一种处理变量。科学家们使用调查的快餐店的就业情况,因为这种业务可以迅速对最低工资的变化做出反应。我将在一系列即将到来的文章中描述并强调我们因果推断研讨会中最常用的工具。原创 2025-12-08 01:21:59 · 187 阅读 · 0 评论 -
探索癌症类型与 neo4j
原文:towardsdatascience.com/exploring-cancer-types-with-neo4j-43acf161362f?原创 2025-12-08 01:21:23 · 135 阅读 · 0 评论 -
通过仪表盘探索巴西的国民账户
原文:towardsdatascience.com/exploring-brazils-national-accounts-through-a-dashboard-03d27900ce5d?原创 2025-12-08 01:20:25 · 188 阅读 · 0 评论 -
探索二十年的趋势:美国大学录取率与学费
原文:towardsdatascience.com/exploring-a-two-decade-trend-college-acceptance-rates-and-tuition-in-the-u-s-d00307224b2e?原创 2025-12-08 01:13:21 · 176 阅读 · 0 评论 -
使用 Python 探索可解与不可解的方程
原文:towardsdatascience.com/explore-solvable-and-unsolvable-equations-with-python-661ac11f4f20?原创 2025-12-08 01:08:44 · 213 阅读 · 0 评论 -
探索在 Power BI 中使用 RLS 实现数据安全性的所有方法
当我们在 Power BI 解决方案中调节数据访问时,必须实现 RLS(行级安全性)。RLS 通过实施 RLS 角色来工作,这些角色包含用于控制数据访问的访问逻辑。这个逻辑是由 DAX 表达式定义的,可以非常简单,也可以非常复杂。由于我已经在 Medium 上写过几篇关于这个主题的文章,所以我决定将不同的方法汇总到一个指南中,而不是让你在不同的地方查找信息。最后,我会将它们并排分析,并推荐最好的方法。如果有其他相关内容,我会参考并链接到它们。你可以在本文末尾的参考文献部分找到相关链接。原创 2025-12-08 01:07:52 · 224 阅读 · 0 评论 -
探索性数据分析:伦敦交通的失物招领物品
原文:towardsdatascience.com/exploratory-data-analysis-lost-property-items-on-the-transport-of-london-5ffa519b24a6伦敦地铁,图片由作者提供如读者可能猜测的那样,这个故事有一个平凡的开始:我在公交车上忘了我的包。五分钟后,我意识到包不见了,但公交车已经离开了。回到家后,我查看了公交公司的网站,看看是否有认领丢失包的可能性,几天后,我很幸运地把它找回来了。我住在阿姆斯特丹,这里的公共交通与。原创 2025-12-08 01:03:50 · 504 阅读 · 0 评论 -
探索性数据分析:伦敦交通的失物招领物品
原文:towardsdatascience.com/exploratory-data-analysis-lost-property-items-on-the-transport-of-london-5ffa519b24a6伦敦地铁,图片由作者提供如读者可能猜测的那样,这个故事有一个平凡的开始:我在公交车上忘了我的包。五分钟后,我意识到包不见了,但公交车已经离开了。回到家后,我查看了公交公司的网站,看看是否有认领丢失包的可能性,几天后,我很幸运地把它找回来了。我住在阿姆斯特丹,这里的公共交通与。原创 2025-12-08 01:02:52 · 519 阅读 · 0 评论 -
探索性数据分析的 11 个步骤
这些对话将帮助你确定分析目标,即你是否应该专注于识别模式和关系、理解分布情况等。总结你对目标的理解,明确分析时间段和人群,并确保所有相关利益相关者达成一致。在这一阶段,我还喜欢沟通分析的非目标——那些利益相关者不应期望在我的交付物中看到的内容。确保你理解基于分析结果需要做出哪些决策。在开始之前,与所有利益相关者达成一致分析目标。从高级统计探索开始分析,以了解特征的分布和它们之间的相关性。您可能会注意到数据稀疏性或质量问题,这些问题会影响您从分析计划练习中回答问题的能力。原创 2025-12-08 01:01:07 · 290 阅读 · 0 评论 -
解读 OpenAI Sora 的时空补丁:关键成分
原文:towardsdatascience.com/explaining-openai-soras-spacetime-patches-the-key-ingredient-e14e0703ec5b?原创 2025-12-08 00:57:26 · 608 阅读 · 0 评论 -
解释用于 RAG 和摘要的 LLMs
为了可视化这种方法的输出,我创建了两种可视化,分别适用于展示 LLM 输入与输出之间的特征归因或连接。这些可视化是为 LLM 输入的摘要生成的,其内容如下:本节讨论了语义分割和实例分割的最新技术进展,重点介绍了深度学习方法。早期的补丁分类方法使用超像素,而最近的全卷积网络(FCN)则为每个像素预测类别概率。FCN 类似于 CNN,但使用转置卷积进行上采样。标准架构包括 U-Net 和基于 VGG 的 FCN,它们针对计算效率和特征大小进行了优化。原创 2025-12-08 00:56:44 · 436 阅读 · 0 评论 -
向商业利益相关者解释复杂模型
总结来说,尽管机器学习模型提供了显著的优势,但它们日益复杂的结构带来了关于可解释性、可理解性和合规性方面的挑战,这影响了它们的普及和效果。诸如 SHAP 和特征重要性等技术使数据科学家能够更好地理解他们的模型,从而有助于将预测结果解释给业务方。原创 2025-12-08 00:45:04 · 675 阅读 · 0 评论 -
可解释的通用机器学习管道与 MLflow
原文:towardsdatascience.com/explainable-generic-ml-pipeline-with-mlflow-2494ca1b3f96?原创 2025-12-08 00:43:53 · 494 阅读 · 0 评论 -
机器学习中的可解释性、可解释性和可观察性
原文:towardsdatascience.com/explainability-interpretability-and-observability-in-machine-learning-515a2ac8234a?原创 2025-12-08 00:26:02 · 402 阅读 · 0 评论 -
机器学习中的可解释性、可解释性和可观察性
原文:towardsdatascience.com/explainability-interpretability-and-observability-in-machine-learning-515a2ac8234a?原创 2025-12-08 00:18:34 · 318 阅读 · 0 评论 -
与 MLFlow 和 Microsoft Fabric 的实验
原文:towardsdatascience.com/experimenting-with-mlflow-and-microsoft-fabric-68f43043ff34?原创 2025-12-08 00:16:29 · 507 阅读 · 0 评论 -
实验跟踪与超参数调整:使用 DVC 组织您的试验
在这篇文章中,我们探讨了三种超参数调优的自动化方法。我们首先通过迭代执行命令来进行穷举和随机网格搜索。之后,我们使用 Optuna 库运行贝叶斯网格搜索。多亏了,我们能够非常容易地跟踪 HPT 流程的所有试验。结合系列前几部分的知识,我们现在可以确保所有实验,包括寻找最佳超参数集,都是完全可重复的。在一个小插曲中,我最近在 PyData Global 上做了一次关于使用 DVC 进行实验跟踪的演讲。您可以在这个仓库中找到本文中使用的代码。一如既往,任何建设性的反馈都十分欢迎。您可以通过LinkedIn。原创 2025-12-08 00:04:06 · 471 阅读 · 0 评论 -
数据科学学生的期望与现实
作为我数据科学之旅的一部分,我学会了接受现实中不可预见的挑战。我意识到数据科学的广度和深度非常适合做各种事情:研究、编程、分析以及讲故事。基于这一点,我对选择数据科学这条道路充满信心,也期待着职业生涯的下一个阶段带来什么。原创 2025-12-08 00:02:12 · 462 阅读 · 0 评论 -
用我们的最新数学和统计必读书单扩展你的数据科学工具箱
N-of-1 研究的理念是,即使你使用的数据仅来自一个人的输入,你依然能够得出有意义的见解。我们热衷于发布新作者的文章,因此,如果您最近写了一篇有趣的项目演示、教程或关于我们核心主题的理论反思,请不要犹豫,在他最新的深入分析中所做的,他通过糖果的例子向我们展示了中心极限定理的内部原理,“这是统计科学中最深远且令人愉快的定理之一”。在她最新的实践教程中,原创 2025-12-07 01:51:40 · 265 阅读 · 0 评论 -
**自然语言处理(NLP)与其他学科领域的影响关系研究**
为了促进我们对来自各个领域文献引用的反思,我们创建了一个在线公共工具,它可以计算个别论文甚至一组论文(例如,作者简介、会议论文集)的跨领域引用量。只需插入 Semantic Scholar 或 ACL Anthology 的 URL,该工具就会计算出诸如最受引用领域、引用领域多样性等各种指标。或者上传一个 PDF 草稿,工具会解析参考文献并将其链接到相应的领域。你将能够回答以下问题:哪些领域对我(作为作者)的影响最大?我的提交草稿的领域多样性如何?与本次会议相关的最重要的领域是什么?原创 2025-12-07 01:08:18 · 685 阅读 · 0 评论 -
通过 ELLA 和 VOYAGER 研究长期机器学习:为何 LLML 是 AI 领域下一次革命性突破的第二部分
现在我们有了目标函数,我们希望创建一种方法来优化它!在训练过程中,我们将每次迭代视为一个单元,其中我们从单个任务接收一批训练数据,然后计算 s_t,最后更新 L。在算法的开始,我们将 T(任务计数器)、A、b 和 L 初始化为零。现在,对于每批数据,我们根据数据是来自已知任务还是未知任务来进行分类处理。如果我们遇到来自新任务的数据,我们将 T 加 1,并为这个新任务初始化 X_t 和 y_t,将它们设置为我们当前的 X 和 y 批次。如果我们遇到已经见过的数据,我们的过程变得更加复杂。原创 2025-12-07 01:07:47 · 445 阅读 · 0 评论 -
进化国际象棋难题
尽管对于许多人来说,AI 的这一领域可能已经被遗忘,但我展示了如何利用进化算法为现实世界的问题创造出新颖的解决方案。这个技术仍有许多未开发的潜力。随着生成式 AI 的崛起,我不禁想知道,未来人们还会为进化算法发现哪些有趣的应用…你可以在我的网站上亲自体验这些难题,。除非另有说明,所有图片均由作者提供。原创 2025-12-07 01:07:15 · 384 阅读 · 0 评论 -
数据科学的发展:现代端到端数据科学家的新时代技能
自从 2012 年被誉为“21 世纪最性感的工作”以来,数据科学已经走过了 Gartner炒作周期的每一个阶段。我们接下来该怎么做?我提供两个主要建议:首先,随着企业数据和科技领域的演变,数据科学家将有大量新的技能和技术可以深入研究。理解到真正成为端到端数据科学家的人寥寥无几——比最初的数据科学家独角兽还要稀少一个数量级——这是可以接受的。我希望这能让你感到欣慰,并且你可以专注于通过逐渐掌握工程技能同时磨练你的商业敏锐度、领域知识和软技能,成为更全面的端到端旅程。Gartner 技术炒作周期。原创 2025-12-07 00:45:19 · 730 阅读 · 0 评论 -
关于图形数据库和 Neo4j 的所有你需要知道的事
当今世界的各种交易越来越依赖数字化。也就是说,由于大多数国家(例如德国)卡片和电子支付方式的使用显著增加。[4] 随着交易变得更加数字化,IC3 投诉统计等指标表明,数字犯罪活动也在增加。[10] 例如,作为支付处理软件供应商的 TransUnion 报告称,全球数字欺诈尝试增长了 149%。[5]如果不使用图形数据库,涉及此类活动的人的交易和关系需要以关系型的方式建模。但是,如果使用更合适的数据库类型——图形数据库,建模和访问关系数据要容易得多。让我们通过一些例子来看看图形数据库在哪些方面非常有用。原创 2025-12-07 00:44:48 · 656 阅读 · 0 评论 -
你可以用 Python 的 textwrap 模块做的一切
原文:towardsdatascience.com/everything-you-can-do-with-pythons-textwrap-module-0d82c377a4c8?原创 2025-12-07 00:44:18 · 710 阅读 · 0 评论 -
机器学习生命周期的每一步都简单解释
你正在尝试解决什么问题或回答什么问题?你需要机器学习还是可以使用更简单的方法(例如统计方法)?为了本文的目的,我将遵循一个我之前展示过很多次的标准示例:每小时能源使用预测。客户希望能够预测一天的每小时消费,以便识别出哪些小时和星期几的消费似乎最高。他们将利用这些信息来寻找在负载较高的日子和时间减少使用的方法。预测未来 24 小时的电力能源消耗需要机器学习来完成这项任务以提高准确性。一个简单的模型,如移动平均模型,不会考虑诸如一天中的小时和星期几等重要特征,并且无法展示这些特征与目标变量之间的关系。原创 2025-12-07 00:43:10 · 917 阅读 · 0 评论
分享