- 博客(15764)
- 资源 (1066)
- 问答 (2)
- 收藏
- 关注
原创 布客沉思录(一):【历史垃圾时间】就是彻头彻尾的伪概念
所以新的方向之一必须是能从市场上直接赚到钱的,对于程序员来讲,我们没有什么时间,但我们有自动化能力,有AI能力,所以最好的方式就是量化交易。《单干》一书中提到,最好的商业方式必须离钱最近,必须变现环节最小,轻资产大于重资产,自动大于手动,这样才能降低不可控性,那么量化交易一定是最符合这个描述的了。就算当时赚不到钱,也算是技术储备,等待经济好了,就一定能发挥作用。看到了吧,这个伪概念就是个自证预言:如果你觉得现在是【历史垃圾时间】,你放弃了自己的主观能动性,啥都不做,当然啥都不出错,但是啥都做不出来。
2024-08-14 14:43:16 2714 21
原创 【布客】已经制作完成的有声书
【超越想象的GPT医疗:第六章:延展大问题:如何让数学、编码和逻辑更可靠】【超越想象的GPT医疗:第二章:智能协作,GPT-4在医学中的超强潜力】【超越想象的GPT医疗:结语:欣赏AI的奇迹,人类智慧和无尽雄心的见证】【超越想象的GPT医疗:第一章:“达芬奇3”,与GPT-4的初次接触】【超越想象的GPT医疗:第九章:安全第一,在新的AI时代充分受益】【超越想象的GPT医疗:第三章:一个大问题:AI能“理解”吗】【超越想象的GPT医疗:引言:GPT-4医生的故事】
2024-08-10 13:16:08 1095 20
原创 布客社区及饱和式翻译计划 Q&A
A1:如果你现在,在AIGC大爆发之后问我这个问题,我只想告诉你们,翻译是 AIGC 中一种重要的形式,输出稳定,没有幻觉,比什么扩写仿写之类的好多了。当然我也尝试过很多其他的AIGC形式,比如源码解析、课程笔记之类的,但都没有翻译方便省事。翻译一定是未来几年技术自媒体 AIGC 的主流形态。
2024-08-06 13:52:20 809 12
原创 Quant文艺复兴计划正式启动!
此时此刻恰如彼时彼刻,所以我深知,如果我不自己动手写出一批教程,中文互联网就永远没有面向新手的开放教程可用。幸好现在我们有了ChatGPT,它减轻了我的主业工作量,让我有时间投入这个方面;同时,它也大大减轻了编写教程的工作量,能让这些想法迅速实现。再者,良好的量化实现是保证回测准度和自动化的前提之一。总结paperwithbacktest上的Quant前沿论文【自动】,解析代码【自动】寻找gh上的机器学习或深度学习的Quant代码,做源码解析【自动】挑选主流量化框架,翻译文档【自动】,做源码解析【自动】
2024-04-10 22:56:08 821 59
原创 赚钱周报、风向标、大航海 23&24
龙哥赚钱周报 23在线阅读龙哥赚钱周报 202301-02龙哥赚钱周报 202303龙哥赚钱周报 202304龙哥赚钱周报 202305龙哥赚钱周报 202306龙哥赚钱周报 202307龙哥赚钱周报 202308龙哥赚钱周报 202309龙哥赚钱周报 202310龙哥赚钱周报 202311龙哥赚钱周报 202312龙哥风向标 23在线阅读龙哥风向标 202301龙哥风向标 202302龙哥风向标 202303龙哥风向标 202304龙哥风向标 202305龙哥
2024-04-09 12:03:53 2133
原创 一些用 GPT 翻译的计算机科学/人工智能 PDF 讲义
3D成像.pdf3D成像.pdf3D成像技术.pdf3D成像技术.pdf3D点云分析.pdf3D点云分析.pdfAAAI 2019 笔记.pdfAAAI 2019 笔记.pdfCMU 10.708 概率图模型讲义.pdfCMU 10.708 概率图模型讲义.pdfCMU 15-312 编程语言基础讲义.pdfCMU 15-312 编程语言基础讲义.pdfCMU 15-411 编译器设计讲义.pdfCMU 15-411 编译器设计讲义.pdfCMU 15-819 同伦类型论讲义.
2024-02-20 22:59:55 1996
原创 TowardsDataScience 2024 中文翻译(一百五十九)
寻找那些每天活跃的用户,他们在产品中停留的时间最长,使用最多功能,并且花费最多的用户。
2025-01-10 00:38:24 753
原创 TowardsDataScience 2024 中文翻译(一百五十八)
曾几何时,我曾学习石油工程。说实话,我几乎是偶然进入了这个本科专业。在学校时,我喜欢物理和数学,因此我肯定想在大学学习 STEM 专业。那时,我对石油行业一无所知,像许多人一样,我以为石油是从地下湖泊中提取的。但因为我成功地被该项目录取,我决定尝试一下。我不能说我后悔自己的选择,尽管我必须承认,除了实习期间,我并未在行业中工作。但我得到的是解决各种任务的科学方法,而毫无疑问,这是一份极大的礼物。在这篇文章中,我想强调了解科学原理和法则的重要性。
2025-01-10 00:37:53 707
原创 TowardsDataScience 2024 中文翻译(一百五十七)
原文:TowardsDataScience协议:CC BY-NC-SA 4.0为什么批量归一化对深度学习至关重要原文:towardsdatascience.com/why-batch-normalization-matters-for-deep-learning-3e5f4d71f567?source=collection_archive---------7-----------------------#2024-11-25探索批量归一化在简化神经网络训练和提高模型性能中的作用https:
2025-01-10 00:37:23 900
原创 TowardsDataScience 2024 中文翻译(一百五十六)
这部分完成了关于导致 HNSW 的主要思想的讨论。总结如下:小世界是一个连接局部点的图,但也有短的路径连接远距离的点。这可以通过具有长距离连接的枢纽来实现。以正确的方式构建这些长距离连接,会导致一个小世界图,具有可导航性,这意味着贪心算法可以迅速找到最短路径。这使得快速的最近邻搜索成为可能。构建连接的一种方法是按随机顺序插入向量,并将其连接到最近邻。然而,这会导致具有大量连接的长距离枢纽,并导致较慢的搜索时间。为了避免这一点,更好的方法是通过选择随机向量作为枢纽,单独构建不同长度的连接。
2025-01-10 00:36:52 957
原创 TowardsDataScience 2024 中文翻译(一百五十五)
我简直不敢相信,已经过去 9 个月了,自从我开始作为自由职业数据科学家工作!我曾在三个月后写过关于做出这一决定的经历。当时我和丈夫约定,我们会尝试三个月,到那时就能知道是否适合我们。很高兴(也是幸运)地说,在大约一个月后,我们就知道自由职业对我们来说是可行的。我原来的文章引发了许多人关于裁员、强制返办公室(通常是伪装成裁员的政策)和过度劳累的公开和私下提问。在过去的六个月里,我也学到了更多关于如何让这项工作成功的经验。我也犯了一些关键错误,并从中学到了不该做的事情。所以我认为是时候更新一下原文了。
2025-01-10 00:36:21 694
原创 TowardsDataScience 2024 中文翻译(一百五十四)
当你在进行深度学习项目时,是否遇到过这样的情况:神经网络层数越多,训练速度越慢?如果你的回答是“是的”,那么恭喜你,是时候考虑使用批量归一化了。顾名思义,批量归一化是一种技术,批量训练数据在当前层激活后、进入下一层之前会进行标准化。其工作原理如下:整个数据集被随机划分为 N 个批次,且不重复,每个批次具有一个 mini_batch 大小,用于训练。对于第 i 个批次,使用公式标准化批次内的数据分布:。对标准化后的数据进行缩放和平移,使用公式*γXi + β*
2025-01-10 00:35:49 646
原创 TowardsDataScience 2024 中文翻译(一百五十三)
原文:TowardsDataScience协议:CC BY-NC-SA 4.0可视化、数学、时间序列及更多:我们最近最深入的文章原文:towardsdatascience.com/visualization-math-time-series-and-more-our-best-recent-deep-dives-e0bfb4934c7e?source=collection_archive---------3-----------------------#2024-02-08https://t
2025-01-10 00:35:18 657
原创 TowardsDataScience 2024 中文翻译(一百五十二)
视觉变换器(ViT)是首个完全基于自注意力机制的图像分类任务架构。尽管 ViT 在性能上优于基于卷积神经网络(CNN)的架构,但它们需要在非常大的数据集上进行预训练。为了寻找可能加速训练和推理的 ViT 改进方案——尤其是在中小规模输入数据的情况下——我在上一篇文章中探讨了将 Batch Normalization(BatchNorm)集成到 ViT 型模型中的方法。BatchNorm 已知能够加速深度神经网络的收敛——与基准模型相比,使用 BatchNorm 的网络在相同训练周期数下能获得更高的准确率。
2025-01-10 00:34:46 1070
原创 TowardsDataScience 2024 中文翻译(一百五十一)
原文:towardsdatascience.com/using-pca-for-outlier-detection-afecab4d2b78?·发表于·阅读时间 10 分钟·2024 年 1 月 29 日我喜欢把模型看作是小小的生物。照片由提供,来源于Unsplash正如承诺的,这一周我将带来一个更为技术性的主题,稍微休息一下之前讨论的商业话题。我最近有机会使用 AWS Lambda 部署一个新模型,并且在将我常用的开发工具(Poetry)与 Lambda 基础设施结合时学到了一些东西。
2025-01-10 00:34:14 1043
原创 TowardsDataScience 2024 中文翻译(一百五十)
原文:TowardsDataScience协议:CC BY-NC-SA 4.0使用 IPython Jupyter 魔法命令改善笔记本体验原文:towardsdatascience.com/using-ipython-jupyter-magic-commands-to-improve-the-notebook-experience-f2c870cab356?source=collection_archive---------2-----------------------#2024-02-19
2025-01-10 00:33:44 587
原创 TowardsDataScience 2024 中文翻译(一百四十九)
原文:TowardsDataScience协议:CC BY-NC-SA 4.0揭示 LLM 的内部工作原理:奇异值视角原文:towardsdatascience.com/unveiling-the-inner-workings-of-llms-a-singular-value-perspective-74c0c831e819?source=collection_archive---------5-----------------------#2024-06-14对 Llama3–8B 投影矩
2025-01-10 00:33:13 676
原创 TowardsDataScience 2024 中文翻译(一百四十八)
发布于· 12 分钟阅读 · 2024 年 4 月 26 日Llama3 是 Meta 的 AI 团队发布的最新模型。根据Meta 关于 Llama3 的博客,Llama3 在 63.2%的情况下在指令性人工评估上超越了 GPT3.5。根据这一衡量标准,Llama3 在典型的 LLM 任务中的表现应当超越 GPT3.5。在本文中,我将向您展示一种简单的方法,帮助您在计算机上运行 Llama3,进行各种测试以了解其能力,并最终分享我对该模型的看法。3 只代表 Llama 3 的美洲驼。
2025-01-10 00:32:43 771
原创 TowardsDataScience 2024 中文翻译(一百四十七)
发表于·8 分钟阅读·2024 年 5 月 15 日图片由作者提供 — 由 Stable Diffusion 2.1 生成随着公众开始在日常生活中使用 LLM,一个重要的问题浮现出来,那就是在进行长时间对话时,LLM 有时会完全忘记之前说过的内容!在后台,每一行对话都被输入到 LLM 的上下文中,你可以将其视为对模型的巨大输入。一旦对话超出了上下文的处理能力,就必须删除一些数据。这不仅是糟糕的客户体验,还限制了 LLM 合理处理信息的能力。
2025-01-10 00:32:11 871
原创 TowardsDataScience 2024 中文翻译(一百四十六)
我认为,抽象的本质是“忽略无关细节,专注于相关部分的行为。例如,在设计一个算法时,我们只对输入做出少量抽象假设,而不关心输入的其他细节。更具体地说,考虑一个排序算法。排序函数通常仅假设输入是一个数字数组,或者更抽象地说,是一个具有定义比较规则的对象数组。至于这些数字或对象代表什么,或者比较操作符比较的内容,并不是排序算法关心的事情。除了编程,抽象在数学中也很常见。在抽象代数中,只要满足几个要求,数学结构就可以被视为一个群。数学结构是否具备其他属性或操作并不重要。
2025-01-10 00:31:40 796
原创 TowardsDataScience 2024 中文翻译(一百四十五)
TSV 是一种广泛使用的存储表格数据的格式,但在处理文本数据和使用 Pandas 库时,可能会引起混淆。混淆的原因有两个:TSV 与 CSV(广泛使用的存储数据格式)非常相似,但并不完全相同。Pandas 的默认设置与 TSV 格式不兼容。在本文中,我简要讨论了产生混淆的原因,并展示了使用 Pandas 库处理 TSV 格式的最佳方法。3D 高斯点绘(Gaussian splatting)是一种表示三维场景的技术。它实际上只是众多方法之一。例如你……
2025-01-10 00:31:09 868
原创 TowardsDataScience 2024 中文翻译(一百四十四)
原文:TowardsDataScience协议:CC BY-NC-SA 4.0快速训练朴素贝叶斯模型原文:towardsdatascience.com/train-naive-bayes-really-fast-7398a404e342?source=collection_archive---------10-----------------------#2024-05-31https://github.com/OpenDocCN/towardsdatascience-blog-zh-202
2025-01-10 00:30:38 944
原创 TowardsDataScience 2024 中文翻译(一百四十三)
这篇文章中的响应和检索评估指标与方法提供了一种全面的方式来查看 LLM RAG 系统的表现,指导开发者和用户理解其优点和局限性。通过不断根据这些指标评估这些系统,可以改进 RAG 的能力,提供准确、相关和及时的信息。改进 RAG 的其他高级方法包括重排序、元数据附件、测试不同的嵌入模型、测试不同的索引方法、实施HyDE、实施关键词搜索方法,或实施 Cohere 文档模式(类似于 HyDE)。
2025-01-10 00:30:07 758
原创 TowardsDataScience 2024 中文翻译(一百四十二)
Keras 提供了许多可以用于时间序列预测的模型。我将简要描述我使用过的一些模型,从较简单的结构开始,逐渐增加复杂性。值得注意的是,这些结构仅仅是示例,单元数量和层数需要根据所使用的数据集进行微调。预测是人工智能(AI)在学术研究和工业应用中的核心领域之一。事实上,它可能是我们在各行各业中能找到的最普遍的挑战之一。准确预测未来的销售量和市场趋势对企业优化规划过程至关重要。这包括提升贡献利润、减少浪费、确保适当的库存水平、优化供应链,并总体提升决策能力。开发一个预测模型是一个复杂且多方面的挑战。
2025-01-10 00:29:37 758
原创 TowardsDataScience 2024 中文翻译(一百四十一)
记住,数据本身没有价值。只有当你用它来生成洞察或为用户或内部利益相关者提供建议时,它才变得有价值。通过遵循一个结构化框架,你将能够可靠地识别数据中的相关趋势,按照上述提示,你可以区分信号与噪声,避免得出错误的结论。如果你对更多类似内容感兴趣,可以在 Medium 上关注我,或在LinkedIn和Substack上关注我。如果你想更直观地了解 RAG(检索增强生成)系统的不同组件,欢迎观看我关于这个主题的 Youtube 视频。
2025-01-10 00:29:06 854
原创 TowardsDataScience 2024 中文翻译(一百四十)
总之,虽然统计学显著性在验证定量研究中有其作用,但理解其严重局限性至关重要。作为读者,我们有责任以批判性的眼光看待“统计学显著性”的说法。下次你遇到宣扬“统计学显著”结果的研究或文章时,不妨花点时间问问自己:统计学显著性阈值是否适合该情境?这项研究设计和数据收集过程有多稳健?研究人员是否可能从事了 p-hacking 或其他可疑的做法?该效应大小的实际意义是什么?通过提出这些问题并要求围绕统计学显著性进行更为细致的讨论,我们可以帮助推动更加负责任和准确地使用这一工具。
2025-01-10 00:28:35 826
原创 TowardsDataScience 2024 中文翻译(一百三十九)
全栈数据科学”这个术语在 2022 年底开始变得非常流行。当时,它通常通过所需的技能来定义:项目管理、建模、MLOps、数据讲故事……原文:towardsdatascience.com/the-rise-of-pallas-unlocking-tpu-potential-with-custom-kernels-67be10ab846a?Chaim Rand·发布在·阅读时间 15 分钟·2024 年 10 月 6 日图片由提供,发布在Unsplash。
2025-01-10 00:28:03 944
原创 TowardsDataScience 2024 中文翻译(一百三十八)
原文:TowardsDataScience协议:CC BY-NC-SA 4.0K-最近邻的数学原理原文:towardsdatascience.com/the-math-behind-knn-3d34050efb71?source=collection_archive---------0-----------------------#2024-02-06为什么 K-最近邻(K-Nearest Neighbors, KNN)是最流行的机器学习算法之一?让我们通过深入了解其数学原理,从零开始构建它
2025-01-10 00:27:33 582
原创 TowardsDataScience 2024 中文翻译(一百三十七)
原文:TowardsDataScience协议:CC BY-NC-SA 4.0更智能模型的关键:跟踪特征历史原文:towardsdatascience.com/the-key-to-smarter-models-tracking-feature-histories-a9e3baadd52a?source=collection_archive---------3-----------------------#2024-12-31利用历史数据捕获上下文并改善预测https://harrison
2025-01-10 00:27:02 867
原创 TowardsDataScience 2024 中文翻译(一百三十六)
我建议对 AI 系统所做的工作征税,确实是有些初步且模糊的。它可能存在上百个需要回答的问题,以及成千上万的细节需要理清。而且,也可能存在我忽略的更好的想法,无论是在资金筹集还是分配支持方面。国家销售税或对 HEET 的税收只是两种可能性。也许,像对计算消耗的电力征税这么简单的做法就足够了,或者我们也许需要一些复杂的新数学理论来衡量计算的价值。我还提出了一些例外情况和门槛,旨在确保税负落在那些能够承受且从用 AI 系统替代人类员工中受益的公司身上。
2025-01-10 00:26:31 889
原创 TowardsDataScience 2024 中文翻译(一百三十五)
原文:towardsdatascience.com/the-comprehensive-guide-to-training-and-running-yolov8-models-on-custom-datasets-22946da259c3?Oliver Ma·发表于·阅读时长:15 分钟·2024 年 10 月 2 日图片由作者使用 ChatGPT Auto 创建。Ultralytics 的前沿YOLOv8模型是解决计算机视觉问题的最佳方法之一,同时最小化麻烦。它是 Ultralytics 的。
2025-01-10 00:25:59 602
原创 TowardsDataScience 2024 中文翻译(一百三十四)
原文:TowardsDataScience协议:CC BY-NC-SA 4.0使用 GPT 进行文本生成原文:towardsdatascience.com/text-generation-with-gpt-092db8205cad?source=collection_archive---------9-----------------------#2024-01-29如何微调 GPT 模型以生成类似 TED 描述的文本https://medium.com/@marcellusruben?s
2025-01-10 00:25:29 565
原创 TowardsDataScience 2024 中文翻译(一百三十三)
为什么在为本文编写代码时选择了Polars?Pandas 同样是一个有效的选择,但我想先试试这项新技术。尽管我发现它很容易上手,但它感觉不像是 Pandas 的直接替代品。Polars 有一些新的非常有趣的概念,比如懒处理,它在并行解析所有 CSV 文件并提取地理边界时非常有帮助。Polars 的懒执行 API 让我想起了编程 Spark,这让我感到很怀念。我也想念 Pandas 的一些快捷方式,但它的速度提升和显然更好的 API 结构轻松弥补了这一点。在第一部分。
2025-01-10 00:24:58 628
原创 TowardsDataScience 2024 中文翻译(一百三十二)
原文:towardsdatascience.com/support-vector-machines-svm-ml-basics-machine-learning-data-science-getting-started-1683fc99cd45?支持向量机(SVM)是一种监督式机器学习算法,旨在寻找一个超平面,将数据点最佳地分成两类。挑战在于,存在无限多的超平面可以做到这一点。因此,SVM 的目标是识别能够以最大间隔将类别最佳分开的超平面。A/B 测试非常强大。
2025-01-10 00:24:27 945
原创 TowardsDataScience 2024 中文翻译(一百三十一)
Oren Matar·发表于·阅读时间 7 分钟·2024 年 4 月 18 日在这篇文章中,我将解释并演示“结构化生成式 AI”的概念:即将生成式 AI 限制在定义的格式内。文章结束时,你将理解它的应用场景以及如何实现它,无论是从零开始构建一个变换器模型,还是使用 Hugging Face 的模型。此外,我们还将介绍一个与分词相关的重要技巧,特别适用于结构化语言。生成式 AI 的许多用途之一是作为翻译工具。这通常涉及在人类语言之间的翻译,但也可以包括计算机语言或格式。friends: {
2025-01-10 00:23:56 977
原创 TowardsDataScience 2024 中文翻译(一百三十)
利用老派的数据库技巧,如 ENUM 数据类型和列约束。为您的特定数据质量问题创建一个自定义仪表板。使用一个简单的 Python 脚本生成数据血统。我有一个忏悔要说。我曾经认为优秀的数据工程师不会使用仪表板工具来解决问题。我认为一个真正的工程师会查看日志、难以阅读的代码,以及其他任何让他们看起来聪明的东西,如果有人不小心瞥见他们的电脑屏幕的话。我当时真傻。事实证明,如果有效地执行并有明确的目的,它们可以非常有价值。
2025-01-10 00:23:24 857
原创 TowardsDataScience 2024 中文翻译(一百二十九)
我们在这篇博客文章的开头讨论了使机器学习产品项目特别棘手的因素:这涉及到在开发数字产品解决方案过程中所面临的不确定性,以及通过使用机器学习模型来预测事物时所遇到的不确定性。知道有可操作的步骤和策略可以用来缓解这些风险,令人感到宽慰。然而,也许最好的方法是,从一开始就把这些项目启动在正确的轨道上!为此,确实有助于从正确的问题和端到端的解决方案设计入手,减少初期的范围,并优先考虑数据质量、数量和历史准确性。我希望这篇文章对你有所帮助,并能帮助你挑战未来与机器学习产品相关的新项目工作方式!·发布于。
2025-01-10 00:22:54 984
原创 TowardsDataScience 2024 中文翻译(一百二十八)
原文:TowardsDataScience协议:CC BY-NC-SA 4.0识别地震数据中的时空模式原文:towardsdatascience.com/spotting-spatiotemporal-patterns-in-earthquake-data-b07068b84314?source=collection_archive---------14-----------------------#2024-01-10使用基于密度的聚类和生存分析来估算地震发生的时间https://med
2025-01-10 00:22:24 709
公司的自建邮件服务器投不进 163,显示“451 DT:SPM”
2020-02-19
imagemagick 从 png 转换的 pdf 太大了
2020-02-19
TA创建的收藏夹 TA关注的收藏夹
TA关注的人