• 博客(2097)
  • 收藏
  • 关注

原创 千万不要尝试 Qwen2.5-Max,你会因此忘掉 DeepSeek V3

在对 Qwen2.5-Max 深度评测后,我想到了一句话——有人逐日,有人摘星。DeepSeek V3 的发布和爆火,让我们看到了 MoE 模型的潜力,让世界看到中国 AI 的锋芒。探索 AGI 的路上并不孤单,DeepSeek 和 Qwen 都是中国 AI 大模型的代表力量,当然还有很多优秀国产代表。说个冷知识,DeepSeek 将 R1 蒸馏出的 6 个小尺寸模型,有 4 个用的是 Qwen 开源模型,李飞飞最新发布的 S1,也是用 Qwen2.5-32B 作为基座模型。

2025-02-07 19:22:43 576

原创 终于找到一个靠谱的DeepSeek R1 推理API,限时免费!

DeepSeek-R1 系列模型的开源,因其出色的性能和低廉的开发成本,已引发全球的热切讨论和关注。潞晨科技携手华为昇腾,联合发布。

2025-02-07 18:38:44 604

原创 这家AI悄悄上线阅读模式,手机刷论文就像看小说一样爽!

临近放假,小伙伴们是不是已经陆续踏上了归家之路!虽然心已经放飞,但是各家AI公司还在卷的飞起,又是发新模型,又是发技术报告,非常火热。我最近发现,秘塔 AI悄悄上线了一个,在手机上读PDF体验非常爽,虽然不是大功能,就是那种会让你觉得用了很舒服的小细节。一直一来,在手机上读PDF体验都不太丝滑,尤其是图表文字混着排版时,上下错位很常见,还有读英文文献,来回切翻译软件非常麻烦。如果你经常看PDF文献的话,绝对懂我说的这个点。正好这两天在路上跑,高频使用了一波,体验下来非常清爽,尤其是对眼睛极其友好。

2025-01-24 15:18:56 542

原创 我让男同事去测测豆包大模型1.5,结果他被豆包钓成翘嘴了

真的是离谱。众所周知,每当业内有牛逼的大模型发布,肯定免不了被咱们号一顿 case 毒打,让这个模型知道什么叫人类的智慧,让它低调做人。但这次,终于翻车了。事情是这样的。昨天豆包大模型 1.5 全家桶正式发布了嘛,官方刚发布 15 分钟,就被咱们 Family 群里的家人给发现了,并且发出灵魂拷问——谁能测测?行,测测就测测。我就让编辑部的一个男同事去测了。而且我告诉同事,有家人说豆包大模型是非常能给用户提供情绪价值的。情绪...情绪...

2025-01-23 18:00:42 992

原创 突发!Tiktok美国停服,Perplexity发起收购,小红书也被盯上了

这次意外的“走红”,如同“甜蜜的负担”,在大家都摩拳擦掌等待过年的时候,小红书的同志们键盘不出意外都要冒火星子了。一边是海量涌入的流量,如同天降甘霖,平台收获了空前的流量红利和近乎完美的品牌营销机会;另一边,可能很快就要开始应对来自美国政府可能的战略性关注和审查。。。。。成名的代价,小红书,你准备怎么接!

2025-01-20 16:19:42 1044

原创 长文本“新王”诞生!400万字输入,MiniMax首次开源即王炸

万万没想到,2025 开年惊喜是 MiniMax 给的,就是海螺 AI 背后的中国大模型 AI 创业公司。昨天刷信息流的时候,发现他们刚发布了两个新模型,一个是文本模型 MiniMax-Text-01,另一个是多模态模型 MiniMax-VL-01。统称为模型。今早我刷了下 X,发现 MiniMax-01 也被海外网友刷屏了。有网友提到这是继 Deepseek 之后的另一家来自中国的「OpenAI 级」顶尖开源模型。

2025-01-16 15:21:55 1235

原创 英伟达最强AI芯片GB200被曝故障,微软谷歌Meta 大规模退单,改购H200

受芯片禁令的影响,国内很多小伙伴对大模型训练部署的 GPU 型号感知可能还停留在 H100 甚至 A100 上面。但其实在 H100 之后,不仅诞生了同样是 Hopper 架构的 H200 芯片(于 2023 年底发布),而且 2024 年上半年,英伟达还发布了超越 Hopper 架构的全新 Blackwell 架构。搭载最新 Blackwell 架构的 GPU 芯片,便是 B200。,如下图所示。根据相关测试但这还不够,更恐怖的是,[4]

2025-01-15 12:07:57 1039

原创 Github 趋势榜第一!开源 Agent 开发神器,任意文档转 JSON、MD

不知不觉间,markdown/json 格式似乎已经成为了 AGI 时代的“新基建”。各种各样的文档经过解析工具快速提取并结构化输出为这两种格式后,给各类 Agent/RAG 框架提供稳定的原始文本输入。Docling不仅具备多格式解析能力,且对版面和表格都有较高还原度,还能通过多线程或 GPU 加速来应对大批量处理场景,加上 MIT 许可开源,不失为大家解析文档的一个好选择。

2025-01-15 12:07:01 1138

原创 Sam Altman:2025年,第一批AI Agents将加入劳动力大军

一年多前的那个特殊的星期五,最糟糕的事情莫过于我在一次视频通话中被突然解雇,紧接着,在我们挂断电话后,董事会就发布了一篇相关的声明。回首往事,我当然希望当时能有不同的处理方式,我也相信,与一年前相比,今天的我是一个更成熟、更有远见的领导者。

2025-01-06 23:22:24 1039

原创 GitHub 造假浪潮爆发!已有450万虚假星标,实锤造假将导致仓库限流

"看完这个’星星交易’的故事,不禁让人思考:在开源社区里,真实的价值到底应该用什么来衡量?是浮于表面的数字,还是实打实的代码贡献?而且,小鹿去查了下,星标的价格从几分钱到几元不等,这种价格差异主要由账户的“质量”决定。高价星标通常来自注册时间较长、有一定活跃度的账户,这些账户的星标看起来更“真实”,更难以被平台识别和封禁。而低价星标则来自新注册的、几乎没有任何活动记录的账户,这些星标的风险更高,很容易被平台识别并取消。产业链很成熟。。这些服务还提供“失效包重刷”的保障。。。

2025-01-02 17:55:35 1433

原创 中国发表AI论文数量,全球第一!这些互联网大厂功不可没

而其他主流 AI 顶级学术会议如 ACL、KDD、CVPR、ICML 等,你也会发现,除了清华、浙大等高校外,阿里、蚂蚁、字节、腾讯、百度、小米等大量互联网大厂身影频出,在 AI 这种重算力、重资金的研究赛道,工业界科研团队的含金量在逐渐上升。如果论文基数很大,论文平均引用次数过小,则说明我们的科研投入可能大部分拿去灌水了,做出的高影响力研究太少,这种只能自欺欺人,无法形成真正的、足够大的国际影响力。如今,流行一个词——在平均被引用次数上,中国平均每篇论文被引用 22 次,是美国的一半,印度的 2 倍。

2024-12-30 21:35:22 1389

原创 Deepmind 重磅开源:消除幻觉,让 LLMs 学会规则库和多步推理

HtT 是 DeepMind 开发的有助于 LLMs 学习显式规则并将它们应用于推理问题的框架。通过实验分析,HtT 显著提高了关系推理、数值推理和概念学习问题上 LLMs 的推理性能,消除模型幻觉。目前 HtT 还面临着受限于模型基础能力和上下文长度限制的问题,但是该框架仍具备较大潜力,为使用 LLMs 获取知识规则,消除推理幻觉开辟了新的方向。

2024-12-29 22:22:01 1112

原创 检验创业想法是否靠谱的AI神器!洞察市场机会,定位用户痛点,pmf验证…

好啦,深度体验了一番 GummySearch 后,我对自己之前萌发的创业点子有了更清晰的认识,它给我了我一点阳光,也泼了我一盆凉水。小程序,我觉得它的理念太妙了,因为它把所有你想让对方养成的好习惯变成了可以积分的事情,而不是可能的指责、唠叨,然后积到了一定分数,对方就可以到自己的积分商城兑换礼品。其中,Reddit 作为一个充满活力的全球社区平台,里面有非常丰富的兴趣小组和只有想不到没有找不到的话题,类似国内的百度贴吧、豆瓣,我们不仅可以从中发现灵感、验证想法,还可以找到对应的客户,非常适合验证创业想法。

2024-12-29 22:20:00 990

原创 OpenAI 突发公司剧变,将分裂为两家组织。野心?还是梦想?

我们希望呢,就是让我们的商业公司成功赚到大笔钱,获得巨大的成功,那么我们这个商业公司就能反哺我们的非营利组织,来为人类谋福利啦~~而第一条,OpenAI 仅能使用 Azure 云,这个也相当卡脖子——GPU 在美国也是紧俏资源,OpenAI 因为这个对赌甚至无法使用其他云厂商的算力。根据官方的说法,OpenAI 希望通过这次重组,来实现”通过营利性组织的成功“来实现”让非营利性组织成功“。如今,OpenAI 的组织分裂,对于人类来说,我觉得也是喜忧参半的。这两家组织的关系,可以用这个网友的评论来总结——

2024-12-29 15:33:44 776

原创 DeepMind最新研究:逆向思维训练LLM可大幅提升AI推理能力

逆向思维:从确定的目标状态出发,通过分析因果链条,找到实现目标的路径。这种方法在问题较为复杂,正向思维容易迷失方向时特别有效。以上是 ChatGPT 给出的逆向思维的基本解释。从直观上理解,逆向思维就是从答案反推问题。例如:“Emma 有 2 个苹果,Jack 有 3 个苹果,一共有几个苹果?正向思维就是“2+3=5”,得出一共有 5 个苹果。而逆向思维可以理解为:“已知一共有 5 个苹果,现在 Emma 有 2 个苹果,请问 Jack 有几个?这么做有什么好处呢?

2024-12-29 15:32:00 1701

原创 o1多模态推理终于有了“开源版本”,阿里云通义QVQ一夜爆火

这是我第一次,因为一个大模型的名字和头像,而对其印象深刻。它的头像长这样——看图猜 3 个字母它的名字长这样——看图猜 3 个字母一向严肃的大模型赛道开始变得画风活泼了起来...这个画风奇特的模型,就是刚发布的“开源版多模态推理模型”——,全名是 QVQ-72B-Preview,为视觉推理而生。QVQ 一经发布,就直接在 Twitter 上火了——大量歪果网友也在刷屏秀 QVQ 跑出来的有趣 case——

2024-12-29 15:30:31 1335

原创 我用AI新做了夕小瑶的表情包,被围观了

自从前段时间更新了文章版面后,就经常有家人在 Family 群里夸——然后就会有人疯狂追问这是不是用 ai 做的——众所周知,由于夕小瑶太穷,请不起专业的设计师,但由于自身 AI 能力过硬,所以必然要让 AI 来充当这个苦力。不过,事情的进展并没有止步于此,因为还有很多家人要求出表情包。甚至还有家人直接在评论区逼宫,求插入表情包的。安排!但我试了一圈市面上国内外各类 AI 工具,把 prompt 调炸了也没有一个能生成出来让我满意的表情包的。这竟然让我犯了难。不是表情控制不到位,就是人物风格不一致。

2024-12-22 14:53:13 1187

原创 最强的全模态理解端模型开源,这个轻巧的小模型不仅多基准登顶,推理速度最高还能领先300%

这可能是目前最强的开源今天,无问芯穹宣布正式开源全球首个端侧全模态理解模型 Megrez-3B-Omni,同步开源的还有它的纯语言版本模型 Megrez-3B-Instruct。Megrez-3B-Omni 是一个为端而生的全模态理解模型,Megrez-3B-Omni 选择了最适合手机、平板等端侧设备的。

2024-12-16 20:43:44 1223

原创 今日最佳 AI 论文:简单蒸馏训练,就能超越 o1-preview?

这篇论文在验证蒸馏数据的有效性的同时,也为我们敲响了警钟。简单的蒸馏方法,虽然能带来一时的成效,但从长远来看,过度依赖蒸馏可能会限制我们的视野和潜力。这并不是说蒸馏本质上是有问题的——它仍然是一个有价值的高性价比方法。关键在于,不能让蒸馏的便利使我们偏离了更艰难但最终更有价值的本质性创新之路。研究者应该在两者之间找到平衡点,既能通过快速蒸馏应对工作中可能的 ddl 压力,又能不忘初心,坚持技术创新的本质。毕竟,追寻足迹的影子,永远无法变成光。

2024-12-09 16:43:53 1275

原创 满血版 o1 上线两天,被网友玩出来了 10 个疯狂用法

虽然网友们“方方面面”地验证了 o1 Pro 强大的进步!氮素,奶茶还发现了 o1 Pro 不少翻车的例子 hh!比如:现在几点了?o1 虽然会算数,但是不会读表哈哈哈!大家用 o1 Pro 怎么样,欢迎评论区和我们一起讨论 ~

2024-12-09 16:39:44 1517

原创 不必再期待Sora!谷歌炸出大世界模型,AI无限月读诞生了

现在,这个魔幻的能力逐渐成为现实。我这里先给大家贴一个demo:大伙第一眼看过去,估计都会认为,这就是一个AI生成的视频吧。是,也不是。再看一下呢?视频中的人物的行为,完全是由人类,通过键盘鼠标操控的。而生成这个demo的模型,就是谷歌DeepMind刚刚发布的简单说一下世界模型。在通往AGI的道路上,人们一直在追求一个能理解现实世界,复制现实世界基本动态的模型,这是通往AGI的必不可少的核心。

2024-12-05 20:54:09 1056

原创 昨夜,亚马逊云科技发布大模型工厂,全球上百个顶级模型API自由调用

想多扯几句。Bedrock 的发布,意味着生成式 AI 应用的落地门槛被进一步打下来了。尤其 Marketplace 的概念,更是一个双向的利好——专业的 AI 厂商可以快速连接到目标开发者,而开发者也可以打破信息壁垒,高效率找到目标模型。虽然这不是技术更新,但这个事情本身我觉得是本次大会上的一大亮点,也是现在行业里的真·痛点。而 Marketplace 本身,也是一个上限非常高的商业模式。整体上,我觉得亚马逊这次的 re:Invent 大会比去年的猛料更足,AI 味儿更浓。

2024-12-05 20:44:25 1409

原创 一张图,生成一个世界!李飞飞首个空间智能项目发布

夕小瑶科技说 原创作者 | 海野只需要一张图片,甚至是一句prompt,就能生成一个非常精细的3D世界。让我没想到的是,这个3D世界还允许以第一人称视角有些小伙伴可能有印象,在11月初,一家公司Decart发布过一个项目Oasis:由AI实时生成游戏Minecraft(《我的世界》)的物理世界。它也能探索、转身。我还试玩过一段时间,不得不说,Oasis还需要打磨打磨。其中最让我诟病的是,内容生成的稳定性太差了。本来面前是一片村庄,一转身,就变成新的场景了。

2024-12-03 19:30:22 731

原创 翁荔离职OpenAI后第一个大动作!奖励黑客万字综述!

翁荔大佬在离职后的大动作确实引人注目!她聚焦于强化学习中的一个关键问题——奖励黑客(Reward Hacking)。这一问题涉及到智能体(Agent)利用奖励系统或环境漏洞来获得高额奖励,而并没有真正掌握预期的行为。翁荔呼吁业界加大研究力度,以更好地理解和缓解这一问题。此外,她也坦言这篇研究不易完成~(奶茶看的也非常不易呜呜,请看官大老爷们给个三连!同时也有不少来自OpenAI的前同事对此表示推荐和支持。奶茶将继续期待翁老师的新动作~~

2024-12-03 19:20:42 1034

原创 捏OC?养设子?AI+二次元才是壁垒最深的AI赛道...

这个角色的性别、性格、经历甚至种族(没错,这个角色甚至可以不是人族)都是由作者自己设定的,造这个角色的过程就叫。这个灵魂提取器也有同样的意思——你可以用它把现实生活中的一切实体物品转化为虚拟的艺术作品,无论是你心爱的宠物、窗台上的一盆多肉,还是街角的咖啡馆,都是灵感本身,打破现实与虚拟的界限,成为独一无二的内容创作者。这些设计师通过接单的方式,为有OC需求的用户定制设计原创角色,从前期的设定、造型到最终的立绘完稿,都需要专业的技术和丰富的经验作为支撑。妈耶,夕小瑶的灵魂是一位爱幻想的猫耳少女!

2024-12-03 19:08:54 802

原创 破例两篇!NeurIPS时间检验奖颁给了Ian的GAN、Ilya的Seq2Seq,实至名归

今年NeurIPS时间检验奖颁给了两篇论文!分别是大名顶顶的Ian的和Ilya的。NeurIPS时间检验奖(Test of Time Awards)的颁奖标准是:10年前在NeurIPS上发表、对研究领域产生了重大影响、经得起时间考验的论文。官方自己也承认:今年,我们破例颁发了两篇时间检验奖,因为这两篇论文对整个领域的影响力都不可否认。Ian Goodfellow的名字能被世人熟知,就是通过这一篇GAN论文。

2024-11-28 19:55:23 1041

原创 “奇葩”编程题,仅OpenAI与一国产模型破解,来看看新AGI路线怎么初露锋芒

从第一性原理出发,传统的链式思维,比较像暴力枚举,而让大模型显式的罗列所有可能性,这无疑非常的不像一个“优等生”的脑袋;根据笔者的理解,像“代码写的对不对”,“数学公式的计算结果对不对”,都可以通过推理任务沙盒来辅助验证当下计算/中间结果的正确性,从而为思维过程提供反馈信号,进而验证某条思维链是否合理、正确。从思维链内部来看,中间过程中写过有bug的代码,但从它命名为“Review”的思考部分,说明它具备自我反思的能力,发现了bug并进行代码修正,直到完成一个推理逻辑自洽的代码版本。

2024-11-28 19:48:04 899

原创 谷歌用LLM帮渐冻人用眼神打字,又快又省力!新研究登上Nature 子刊

大语言模型的出现标志着人工智能领域的范式转变,开创了认知计算的新纪元。这一技术突破不仅体现了计算机科学的重大进展,更预示着人机交互模式的革命性变革。除了以上大的意义,大语言模型出现对人类生活质量的产生了大大的改善!SpeakFaster这项突破性的进展让我们看到,通过整合大语言模型与精心设计的用户界面,我们竟然能够如此显著提升患有运动障碍者的沟通效率!,让他们能够更自如地表达思想、参与社会交流。而且,效果如此好!

2024-11-25 16:32:02 732

原创 NEO发布第一位自主机器学习工程师,MLE-bench秒杀了OpenAI o1

AIDE的出现,代表了一种新的尝试,结合代码逻辑和神经网络,专门针对ML进行优化,更适合处理专项专用的问题。在50场Kaggle比赛的测试中,NEO在26%的比赛中赢得了奖牌,超过了搭配AIDE框架的OpenAI o1(16.9%)。在整个工作流中,不同的工作内容对应一个单独的智能体(图中的planner、analyzer等),不同的智能体驱动不同的模型进行各项工作内容同时进行。这样一来,复杂的问题就可以分解为可管理的组件,现在只需要给定一个具体目标,NEO就能启动一个全面的工作流程来实现这个目标。

2024-11-19 21:46:16 912

原创 最新!LeCun发起的LLM评测榜单中,这个大模型拿下中国第一

同时,需要大模型在知识覆盖范围和深度上也能实力在线,除了能处理常见领域知识,也能理解特定领域或边缘分布中的复杂问题。今日消息,国际权威榜单 LiveBench 官网公布了最新的语言大模型测评结果,阶跃星辰自研的万亿参数语言大模型 Step-2 的技术表现位列中国基座大模型第一,成绩逼近 OpenAI 的 o1-mini-2024-09-12,超越 gpt-4o-2024-08-06 、gemini-1.5-pro-002 等国际主流模型,是唯一进入榜单前十名的中国语言大模型,位列全球第五。

2024-11-19 21:44:29 629

原创 AIGC的全新机遇!北京这场专家云集的AIGC国际会议与大模型应用峰会即将启幕

为了探讨这一领域的未来方向,分享最新的科研成果,促进国际间的合作交流,“第二届人工智能生成内容国际会议暨大模型应用创新大会”(AIGC 2024)将于2024年12月21日至22日在北京隆重召开。随着算法的进步和计算能力的增强,未来的AIGC将更加精准地捕捉用户需求,创造出更加个性化、多样化的内容。来自国内外的众多院士、专家、学者、教授,以及人工智能领域的企业代表和专业人士齐聚一堂,共同分享前沿学术成果,交流思想观点,探讨产业应用,推动了AIGC领域的快速发展,吸引了600余名与会者。

2024-11-19 20:39:13 495

原创 今天,智谱「新清影」上线,率先进入有声视频生成时代!还要继续开源宠粉

那就是,但凡某个工作,需要人去检索、扒拉的,理论上都能用生成式范式给定义一个新的任务出来,把用户检索query->满足用户query的内容构造成训练集,选择合适的大模型架构训个模型出来,然后本来要花大量时间去检索扒拉内容的那个工种,就因此被提效了。从当前的技术积累就不难看出,沿着当前的速度继续迭代下去,可能用不了两年,我们或许只需要一个想法+一张底图,就能生成一段自带bgm、音效甚至配音的高可用视频。看到智谱这波在视频生成的升级,说真的很开心,也很骄傲,我们与国外的差距正在以超预期的速度在缩小。

2024-11-10 15:11:07 1194

原创 Meta VR硬件主管强势加入OpenAI,与苹果传奇设计师合作开发新AI设备

OpenAI要进军AI消费类硬件了?在LinkedIn上,Kalinowski称,在新角色中,她将首先专注于OpenAI的机器人工作和合作伙伴关系,以帮助将人工智能带入物理世界并释放其为人类带来的好处。这并不是夸大其词。作为硬件高管,Kalinowski的履历格外亮眼。从2013年2月到2022年3月,Kalinowski领导了Meta的VR护目镜的硬件团队九年时间。从2022年3月开始,Kalinowski又开始领导Meta的AR眼镜团队,并且负责监督Orion的创建。

2024-11-05 19:56:20 459

原创 比ChatGPT更牛!苹果新AI模型刷新交互体验!能看懂你的手机屏幕!平板和安卓机也都行

Ferret-UI 2改善了跨不同平台的用户界面(UI)理解和交互,支持多平台,具有高分辨率图像编码和自适应网格化功能,并且改进了数据生成。大语言模型在人机交互中的体验优化确实是非常重要的!随着技术的不断进步,人工智能系统正在朝着更加智能、自然和无缝的交互方向发展。现代应用程序已经扩展到多模态交互,包括视觉和语音识别,使用户界面能够更全面地理解用户的多维度需求。

2024-11-05 19:54:11 1097

原创 谷歌CEO劈柴吹了个牛,被自家员工“反诈”

我之前提过,如果一个使用Copilot等工具的8人团队的效率,等同于一个10人的团队,那么我认为说“AI替代了2个工程师”是合理的。注意“削减成本”(做得更少,以降低成本)和“提高效率”(做同样的事情,但成本更低)之间的区别。底下的一位曾在RPA工作的网友评论称:现在这个环境下,即使真的有公司实现了“AI取代人力”,他们也不敢直接公开声称,这可能引起政客的错误关注和公众的恐慌。这篇帖子下面,第二位员工发言的“没有人敢说我们用AI取代了X%的人力”内容,又激起了人们关于“AI是否会导致人下岗”的讨论。

2024-11-04 22:00:22 835

原创 谷歌被俄罗斯罚款2,500,000,000,000,000,000,000,000,000,000,000,000美元

小鹿还查了下,在过去,对科技巨头的罚款通常是按公司年收入的百分比征收的。例如,同样心比较狠的欧盟对违反法规的公司通常征收最高为年营业额10%的罚款。欧盟以罚的狠出名了。。俄罗斯罚谷歌这个金额真的是让人长见识了!小鹿真的很期待后续的发展,已经搬好小板凳等着了!到底是谷歌给不起罚款认栽而停止对俄罗斯制裁的种种小动作,还是真给出这么多钱啊。

2024-11-01 14:40:47 780

原创 Copilot放大招!接入Claude和Gemini,Cursor地位不保?

最初,GitHub选用的是OpenAI GPT-3的微调版本,逐步升级至最新的GPT-4模型。去年,GitHub推出了Copilot Chat,为了满足不同的延迟和质量需求,Copilot的基础模型经历了迭代,采用了包括GPT 3.5-turbo、GPT 4o以及4o-mini在内的多个版本。o1-preview和o1-mini:更强的推理能力,在GitHub的对比测试中,o1-preview模型能够更深入地理解代码的约束条件和边缘情况,生成的代码结果在质量和效率上都更为出色。Github,你这是在害我!

2024-10-31 23:36:46 926

原创 大模型训练成本降一半!厦大和vivo联合推出预训练新策略,给LLM降本增效

第一阶段的大学习率和第二阶段完整的学习率衰减过程对CPT的性能尤为重要。CPT无法兼顾不同版本LLMs的性能。完整的学习率衰减过程能确保当前版本的LLMs的最优性能,但后续版本的LLMs则需要以大学习率训练提供的初始化checkpoint,这是CPT无法同时满足的。上图分别展示了PTFS、CPT和我们提出的范式应用于Cosine学习率调度策略的学习率曲线。特别地,我们的范式也适用于其它学习率调度策略,如Knee和Multi-Step等。

2024-10-31 17:18:43 895

原创 OpenAI放弃自制AI芯片!伦敦场开发者日Hugging Face工程师现场“拷问”Sam Altman

夕小瑶科技说 原创作者 | 小鹿OpenAI 2024年开发者大会第二场(伦敦场)刚结束。10月初在旧金山举办了第一场,但这次没有像上一场放出很多花活,这次开始走剧透局了!现场的OpenAI 产品主管 曝光了 GPT o1即将更新的功能:Function calling(函数调用)Developer messages(开发者messages)Streaming(流式传输)Structured outputs(结构化输出)Image understanding(图像理解)

2024-10-31 17:13:46 879

原创 冲出“包围圈”,阶跃星辰登顶国内多模态理解大模型榜首

今年 3 月份,阶跃星辰正式亮相时就一口气发布了三款大模型产品:综合性能超过 GPT-3.5 的千亿参数大模型 Step-1,千亿参数的多模态模型 Step-1V 和国内首款万亿参数模型语言大模型 Step-2 的预览版。除了自研应用,阶跃的 Step 系列模型正在获得越来越多开发者的选用,网红 AI 应用胃之书、国内首款 C 端 AI 电商应用物圆、AI 科研大模型专业社区 ReadPaper、AI心理陪伴应用林间聊愈室、面向胰腺癌肿瘤患者的智能 RAG 平台小胰宝等等都不约而同的选择阶跃星辰的大模型。

2024-10-25 14:27:55 538

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除