2024年06月_RPA中国

原创开源创新框架MoA，可极大增强大模型的能力

结果显示，MoA在AlpacaEval 2.0上以65.1%的得分，击败了OpenAI的GPT-4o （57.5%），并且在使用开源大模型的条件下，仍然保持了明显的优势。这种鲁棒性对于需要高可靠性的领域，如医疗咨询、法律服务、以及客户支持等，尤为重要，同时能增强多任务的学习能力，在执行语言翻译、摘要生成、情感分析等多个子任务的复杂查询时，能够提供更加全面和深入的解答。传统的单一大模型在特定任务上表现卓越，例如，金融、医疗、营销等，但它们受限于训练数据和参数的限制，无法达到更好的效果。性能指标和多样性考虑。

2024-06-27 17:41:52 2120

原创阿里Qwen-2成全球开源大模型排行榜第一，中国处于领导地位。

他表示，为了提供全新的开源大模型排行榜，使用了300块H100对目前全球100多个主流开源大模型，例如，Qwen2、Llama-3、mixtral、Phi-3等，在BBH、MUSR、MMLU-PRO、GPQA等基准测试集上进行了全新评估。根据排行榜的数据显示，Meta开源的Llama-3-70B指令微调版本位列第2；结果显示，阿里开源的Qwen-2 72B力压科技、社交巨头Meta的Llama-3、法国著名大模型平台Mistralai的Mixtral成为新的王者，中国在全球开源大模型领域处于领导地位。

2024-06-27 17:29:26 3791

原创微软专家分享 | AIGC开发者沙龙上海站来啦！

为了向技术开发者、业务人员、高校学生、以及个体创业人员等AI技术关注者们提供更深入的行业洞察、技术交流平台和创新思维的启发，AIGC开放社区联合微软Reactor特别组织了一系列城市巡回沙龙分享活动。在上海站中，我们有幸邀请到多位微软专家进行深入的主题分享，与参与者们共同交流、探讨，一起学习AIGC的相关知识，分享落地解决方案。欢迎大家报名参与，与微软专家一起面对面互动。扫描海报二维码或点击阅读原文均可报名~

2024-06-25 16:30:20 365

原创突发！OpenAI停止不支持国家API，7月9日开始执行

6月25日凌晨，有部分开发者收到了OpenAI的信，“根据数据显示，你的组织有来自OpenAl目前不支持的地区的API流量。Multi还支持类ChatGPT的总结摘要和多轮深度对话功能，在屏幕共享时开启该功能会自动将会议的内容进行全方位总结，并且支持基于这些总结起草或提问更多的内容，来完成会议摘要的多用途。所以，连这家公司也给封了，确实挺无辜的。Multi的产品是一款类似Windos自带的远程桌面控制、协作产品，但面向的是macOS系统，同时在Zoom的基础之上进行了大量扩展。

2024-06-25 12:35:53 6143 2

原创火热报名中！AI Agent智能体开发大赛邀你现场Battle！

而代表绝佳性能的明星机型拯救者 Y9000P 及 Y9000 至尊版也将带来AI 元启版，使用英特尔®第 14 代酷睿TM i9 处理器 14900HX，24 核心 32 线程的超大规格赋予强悍表现，它还自带联想天禧个人智能体（联想小天）内置个人大模型，能与用户自然交互对复杂任务加以分解，做出规划。基于此带来的本地文档总结、个人知识问答、设备智能调优、会议纪要等十余款面向不同场景的核心应用，给参赛者和用户带来更高效的工作流和更便捷的使用体验。技术的较量、创新的碰撞、可行性的考验，

2024-06-25 11:58:01 614

原创脑洞大开！用大模型开卡车，还融了2亿美元

她表示，近两年生成式AI取得了令人惊叹的进步，ChatGPT通过了法律专业律师考试、专业医师考试，Midjourney生成的图片可以和专业设计师相媲美，Suno生成的音乐来顶级音乐人都赞不绝口。这种转换不仅简化了数据表示，VQVAE也能将输入数据映射到有限的离散潜在空间中，有效地将高维、连续的数据压缩为低维、离散的表示，从而降低了模型的复杂度并使得数据可以被高效地解码和去噪。CFG可利用过去的代理历史，例如，过去的观察和行动，来引导未来的预测，从而显著提高了环境的预测准确性和可靠性。

2024-06-24 17:57:52 1010

原创超GPT-4o，代码能力超强！Claude 3.5 Sonnet正式发布

虽然Claude 3.5的性能很强但成本却与上一代的Claude 3 Sonnet差不多，每100万Tokens输入为3美元，每100万tokens输出为15美元，支持20万tokens上下文窗口。用Claude 3.5去模仿网站也是没问题的，例如，你看好谁家网站设计的新颖、交互功能、UI不错，直接拷贝就完事了，甚至连开发细节都展示出来了。这不，压力又来到OpenAI这边，GPT-4o的语音功能还没发布呢，视觉理解和文本能力又被Claude 3.5超越了，得抓紧时间追赶啦。

2024-06-21 17:16:19 4869

原创 Agentic RAG 与图任务编排

边定义了节点间的连接和数据流。另一方面， RAGFlow 也在不断完善各类查询规划算子以简化 Agentic RAG 以及基于 Agentic RAG 的各类 Agent 应用的开发过程，真正从端到端解决企业级 RAG 应用的各类痛点。一部分简单场景下，朴素的 RAG 已经可以满足用户意图明确的场景的要求，因为答案已经包含在检索出来的结果中，只要交给 LLM 即可。如下图所示，Adaptive-RAG 的工作流程与 Self-RAG 类似，只是在前面增加了一个查询分类器，就提供了更多种对话的策略选择。

2024-06-19 11:54:11 1201

原创如何以银行客户为中心实现自动化，并创造更顺畅的客户体验？

在当今社会，客户已习惯于通过几次点击就能迅速得到所需，但银行业的客户旅程仍然因为延误、错误、隐藏费用和资金可获取性问题而显得繁琐。试问，您上一次向他人推荐自己的银行、保险公司或税务局提供的优质服务是何时？无论是购车、购房、投资基金转账，还是简单的银行卡续费，金融机构在客户满意度或净推荐值（NPS）方面通常表现平平。客户对其分流和快递递送服务的满意度更高。银行数字服务的实际效果，或所谓的“数字服务真实效能指数”，仅为25%，这一数字反映了客户仅通过数字渠道完成交易时的不满情绪。

2024-06-17 16:39:50 909

原创 GPT-4系列模型，在文档理解中的多维度评测

在不同的测试数据集上表现也各不相同。例如，如果模型在接收到“回答DocVQA数据集测试分割中的问题”的指令后，给出了与接收到“回答SQuAD数据集测试分割中的问题”的指令不同的答案，这可能表明模型对不同数据集有特定的反应。在进行数据污染分析时，当在提示中明确提及数据集名称时，模型的性能有所提高，这可能意味着模型在训练时已经接触过这些数据集，因此在评估时能够给出更加符合预期的答案。此外，即使是使用不同的数据集名称进行误导性的指导，也可能会改变模型的输出，这进一步表明模型的输出受到了预训练数据的影响。

2024-06-17 16:29:56 1007

原创 Stable diffusion 3 正式开源

根据Stability AI的介绍，SD3-M使用的是多模态扩散变换器 (MMDiT)架构，生成的图片质量、排版、复杂文本提示/语义理解和资源效率方面的性能得到了极大提高。训练数据集方面，SD3-M使用了包含10亿张图片的公开和合成数据进行了预训练，同时针对特定艺术风格和领域，使用了3000万张图片进行了微调以及300万张偏好图片。SD3-M有20亿参数，平均生成图片时间在2—10秒左右推理效率非常高，同时对硬件的需求比同类型也低，这是一款适合PC、手机、平板的大模型。

2024-06-13 17:44:07 1086

原创媲美Sora，免费使用！带物理模拟的，文生视频模型

例如，在生成两辆车相撞的场景时，模型需要模拟碰撞时的力和反作用力，考虑车体的变形和碎片飞散的方向和速度。例如，当生成一个描述风吹动树叶的视频时，物理模拟引擎会计算风力对树叶的影响，包括风的速度、方向对树叶的摆动和飘落的影响。例如，当一盆花在风中左右摇摆时，视频中的每一帧都必须展示花盆和花朵按照风力的作用进行摆动，花盆由于重力和风力的交互作用而略微倾斜，然后在风力减弱时逐渐恢复到垂直状态。下面这个是图片生成视频的案例，本身是一张静止的图片，加上图片和文本描述轻松就动起来了，可以看到运动性的幅度依然很大。

2024-06-13 17:35:04 899

原创 Post Microsoft Build and AI Day 北京开发者日

这一技术的突破极大地促进了企业智能化的升级。在本次会议中，我们将让每个人了解 Data Factory 如何为您提供现代化的数据集成体验，从丰富的数据源（如数据库、数据仓库、数据湖、实时数据等）中摄取、准备和转换数据。刚刚过去的 2024 Microsoft Build 开发者大会围绕 Copilot、生成式 AI、应用程序安全、云平台、低代码等多个技术方向，为线上的二十万名观众，以及亲临西雅图现场的四千名参会者，带来了 300 多场会议、演示、专家和讲师指导实验室，以及60余种新产品和解决方案的发布。

2024-06-12 13:56:17 1352

原创美国空军发布类ChatGPT产品—NIPRGPT

再通过实体识别和关系抽取，大模型能够自动识别文本中的实体和它们之间的关系，构建知识图谱，信息的结构化表示，来增强数据的分析、预测能力。ChatGPT的出现正在引发新一轮技术变革，经过一年多的实验、功能迭代、技术创新，加上微软、谷歌、苹果、Meta、亚马逊等科技巨头的积极入局，各行业也从最初的观望变成了大规模应用落地阶段。例如，在海上作战中，大模型可以整合雷达、声呐和卫星图像数据，帮助指挥官实时监控海域态势，识别潜在威胁，如敌方潜艇或战舰的位置和动向。应该使用哪些指标，来评估生成式AI的有效性？

2024-06-12 13:39:17 1165

原创 Nintex流程平台引入生成式人工智能，实现自动化革新

Nintex流程管理器中的这一特性消除了手动记录流程的需要，同时确保不同角色的流程一致性，并使设计者和自动化构建者能够遵循最佳实践。Nintex流程平台的最新流程智能特性允许企业通过集成和自动化流程图的创建和工具化，自动化流程自动化过程中通常繁琐的第一步。Nintex流程平台的新聊天机器人开发特性允许用户利用自己的生成式人工智能模型，在各种用例中构建聊天机器人。Nintex最近发布的其他人工智能驱动特性，包括表单生成器、表单翻译器和Nintex助手，为新的工作流程和应用程序开发特性提供了基础。

2024-06-11 15:45:08 823

原创谷歌推出AGREE，增强大模型生成回答准确性

测试时自适应的工作流程开始于接收到一个新的查询，经过微调的大模型会首先根据其训练阶段学到的知识生成一个初步的回答，然后进入一个自动迭代的过程，大模型会自我评估生成的回答，并识别出其中尚未归因或需要进一步支持的声明。AGREE的核心技术是通过检索文档中的相关段落来增强大模型生成回答的事实基础，并提供相应的引用。在微调阶段，AGREE框架采用了LORA的轻量级微调技术，通过在大模型的权重矩阵上添加低秩更新，来实现高效且针对性的调整，有助于减少计算资源的消耗，同时保持模型的泛化能力。

2024-06-11 15:42:57 692

原创重磅！OpenAI与苹果合作，将ChatGPT集成在iOS 18中

使用的芯片是苹果自研的M系列和专属云服务器，并且苹果制定了新的AI使用标准以保护用户的隐私和数据安全。据悉，苹果本次使用的ChatGPT是由GPT-4o提供技术支持，这是OpenAI前不久刚发布的多模态大模型，支持跨文本、视频、音频进行推理，也是专为移动端打造的低消耗、高性能版本。GPT-4o模型的最大技术优势是多模态推理，尤其是在视频、音频方面的表现非常优秀，所以，苹果用户可以通过手机、笔记本对录制的音频进行内容总结。例如，用户可以选择不同的主题、服装和装饰，将自己的照片快速变成卡通、朋克等类型的图像。

2024-06-11 14:59:16 1470

原创激发AI创新潜能，OPENAIGC开发者大赛赛题解析

拯救姬AI数字人是内置于拯救者电脑中的智能AI助理，背后由联想小天AI大模型驱动，拥有多模态AI能力，可与人实现自然语言交互，例如实时聊天对话、画图、生成视频、上网查询、游戏辅助、操作办公软件、检索电脑资料、识图、听从复杂语音指令实现自动化操作电脑等能力。同时，也欢迎基于纯创意的作品参赛。（3）电商营销图片：上传商品图片后，根据场景或模特提供或自定义关键词，商品可以自动呈现在生成的模特身上，比如服装、首饰等，或者生成商品的使用场景，减少实际拍摄成本，并可将模特图片替换为客户自己的照片，以增强客户体验。

2024-06-06 11:14:38 1003

原创 IDC最新报告：预计到2027年全球数字化转型支出将近4万亿美元

该份IDC的全球数字化转型支出指南从用例、技术、行业和地理位置等多个维度详细分析了数字化转型的机遇，量化了19个行业和14个地区的376个数字化转型用例以及12个技术市场的企业支出。她指出：“数字化转型支出正在成为市场的主流，尤其是在生成式人工智能的加持下，数字业务的投资正以前所未有的速度增长，这对各行各业都带来了深远的影响。金融机构正在利用这些技术进步，将自身转型为更高效、更以客户为中心的组织，以快速应对不断变化的客户需求和动态的宏观经济环境。，全方位体验参与和可持续发展成为该行业增长最快的战略焦点。

2024-06-05 12:53:14 557

原创大模型平台Cohere获得4.5亿美元融资，估值50亿美元

前不久，Cohere开源了新一代大模型——Aya 23，一共有80亿和350亿两种参数，支持阿拉伯语、中文（简体和繁体）、捷克语、荷兰语、英语、法语、德语、希腊语、希伯来语等23种语言，可生成文本、代码、总结内容等。产品方面，Cohere提供类ChatGPT产品，帮助企业快速部署对话式AI聊天机器人、生成式搜索引擎、文本摘要总结、增强向量搜索等，也是为数不多在技术层面具备与OpenAI进行竞争的AI企业之一。与上一轮融资相比，Cohere的估值提升了28亿美元，年营收提升了2200万美元。

2024-06-05 12:49:48 479

原创斯坦福抄袭清华、面壁智能大模型，当事人已道歉、删项目

6月4日，两名斯坦福大学生Aksh Garg和Siddharth Sharma，承认抄袭清华和面壁智能联合开发的MiniCPM-Llama3-V2.5（以下简称V2.5）多模态大模型事件，并在社交平台公开道歉、删掉开源项目。该抄袭事件也得到了斯坦福大学AI实验室主任Christopher Manning的认证，表扬了国内大学、企业对开源大模型的贡献，并表示对该事件毫不知情。V2.5开源地址：https://github.com/OpenBMB/MiniCPM-V?tab=readme-ov-file

2024-06-05 11:20:13 997

原创 UiPath 第一季度财报低迷，引投资公司下调评级！首席执行官Enslin宣布离职后股价暴跌

全球领先的自动化软件供应商 UiPath 最近发布了第一季度的财报，尽管其每股收益（EPS）为0.13美元，超过了分析师预期的0.12美元，且季度总收入为3.35亿美元，同比增长16%并超过华尔街预期的3.33亿美元，但由于下调了全年的财务预期，公司遭到了投资公司的批评，称其表现“令人失望”。威廉-布莱尔在其报告中也指出，虽然看好UiPath的长期市场前景，但公司需要展示稳定的执行力和一贯超越指导的表现，团队还需时间实施必要的运营变革，以促使UiPath实现持久的增长和利润扩张。

2024-06-04 14:35:17 350

原创 2024第二届拯救者杯·OPENAIGC开发者大赛参赛作品指南

（4）电商营销领域，可上传商品原始图，根据使用场景或人物，提供提示词模板或自定义的方式，可将商品自动穿着到生成的模特的身上（例如服装、首饰、鞋等商品），也可将商品自动生成使用场景而无需真实的摆拍，如将电视放置到客厅，以及类似香水、包包等商品放置到具体场景中或虚拟场景中获得更好的商品展示，降低实拍成本。2、围绕拯救姬AI数字人，在多场景下结合其多模态的能力（文字、画图、视频、交互），进行应用设计和创意规划，可以是面向个人娱乐和生活的应用助手，也可以是面向企业级办公、专业领域的 “copolit“应用；

2024-06-04 11:44:38 1001

原创终于来啦！Stable Diffusion 3将在6月12日正式开源

该架构采用了模拟无关的流训练方法，直接回归一个向量场，用于生成数据分布和噪声分布之间的概率路径，有效避免了求解常微分方程所带来的超高算力成本，同时也极大增强了文本语义理解、文字嵌入和图片样式等。与英伟达相比，AMD在大模型、生成式AI的部署、开发等方面略处于落后，Stability AI开源的大语言模型、扩散模型等的下载量合计超过千万级别，拿下它等同于收获了一大批开发者。通过偏向感知上相关的尺度，提高了训练的效率和性能。一只巨大、威严的白色巨龙，它有多个角和类似须的触角，翱翔在崎岖的山脉景观之上。

2024-06-04 11:26:30 1401

原创谷歌创新框架：从非结构化数据，实现多模态学习

可将图像分割成多个小块，并将这些块视为序列输入到Transformer中，通过自注意力机制学习图像的高层次特征，还会使用掩码图像建模方法，通过重建被掩码的像素或特征来训练，以提取图像的视觉特征。在这些层中，交叉注意力机制发挥了重要作用，允许模型在不同的模态表示之间自由“询问”和“回答”，使每个模态的特征都能关注其他模态的特征，并根据它们的相关性和重要性进行加权整合。值得一提的是，这些改进是在高达35.7%和99.8%的样本存在模态缺失的情况下完成的，这更加证明了LANISTR的多模态学习能力。

2024-06-03 17:46:58 1006

原创麦肯锡：ChatGPT等生成式AI应用激增，大中华区增长最快

目前，开源大模型领域很完善，高性能、低消耗的知名产品有很多，例如，Meta的Llama系列，微软的Phi系列，谷歌的Gemma系列。1）使用现成的生成式AI产品，例如，ChatGPT、Copilot、Gemini等，这要做的好处是可以节省一大笔研发费用，每个月支付很少的订阅费即可。但缺点也很明显，无法在特定的业务场景进行深度应用，例如，对数字、内容准确率要求极高的金融、法律领域。72%的受访者表示，他们在业务中至少使用了1项生成式AI技术，50%表示，使用了2个以上，8%的表示，使用了至少5个以上。

2024-06-03 17:34:36 1222

RPA中国