结合Transformer与Mamba,Jamba来了!

近期AI相关资讯,一起看看吧~

X 的 Grok 得到重大升级

马斯克的人工智能初创公司X.ai推出了Grok-1.5,是Grok聊天机器人的升级版AI模型。该新版本增强了推理能力,特别是在编码和数学任务方面,并扩展了其处理更长、更复杂输入的能力,具有128,000个标记的上下文窗口

Grok聊天机器人以其在讨论有争议话题时带有叛逆色彩的能力而闻名。改进的模型将首先由X的早期用户进行测试,计划稍后进行更广泛的推广

https://x.ai/blog/grok-1.5

结合Transformer与Mamba,Jamba来了

AI21 Labs发布了Jamba,这是基于Mamba架构的第一个生产级AI模型。这种新的架构结合了传统Transformer模型和Mamba SSM的优势,产生了一个既强大又高效的模型

Jamba的混合架构由Transformer、Mamba和专家混合(MoE)层组成,同时优化内存、吞吐量和性能

在这里插入图片描述

该模型在各种基准测试中展示了卓越的结果,在其规模类别中与或优于最先进的模型。Jamba将以Apache 2.0许可证的开放权重发布,并且将可以从NVIDIA API目录中访问

https://www.ai21.com/jamba

谷歌DeepMind的AI生成数据检查器表现优于人类

谷歌DeepMind开发了一种名为Search-Augmented Factuality Evaluator(SAFE)的人工智能系统,可以比人类检查员更有效地评估由大型语言模型生成的信息的准确性。在一项研究中,SAFE在72%的情况下与人类评级相匹配,在与人类意见不一致的情况下,76%的时间都是正确的

尽管一些专家对将SAFE的表现描述为"超人类"表示怀疑,主张将其与专业检查员进行基准测试,但这个系统的成本效益是无可否认的,比人类检查员便宜20倍

https://arxiv.org/pdf/2403.18802.pdf

情感与AI结合:Hume AI的EVI重新定义了语音交互

Hume AI推出了一款名为Empathic Voice Interface(EVI)的新型对话人工智能。EVI与其他语音界面的不同之处在于它能够理解并响应用户的语调,为交互添加了情感智能。通过根据用户的表达方式调整语言和回复,EVI创造了一种类似于人类的体验,模糊了人工智能和情感智能之间的界限

EVI的共情能力不仅仅局限于理解语调,还能准确地检测对话转换的结束,处理中断,甚至从用户的反应中学习以逐步改进,再加上它快速可靠的转录和文本到语音功能,使EVI成为一个高度适应性强的工具

https://analyticsindiamag.com/forget-openais-chatgpt-hume-ais-empathetic-voice-interface-evi-might-be-the-next-big-thing-in-ai/

Claude 3 Opus成为顶级用户评价聊天机器人,击败了OpenAI的GPT-4

Anthropic的Claude 3 Opus已超越OpenAI的GPT-4,成为Chatbot Arena排行榜上评价最高的聊天机器人。这标志着自GPT-4发布约一年以来,另一个语言模型首次在这一基准中超越了它,该基准根据用户的偏好对模型进行排名。Anthropic更便宜的Haiku和中档的Sonnet模型也表现出色,几乎可以在显著降低的成本下接近原始GPT-4的功能

虽然OpenAI仍然在市场上占据主导地位,但这一进展以及OpenAI最近的领导层变动已帮助Anthropic取得了进展。然而据传言,OpenAI正准备在今年夏天推出更先进的“GPT-4.5”或“GPT-5”模型,希望重新夺回榜首

https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard

DBRX成为世界上最强大的开源LLM

Databricks发布了DBRX,一系列开源大型语言模型,为性能和效率设定了新标准。该系列包括由Databricks的Mosaic AI团队开发并使用NVIDIA DGX Cloud进行训练的DBRX Base和DBRX Instruct。这些模型利用了优化的专家混合(MoE)架构,比其他领先的LLM实现了2倍的计算效率

在性能方面,DBRX在语言理解、编程和数学等行业基准上优于开源模型,如Llama 2 70B、Mixtral-8x7B和Grok-1。它在大多数这些基准上也超过了GPT-3.5,尽管它仍然落后于GPT-4

https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm

Stability AI的CEO离职

Stability AI的创始人兼CEO Emad Mostaque已辞去他的职务和公司董事会成员的职务,以专注于去中心化人工智能。Mostaque相信,不能通过更加集中化的人工智能来击败中心化的人工智能,并强调了行业需要更加透明和分布式的治理

该人工智能初创公司已任命首席运营官Shan Shan Wong和首席技术官Christian Laforte为临时联合CEO,同时寻找永久性的替代者,Mostaque的离职发生在Stability AI处于混乱时期之际,据报道,2023年全年,公司高级管理人员离职,并且投资者之间发生了争议

https://stability.ai/news/stabilityai-announcement

Stability AI推出了Instruction-tuned LLM

Stability AI推出了Stable Code Instruct 3B,一款新的Instruction-tuned大型语言模型。可以处理各种软件开发任务,如代码补全、生成、翻译和解释,以及根据简单指令创建数据库查询

Stable Code Instruct 3B声称在准确性、理解自然语言指令以及处理多种编程语言方面优于竞争对手模型,如CodeLlama 7B Instruct和DeepSeek-Coder Instruct 1.3B

https://stability.ai/news/stabilityai-announcement

Zoom推出了一体化的现代AI协作平台

Zoom推出了Zoom Workplace AI协作平台,集成许多工具旨在提高团队合作和生产力。该平台具有超过40个新功能,包括Zoom Phone、Team Chat、Events和Contact Center的AI Companion更新,以及引入了Ask AI Companion。Zoom Workplace通过熟悉的界面简化了工作流程

该平台提供了定制选项、会议功能以及跨Zoom生态系统的改进的协作工具。与Zoom Workplace集成的Zoom Business Services提供了基于AI的营销、客户服务和销售解决方案

https://news.zoom.us/zoom-unveils-ai-powered-collaboration-platform-zoom-workplace-to-reimagine-teamwork/

  • 13
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
Transformer与LSTM相结合可以用于跨话语信息表示,即在对话系统中,将多个话语的信息结合起来进行处理。具体实现方法是在每个Transformer block前分别建立一个LSTM,将前面所有话语的信息进行编码,然后将编码结果与当前话语的Transformer block输入进行拼接,再进行后续的处理。这样可以使得模型更好地捕捉到跨话语的信息,提高对话系统的效果。 下面是一个简单的示例代码,其中包含了一个LSTM和一个Transformer block: ```python import torch import torch.nn as nn import torch.nn.functional as F from torch.nn.utils.rnn import pack_padded_sequence, pad_packed_sequence class TransformerLSTM(nn.Module): def __init__(self, input_dim, hidden_dim, num_layers, num_heads): super(TransformerLSTM, self).__init__() self.lstm = nn.LSTM(input_dim, hidden_dim, num_layers, batch_first=True) self.transformer = nn.TransformerEncoderLayer(hidden_dim, num_heads) def forward(self, x, lengths): # 对输入进行pack,以便LSTM处理变长序列 packed = pack_padded_sequence(x, lengths, batch_first=True, enforce_sorted=False) # LSTM编码 lstm_out, _ = self.lstm(packed) # 对LSTM输出进行unpack lstm_out, _ = pad_packed_sequence(lstm_out, batch_first=True) # Transformer输入需要为(batch_size, seq_len, hidden_dim) transformer_in = lstm_out.unsqueeze(1) # Transformer编码 transformer_out = self.transformer(transformer_in) # 将Transformer输出进行拼接 out = torch.cat([lstm_out, transformer_out.squeeze(1)], dim=-1) return out ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

啥都生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值