mamba - 搜索 News

1 天

DeepMind携Mamba华人作者推Transformer革命之作，性能暴涨媲美Llama 2，推理 ...

线性RNN赢了？近日，谷歌DeepMind一口气推出两大新架构，在d基准测试中超越了Transformer。新架构不仅保证了高效的训练和推理速度，并且成功扩展到了14B。这次的挑战者来自大名鼎鼎的谷歌DeepMind，并且一口气推出了两种新架构，— ...

13 天

Mamba-2新架构出世一统江湖，普林斯顿CMU华人再出神作，性能狂飙8倍

在2.7B参数和3000亿tokens规模上验证一个仅包含6个注意力块（和58个SSD块）的混合模型后可以发现，其表现优于64个SSD块以及标准的Transformer++基线模型（32个门控MLP和32个注意力块）。

腾讯网

Mamba再次挑战霸主Transformer！首个通用Mamba开源大模型一鸣惊人

【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B，性能与Transformer架构模型相媲美，在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。今天，阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。

腾讯网