线性RNN赢了?近日,谷歌DeepMind一口气推出两大新架构,在d基准测试中超越了Transformer。新架构不仅保证了高效的训练和推理速度,并且成功扩展到了14B。 这次的挑战者来自大名鼎鼎的谷歌DeepMind,并且一口气推出了两种新架构,— ...
在2.7B参数和3000亿tokens规模上验证一个仅包含6个注意力块(和58个SSD块)的混合模型后可以发现,其表现优于64个SSD块以及标准的Transformer++基线模型(32个门控MLP和32个注意力块)。
【新智元导读】TII开源全球第一个通用的大型Mamba架构模型Falcon Mamba 7B,性能与Transformer架构模型相媲美,在多个基准测试上的均分超过了Llama 3.1 8B和Mistral 7B。 今天,阿布扎比支持的技术创新研究所(TII) 开源了全球第一个通用的大型Mamba架构模型——Falcon Mamba 7B。
Mamba-2最新发布,其研究成果在顶级学术会议ICML 2024上被正式接收,标志着在深度学习序列模型领域的一个重要进展。该模型相较于前作Mamba展示了在计算效率和模型泛化能力上的显著提升,特别是在处理大规模数据集时,显示出其卓越的性能优势。 通过深入分析 ...
标准MoE只有128个专家、激活6个,LatentMoE直接加到512个专家、激活22个,参数总量没怎么变,性能却涨了不少,数学、代码等任务的准确率都有明显提升。 对开发者来说,现在可以多关注 HuggingFace ...
编辑推荐:蛋白质翻译后修饰(PTM)是调控蛋白功能的关键机制,但现有蛋白质语言模型(LMs)无法表征PTM信息。研究团队开发了PTM-Mamba模型,通过双向Mamba块融合ESM-2嵌入与PTM令牌,实现了对野生型和PTM修饰序列的双向建模。该模型在疾病关联预测、药物靶点 ...