本文作者:访客

谷歌正式发布 Gemma 3n 小钢炮模型:2GB 内存本地玩转 AI 多模态

访客 2025-06-27 16:01:28 39675
谷歌正式发布 Gemma 3n 小钢炮模型:2GB 内存本地玩转 AI 多模态摘要: 6月27日消息,科技媒体NeoWin今天(6月27日)发布博文,报道称在2025年I/O开发者大会上预览发布后,谷歌已正...
6月27日消息,科技媒体NeoWin今天(6月27日)发布博文,报道称在2025年I/O开发者大会上预览发布后,谷歌已正式推出Gemma3n端侧多模态模型,支持在手机、平板和笔记本电脑上本地运行,处理音频、文本、图片和视频多种数据类型。相比较5月发布的预览版,最新发布的Gemma3n完整版进一步提升性能表现,支持在2GB内存的硬件上本地运行,重点提升了编码和推理方面的能力。援引博文介绍,Gemma3n共有两种规模版本,其中E2B共有50亿(5B)参数,支持在2GB以上内存设备上运行;E4B共有80亿(8B)参数,支持在3GB以上内存设备上运行,两者通过架构创新,内存占用相当于20亿(2B)和40亿(4B)模型。在架构方面,Gemma3n创新采用MatFormer架构,来提供计算灵活性,此外使用PerLayerEmbeddings(PLE)以提升内存效率、MobileNet-v5视觉编码器等等。对于MatFormer架构,谷歌用一个俄罗斯套娃的比喻来描述:一个较大模型内部包含一个较小但完全功能的版本,让单一模型能够根据不同任务以不同大小运行。Gemma3n在多语言(支持140种语言的文本和35种语言的多模态理解)、数学、编码和推理方面都实现了质量提升。
在性能基准方面,较大的E4B模型是首个参数量低于10B但LMArena得分超过1300的模型。模型的音频能力现在支持设备上的语音转文本和翻译,使用一个能够处理细致语音的编码器。视觉方面则由一个名为MobileNet-V5的新编码器提供动力,比前代更快、更高效。它能在GooglePixel设备上以最高60FPS处理视频。

谷歌正式发布 Gemma 3n 小钢炮模型:2GB 内存本地玩转 AI 多模态

阅读
分享