
通义需要更多AI接班人

“510”阿里日上,“吴妈”发布内网帖,重申电商、AI+云计算、互联网平台产品三大核心战役。
与此同时,针对组织机制调整和人才考核也被提上日程。此前,阿里打通内网权限,宣告张勇“1+6+N”时代破产,可被视为起点。在AI的大背景下,阿里后期的焦点可能在人才上,涉及跨部门流动、年轻高潜人才升迁、大模型抢人等。
AI的终极战役是人才大战,但这成为了现下阿里大模型上的“一道裂痕”。通义实验室团队作为阿里AI的主力军,承担了基础研发任务,却经历了十个月之内,三位核心人物离职的动荡。随着周畅(原通义千问大模型技术负责人)、鄢志杰(原语音团队负责人)和薄列峰(原多模态、视觉负责人)相继离职,通义实验室出现了“断代”。
在“吴妈”扶持年轻人的号召下,老阿里人口中“查无此人”的林俊旸被提拔了上来。
有消息称,年仅32岁的林俊旸现已升至P10。另有猎头回复,“至少已经是P9级别”。截至目前,阿里官方没有任何回应,但对其重视程度可见一斑。在“蚂蚁527技术开放日”上,林俊旸对外最新的tittle为阿里通义千问(Qwen)技术负责人。
讽刺的是,上述被誉为“元老”或“领头人”式的人物在离职前,也才堪堪P9、P10,其中包括当时的业界大牛杨红霞。
就在不久前,通义实验室招聘官网,悄悄更新了“世界模型”的相关岗位。在人才青黄不接的处境下,押注世界模型方向,是阿里通义的“遮羞布”还是技术迭代使然?
人事之变
阿里“1+6+N”变革奠定了动荡的基调,从达摩院分拆出来的通义实验室同样如此(详细始末见下篇)。通义实验室的总负责人是周靖人,下属有自然语言智能实验室、应用视觉实验室等,包含了通义千问、通义万相、通义听悟等产品。
通义团队核心人物变动,要追溯到2022年杨红霞的离职,其带领研发的“多模态预训练模型M6”,是现在通义千问底座模型的前身。而后,2024年通义千问大模型技术负责人周畅被字节挖走,彻底开启了通义的“人事之变”。
鄢志杰,曾担任达摩院机器智能语音实验室负责人,彼时达摩院的十三位“扫地僧”之一。大模型之后,他曾担任通义听悟技术负责人,负责聚焦音视频内容的工作学习AI助手“听悟”。薄列峰,原多模态、视觉负责人,其主导研发的“全民舞王”玩法曾从外网火到了国内。受益于此,通义App也短暂地成为过“爆款”。
十个月,三位一线核心人物离职,直接导致了语音、视觉、模型三个方向的“真空”,而这恰恰是迈向世界模型的关键。在大模型竞争中,阿里的AI人才储备算不上充沛,出走的三位人员兼具了技术研发和领导决策的特质,一时难以找到合适的“补位”。
截至目前,仍在岗的还有自然语言处理方向负责人黄非,通义千问负责人林俊旸,通义万相负责人刘宇以及开源社区魔搭负责人周文猛。
据悉,周畅走后,林俊旸在通义实验室的存在感逐渐增强。
通义千问系列模型研发构成了林俊旸的工作主线。据arXiv官网显示,截至目前,其已经发布了将近二十篇学术论文和技术报告,内容涉及多模态模型、模型优化与训练技术、代码生成与推理、数学推理与逻辑评估等多个主题。这或许也是林俊旸被重用的主要原因,有阿里内部人士称其为“AI技术明星”。
错位与拉锯
据达摩院官方披露信息,林俊旸曾参与过M6大模型研发,杨红霞是当时团队主要负责人。2021年,千亿参数版本的M6刚发布,杨红霞、林俊旸等人收到谷歌邀请,与Transformer第一作者探讨训练大模型经验。当时,达摩院称林俊旸为“团队中的年轻人”。
2022年,M6团队曾对外做过一次技术分享,杨红霞、周畅和林俊旸同时出席。彼时,杨红霞的tittle是“达摩院人工智能科学家”,周畅为“达摩院高级算法专家”,林俊旸为“达摩院智能计算实验室算法专家”。
杨红霞离职前职级停留在P9,周畅同样P9,鄢志杰和薄列峰停留在P10。谁也没想到,仅三年后,名不见经传的林俊旸已经达到与“老江湖”并驾齐驱甚至超越的程度。在很多阿里老人记忆中,仿佛从来没出现过这个人,提起林俊旸晋升,多数人表达了惊讶,“不知道从哪里冒出来的后辈”。
诚然,在大厂苦熬不如赶上风口,但林俊旸晋升背后,也折射出阿里激励与晋升体系的问题。一如跷跷板的两头,一头是没有功劳也有苦劳的“老人”,一头是渴望向上冒头的“新人”。
有阿里内部人士告诉光子星球,“扫地僧”苦熬多年升不上去,一个新人踩着火箭直升P10,“难免让一众老阿里人寒了心”。这也解释了近些年阿里高P频繁跳槽对家大厂的原因,特别是字节连下猛料,职称和薪酬待遇一步到位。
前辈给后辈让位,提拔年轻人,少不了周靖人和吴泳铭的授意。但一刀切很容易出现问题,人才进出和晋升节奏严重割裂,内部激励机制不统一的情况下,阿里如何顶住国内外大厂的“挖墙脚”攻势,把最顶尖的AI人才留在内部。另一方面,年轻高潜人才急速上位,表面上看似是“强激励”,但也间接加剧了上下级代沟和沟通成本。
长久以来,阿里奉行大模型开源和闭源两条腿走路。既要又要的心理,不可避免地令其陷入了拉锯战中,而集中的爆发点很可能在林俊旸身上。目前,林俊旸主导了Qwen系列模型的开源,Qwen3全系开源一周即冲到了Hugging Face的排名首位。
光子星球了解到,阿里目前对大模型的KPI考核主要集中在影响力上,开源声量便是重要指标之一。但大模型开源并不能带来商业转化,通义实验室直属于阿里云,最后仍要以云收入计入考核。如此一来,林俊旸及其团队便与云销售形成了对立,即开源声势越大,越容易稀释付费模型。模型研发团队追求影响力,云销售则更愿意押注专有增值API上。
受双重KPI考核制度影响,尽管云和大模型在同一部门,但矛盾正在逐渐加深。中间的调停者必然落在了周靖人身上,接下来,需要其给团队一个清晰的商业闭环。
世界模型
近期,通义千问实验室官方招聘网站陆续释放岗位,新增了“世界模型算法工程师”和“多模态世界模型算法专家”的岗位,预示着接下来阿里的新方向。
图注:通义千问实验室官方招聘网站
“世界模型算法工程师”职位描述清晰写着,“Foundation Model要想真正实现AGI,需要实现理解生成一体化而打造出世界模型,达成‘交互’和‘创造’两大目标”。此前,就有媒体曝出周畅跳槽字节的研究方向是世界模型,基于周畅在通义的核心技术位置,推测或许是阿里筹备已久的项目。
据知情人士表示,通义内部已经达成共识,即单纯文本大模型迭代升级,已经呈现出边际收益递减的趋势。因此,必须迈进“视频-物理-行动”为一体的世界模型才有机会继续追赶OpenAI。
通义“世界模型”方向与字节Seed Edge“下一代感知”方向高度重合。字节也想找到统一生成和理解表示的方法,用于表示和压缩真实世界,构建“世界模型”,不过至今仍未公布具体实现路径。
结合阿里自身优势,通义规划下大致有三条路线:QVQ(视觉推理模型)-VL(视觉语言模型)-Omni(全模态融合),通过音频token融合,打通大模型视觉链路;Agent-in-the-Loop(实时推理框架),把百炼工具调度框架植入千问模型,运行类GPT-4o“实时多模态推理”功能;自监督3D物理学习,利用菜鸟物流、淘系3C影像和灵犀视频数据训练物理一致性损失。
该方案若实现,将使未来Qwen系列模型具备超高清视觉解析、实时多模态交互、物理常识推理三位一体能力,特别在智能客服、工业质检、XR交互等场景形成优势。
视觉、语音负责人刚走,通义便急不可耐地公布了世界模型新方向,该时间点颇为微妙。我们注意到,其官网近期还在招聘两个方向的人员,一号补位尚不明确。
有相关人士对光子星球表示,“推进世界模型就像阿里的战略公告牌,先瞄定靶子稳住士气,而后再补枪”。一般而言,人才补位和算力排期会延后一到两个季度,“如果GPU预算被公有大客户继续压价,世界模型的推理成本就会被推高”。
推进开源、升级模型性能和扩大模型影响力,三项重任让通义实验室开进了快车道,底下的年轻派也迎来了高光时刻。
但就像上路有新手保护期,达摩院的昨天隐隐中昭示着通义实验室的明天。AGI不保真,但能保命。未来,随着技术收敛,大模型技术研究趋于稳定,通义实验室也不得不走出真空地带,重新思索“为阿里贡献的价值”。