GPT4规模大模型落地,Meta ExFM框架:万亿参数基础大模型落地成可能-脚本导航

> 自媒体 > （AI）人工智能 > GPT4规模大模型落地,Meta ExFM框架:万亿参数基础大模型落地成可能

GPT4规模大模型落地,Meta ExFM框架:万亿参数基础大模型落地成可能

来源：机器之心Pro

2025-03-13 10:23:30

303

管理

论文标题：External Large Foundation Model: How to Efficiently Serve Trillions of Parameters for Online Ads Recommendation论文链接：https://arxiv.org/abs/2502.17494

规模化的隐形门槛

工业级推荐的两大挑战

现有广告推荐方面的研究多聚焦于模型架构创新与参数规模扩展，但工业场景的特殊性导致线上部署的模型会面临以下两个主要挑战：

1. (C-1) 大流量下严格的延迟限制

广告推荐需在毫秒级响应中从海量候选广告（O (100K)）中实时筛选，模型推理延迟将直接影响用户体验。传统知识蒸馏（KD）需联合训练师生模型，显著增加计算成本和线上模型更新迭代的延迟，无法满足工业级模型实时更新的需求。

2. (C-2) 流式数据的动态漂移

用户与广告数量会出现大规模的实时增减，这导致数据分布持续变化。传统多轮训练易出现过时，具体指的是线上模型更新完成的时间点落后于即时数据到达的时间点而使得大量实时数据无法被纳入训练，导致模型训练后性能不足。并且多轮训练的计算代价高昂，这是因为实时数据的规模异常庞大且与日俱增。教师模型，如基础模型（FM），与垂直模型（VM）间的跨域偏差与新鲜度差异进一步加剧性能衰减。

图 2：（a）联合蒸馏（Co-Distillation）与外部蒸馏（External Distillation）；（b）流式数据下的模型迭代更新示意图；（c）ExFM 框架，以一次模型迭代为例的示意图。

2. 跨场景泛化能力

单一 FM 可同时服务广告系统的召回、粗排、精排多阶段 VM（图 6），NE 增益达 0.11%-0.25%。在跨域（表 4）与多任务（表 5）场景中，ExFM 均显著优于无 FM 基线，验证其通用性。

图 6：内部数据上 1000X，3.2T FM 对跨阶段（cross-stage） VM 的 NE 增益

表 4（左）及表 5（右）：公开数据集上 FM 对跨域以及跨任务的 VM 的性能提升

3. 模块消融实验

辅助头（AH）贡献主要性能增益，使学生模型 NE 降低 4%（图 7）。学生适配器（SA）在 FM 更新延迟时仍能维持 0.08% 的 NE 增益（图 8），但其效果依赖 FM 的持续迭代（图 9）。

图 7（左）：对 1000X 3.2T 的 FM 增加辅助头（AH）后的 NE 变化；图 8（右）：对 1800X，2.2T 的 FM 增加学生适配器（SA）后的 NE 变化

图 9：公开数据集上，当 FM 的更新出现延迟的时，学生适配器的性能变化

结论

在本论文中，Meta AI 研究团队提出了 ExFM 框架以实现万亿参数量的基础大模型对实时广告推荐模型进行持续、规模化的性能提升。降低了LLM规模的大模型在 recsys domain 的门槛，开启了「foundation model for RecSys 」领域的时代。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

ChatGPT时代：人工智能是威胁还是机遇？

3个月前

AI机器人开始“反杀”人类 ChatGPT之父预言成真，打工人集体破防

3个月前