突破传统限制：OxygenREC--一个基于指令跟随的“快慢思考“电商生成式推荐框架

作者：李卿阳

在电商推荐系统中，推荐模型长期面临着两个核心矛盾：一方面，传统的多阶段级联推荐系统存在目标不一致和误差累积的问题；另一方面，直接引入大型语言模型LLM虽然能带来强大的推理能力，但其高昂的延迟和计算成本在工业级应用中难以承受。更重要的是，现有的生成式推荐方法在多场景扩展性上面临巨大瓶颈--每个场景都需要独立训练和部署，导致资源利用率低下、维护成本高昂。

京东零售OxygenREC团队在论文《OxygenREC: An Instruction-Following Generative Framework for E-commerce Recommendation》中提出了一种全新的解决方案：OxygenREC。这是一个基于“快慢思考”的指令跟随生成式推荐框架，不仅解决了推理能力与延迟之间的矛盾，更实现了“一次训练，多处部署”的多场景统一高效解决方案。突破传统限制：OxygenREC--一个基于指令跟随的“快慢思考“电商生成式推荐框架

一、关键挑战

OxygenREC 旨在解决当前推荐系统，特别是生成式推荐范式下的三大核心难题：

1.有限的演绎推理能力：现有的生成式推荐方法主要从用户海量行为中进行归纳学习，但在需要结合现实世界知识进行深度演绎推理的场景下表现不佳。比如下边两个例子：

1.当推荐的时空背景和用户画像是“成都冬至时的年轻宝妈”时，传统模型可能只是推荐“冬季外套”这样的商品，而无法深度推理出此时成都是“冷湿环境”，这位年轻母亲潜在的需求可能是“婴儿排汗睡衣”。

2.有个户外运动vlogger在购物行为中反复对比华为Mate 70和iPhone 16 Pro两款手机，传统系统因为用户频繁的交互历史，只会不断加强重复推荐这两款商品进行比价，而无法推理出其真正诉求可能是“高质量的移动影像”，从而模型未能精准推荐‘华为Pura’系列这一真正符合用户诉求的目标商品。

2.多场景适应与资源效率的矛盾：大部分推荐平台拥有首页、频道流、购物车、搜索等多种推荐场景。现有生成式推荐模型如果为每个场景训练独立模型，会带来巨大的运营和计算成本，而使用简单的统一模型又会面临“负迁移”问题--不同场景间的知识相互干扰，导致性能下降。

3.工业级部署的工程挑战：将LLM的深度推理能力与推荐系统的大规模稀疏特征、严格延迟要求相结合，是一个巨大的系统工程挑战。它需要同时处理推荐系统典型的TB级稀疏嵌入和LLM典型的十亿级稠密参数，这对训练框架和推理引擎都提出了极高要求。

二、核心贡献

面对这些挑战，京东零售OxygenREC团队提出了一个基于指令跟随的生成式推荐框架-OxygenREC，首次把LLM中的“快慢思考”模式引入到生成式推荐中来。在OxygenREC框架中，通过基于Transformer 的Encoder-Decoder 作为骨干网络，能够根据特定指令生成语义化物品序列，来执行推荐场景的”快思考"方式。在“慢思考”模式中，引入上下文推理指令--由近线LLM pipeline 生成，将用户行为与上下文合成为可解释的指令。同时多场景对齐中，通过场景指令与基于强化学习的对齐机制，实现“一次训练，多场景部署”。

突破传统限制：OxygenREC--一个基于指令跟随的“快慢思考“电商生成式推荐框架

1. “快慢思考”架构：知识注入与低延迟的平衡

这是整个OxygenREC的基础，其核心思想是将复杂的推理过程“离线化”，保证在线服务的低延迟。

•慢思考：一个近线的LLM pipeline，综合分析用户的时空上下文、个性化特征和历史行为，生成高质量的 “上下文推理指令” 。这个过程融合了世界知识，能进行深度演绎推理，但因其是近线批量处理，不增加在线请求的延迟。

•快思考：一个高效的编码器-解码器骨干网络。它接收“慢思考”生成的指令，结合实时用户信号，在严格的延迟限制下生成推荐序列。该骨干网络本身轻量、高效，专为实时推理优化。

突破传统限制：OxygenREC--一个基于指令跟随的“快慢思考“电商生成式推荐框架

2. 语义对齐的指令控制机制：让指令真正发挥作用

仅仅生成指令是不够的，还必须确保模型能够准确理解并遵循指令。OxygenREC通过两项关键技术实现精准指令控制：

•查询到物品的对齐损失：在训练阶段，通过一个辅助的Query-to-Item (Q2I) 损失函数，将指令嵌入与目标物品嵌入在同一个语义空间中对齐。这使得指令能够“理解”物品，并用于检索：

突破传统限制：OxygenREC--一个基于指令跟随的“快慢思考“电商生成式推荐框架

•指令引导检索(IGR) ：在生成推荐时，利用对齐后的指令作为查询，从用户长期历史行为中检索出最相关的部分，过滤掉无关的噪声。这确保了模型生成时专注在与当前指令意图最相关的历史信息上，大大提升了可控性和准确性。

3. 基于指令与强化学习的多场景统一对齐：Train-Once-Deploy-Everywhere

这是解决多场景扩展性的关键。OxygenREC摒弃了为每个场景独立建模的思路。

•场景指令化：将不同的场景信息（如首页、购物车）和可选的触发物品（如用户点击的入口商品）统一编码为 “场景指令” ，作为模型的条件输入。突破传统限制：OxygenREC--一个基于指令跟随的“快慢思考“电商生成式推荐框架

•统一奖励映射与策略优化：设计了一个统一的奖励映射服务，将不同场景、不同业务目标（如GMV，转化率，合法性，多样性）的奖励信号归一化。在此基础上，提出了Soft Adaptive Group Clip Policy Optimization (SA-GCPO) ****算法进行强化学习训练:

突破传统限制：OxygenREC--一个基于指令跟随的“快慢思考“电商生成式推荐框架