让大模型更懂用户,算法工程师的成长升级之旅

京东云开发者
• 阅读 8

在京东,技术从不是冰冷的代码,而是连接消费者与美好生活的桥梁。

在京东零售,我用大模型赋能智能导购、搜索等电商场景,工作期间发表4篇顶会论文,提交专利8篇,并入选北京亦麒麟优秀人才。这些写进顶会论文的技术突破、藏在专利证书里的创新方案,都化作了消费者指尖上的流畅体验。

以下是我的故事,欢迎技术同仁们一起交流——






从校园步入职场后,我深刻体会到理论与实践的差异:学生时代我们往往会寻求"最优解",习惯于拿着技术这把“锤子”去寻找应用场景这颗“钉子”;而在工业界,特别是在京东电商这样复杂的业务环境下,我们更需要寻找"最适解"。

在实际工作中,我面临着诸多教科书上未曾提及的挑战:用户决策阶段的动态变化、电商生态健康与商业效率的平衡、亿级流量下的工程约束…这些复杂问题无法用现成的理论公式直接套用,但正是这些挑战让我感到无比兴奋。



登上顶会SIGIR的商品重排模型



京东主站搜索优化是我在京东的第一个项目,也让我真正体会到算法在工业界落地的独特魅力。在用户调研中我们发现,当消费者搜索某一商品时,传统算法会一股脑展现最畅销的几款,头部结果往往被少数爆款垄断,虽保证点击率却牺牲了长尾商品曝光。搜索排序的意义不是单纯提升点击率,而是精准适配用户决策阶段。



其实问题本质在于,用户搜索时其实处于不同的决策阶段。

在“逛”场景时,需求比较模糊,用户可能从泛化搜索“手机”快速收敛至“iPhone 15 256GB 蓝色”,也可能在“Switch→油烟机→婴儿车”的离散查询中展现多兴趣探索。

在“买”场景是,用户目标明确,需要精准结果缩短决策,如引导用户在搜索“iPhone 15 256GB 蓝色”时直接下单。

而既有的算法模型将多样性与准确性视为互斥目标,采用固定权重线性融合,导致两类指标难以协同优化。



我们在想: “能不能让算法像人类一样,动态理解用户意图?”



传统方法难以捕捉动态用户偏好的动态变化趋势,因此我们决定在模型中引入分布建模来捕捉这种动态性,并提出了名为PODM-MI的重排框架



第一层用高斯分布建模用户偏好,当用户搜索"连衣裙→碎花连衣裙→蓝色碎花连衣裙"时,协方差持续缩小,则调高准确性权重;当用户搜索"手机→Switch→油烟机"时,则意味协方差增大,需要调高多样性系数。

第二层引入互信息下界优化,让排序结果的多样性与用户偏好高度相关,展现关联商品,避免无关结果。通过互信息最大化实现动态平衡。实现平衡后,商品既不会全是爆款,也不会杂乱无章,而是"用户可能感兴趣的新选择"。

第三层设计效用矩阵融合模块,可以在排序过程中动态调整商品与多样性趋势之间的相对重要程度。

让大模型更懂用户,算法工程师的成长升级之旅



实践证明,这个新方案在业务指标UCVR上取得显著效果,年化订单增量超千万。我们的研究也入选了顶会SIGIR 2024。 但说实话,能解决亿级商品匹配的实际问题,让消费者能更快选到心仪的商品,比论文中稿更让人振奋得多。



真正的技术价值在于能否用系统性的解决方案弥合业务需求与技术能力之间的鸿沟。就像木匠不会仅因锤子精巧而骄傲,而在于用合适的工具造出坚固的房屋。技术远见也并非是简单的追逐热点,是立足于业务本质,深入理解业务需求,主动识别那些能为业务带来长期价值的新技术趋势。



发现业界首个技术瓶颈



随着对业务场景的理解不断深入,在团队创新文化氛围下,我们开始尝试突破常规的技术思路。



现在生成式搜索推荐技术正在重塑电商行业的交互范式。我们在推进TIGER方法实践过程中,会为百亿商品基于RQ-VAE来构建语义标识符(SID)。而在构建SID过程中,发现一个奇特现象:

商品的SID编码呈现出"两头宽中间窄"的沙漏形状,两头的商品编码均匀分布在不同区域,而中间层却异常集中。这导致码表可用率异常低,且模型训练难度更大,模型上限被死死卡住,制约着数亿商品的高效匹配。



我们对此进行了分析,问题的根源在于RQVAE方法本身的特性。具体来说:第一层对原始商品特征进行粗粒度聚类,此时数据分布相对均匀;第二层处理的残差信息呈现明显极化——多数数据都靠近聚类中心,而少数数据则偏离较远,形成了明显的长尾现象;第三层再次对残差进行聚类,数据分布重新趋于均匀。而本身存在长尾数据分布的电商场景,进一步放大了这种沙漏效应。 让大模型更懂用户,算法工程师的成长升级之旅



经过反复验证,我们确认这个现象是业内首次被系统发现的技术瓶颈,这也是一次真正的从0到1的创新突破。到现在我都还记得当初那种如发现新大陆般的兴奋与悸动,像是探索到了生成式搜推的上限,更打开了一扇预见未来业务形态的窗口。



我们从分布角度提出了两种轻量化解决方案。第一种方案是直接移除中间层的瓶颈节点,在完整生成所有层级的SID后进行第二层节点的移除,移除瓶颈节点,解决长尾集中问题。第二种,我们引入自适应阈值策略,动态地剔除第二层中过于集中的高频节点,保持了整体数据分布的稳定性,有效缓解了“沙漏效应”带来的路径稀疏问题。实验表明,通过这两种方案,合理地移除一定比例的高频节点后,模型离线召回率有显著提升,让用户能更快发现想要的商品。



每当回顾这个发现过程,我都能感受到技术创新最纯粹的魔力——在已知与未知的边界上,用严谨、务实的精神开拓出新的可能。那些学生时代一知半解的技术概念,在日复一日的工程实践中逐渐变得逐渐清晰;不同技术间的关联,也在解决实际业务问题中建立起有机联系,整个技术版图呈现出前所未有的完整面貌。

点赞
收藏
评论区
推荐文章
2023京东全球科技探索者大会暨京东云峰会来了!
大模型开启AI新范式,AIGC掀起行业新浪潮。“2023京东全球科技探索者大会暨京东云峰会”,将于7月13日在北京举办。本次大会,以“跨越·产业智能”为主题,聚焦大模型与产业深度融合,将重磅发布京东大模型,推出新一代数字基础设施,升级产品及解决方案,致力于
直播预告 | 大模型时代 “应用变了”:看大模型如何跑进零售电商应用
走进零售电商,大模型能做什么?今年11.11,应用大模型带来成效显著今天下午2:00,京东云视频号准时直播看京东零售如何破题新解法,大小模型协同大模型将走向多模态,走向具身智能
我在大模型应用之RAG方向的探索、实践与思考
开篇我是孙林,2021京东集团博士管培生,清华大学软件学院博士,工作期间提交专利5篇,获得北京亦麒麟优秀人才称号。目前,我担任算法中台研发部数据开发工程师,围绕检索增强生成应用领域开展研究工作。本文将从背景、核心工作、业务实践与反馈以及未来展望等几个方向进
电商搜索革命:大模型如何重塑购物体验?
自我介绍:京东零售搜推算法部算法工程师,专注于大模型技术以及在AI助手搜推等领域的应用探索和实践。在AI助手,NLP和搜索领域有十多年研发实践经验,在AI/NLP领域申请超过15项发明专利并出版两部著作。随着电商行业的蓬勃发展,搜索技术作为连接用户与商品的
京东技术专家的修炼之道——成为一名“六边形战士”
近期受邀参加【中心成长加油站xUP技术人】的技术大咖直播活动,分享了我在京东工作近10年的经验与成长。2015年加入京东以来,我经历了后端架构、大数据、基础算法和业务算法等多个技术领域,获得了集团金项奖、最美京东人、集团算法大牛等多项荣誉,并发表了30余篇
京东云开发者 京东云开发者
11个月前
【转载】把大模型做实 把供应链做透: 京东推出言犀大模型
作者:张东7月13日,2023京东全球科技探索者大会暨京东云峰会在北京举行,全面推出京东言犀大模型、言犀AI开发计算平台、升级支撑大模型落地行业的产品及解决方案,服务千行百业拥抱产业智能。源于产业、服务产业。言犀大模型融合了70%的通用数据与30%京东数智
京东云开发者 京东云开发者
8个月前
行稳、致远 | 技术驱动下的思考感悟
作者:京东零售王家兴一、个人简介我是21届校招生,博士毕业于中国科学院自动化研究所。2021入职博士管培生,现任京东零售技术研发与数据中心智能平台部智能算法部商品图谱研发组算法应用工程师。当前我的工作焦点是低资源情况下大模型的训练与规模化应用。近期发表顶级
京东云开发者 京东云开发者
7个月前
请查收| 京东零售技术AI领域前沿探索-10篇顶会论文合集
作者:京东零售2024年,京东零售技术团队在AI领域发表多篇CCFA类论文,包含CVPR、SIGIR、WWW、AAAI、IJCAI等业界顶会。下面为大家简要介绍被录用的10篇论文,涵盖目标检测、多场景学习、排序模型、意图识别、创意优选、优化大模型幻觉问题等
京东云开发者 京东云开发者
3个月前
在零售技术做AI的95后:我们这样搞定技术难题
在京东零售技术团队中,有很多年轻的算法工程师,他们大多是95后,在加入京东的短短几年内,用实力“啃”下了一个个硬骨头。从大模型训练的效率优化、生成效果的极致调优,到算法落地的工程难题、业务场景的创新应用,他们用行动证明——做难而正确的事,才是技术人最快的成
京东云开发者 京东云开发者
2个月前
京东携手HarmonyOS SDK首发家电AR高精摆放功能
在电商行业的演进中,商品的呈现方式不断升级:从文字、图片到视频,再到如今逐渐兴起的3D与AR技术。作为XR应用探索的先行者,京东正站在这场体验革新的最前沿,不断突破商品展示的边界,致力于通过创新技术让消费者的选购过程更加直观、真实和高效。“3D技术能够提供