← 返回信息流
技术博客arXiv cs.AI·1 天前

滴滴部署ProfiLLM:利用智能体LLM优化网约车调度

原标题:ProfiLLM: Utility-Aligned Agentic User Profiling for Industrial Ride-Hailing Dispatch

速览

滴滴在工业级网约车调度中引入大型语言模型作为语义特征提取器,解决传统结构化特征难以捕捉行为上下文的问题。该系统通过工具增强和效用对齐技术,从海量日志中挖掘全局知识并生成用户画像,有效应对长尾用户和实时性挑战。在线A/B测试显示,该系统使GMV提升0.47%,完成率提升0.33%,取消率降低0.82%。

AI 深度解读

ProfiLLM:面向工业级网约车调度的效用对齐智能体用户画像

背景

将大语言模型(LLM)引入工业级网约车调度系统,作为平台级行为日志的语义特征提取器,是一个极具吸引力但尚未被充分探索的数据系统问题。尽管生成式 AI 在自然语言处理领域取得了巨大突破,但在实际的生产匹配管线中,核心逻辑依然由结构化的数值特征主导。

然而,决定调度质量的关键行为信号——例如司机对某些区域的习惯性回避、乘客的特定偏好等——本质上是上下文相关的,并且天然适合以 LLM 生成的用户画像形式来表达。这种从“数值统计”向“语义理解”的转变,理论上能更精准地捕捉用户意图。

但在将此类画像技术扩展到实时、毫秒级延迟的生产调度器时,面临着三个相互交织且极少被共同解决的约束条件:

  1. 上下文窗口限制:在拥有数百万日均订单的平台上,日志数据量级远超任何 LLM 的上下文窗口限制。
  2. 长尾用户稀疏性:大多数用户属于长尾分布,交互数据过少,难以进行单用户级别的精细画像构建。
  3. 效用对齐难题:表面流畅、看似合理的用户画像,并不一定能转化为下游预测任务(如匹配成功率、GMV 等)的实际效用提升。

核心内容

针对上述挑战,研究团队提出了 ProfiLLM,这是一种面向生产匹配系统的效用对齐智能体用户画像数据管道。该方案通过两个核心模块,将 LLM 的能力转化为可落地的工业级特征工程:

1. 工具增强的全局知识挖掘 (Tool-Augmented Global Knowledge Mining)

该模块旨在解决数据规模过大和上下文限制的问题。它赋予 LLM 智能体 27 种分析工具,使其能够从平台级海量数据中挖掘全局知识。

  • 机制:LLM 智能体并非直接处理原始日志,而是通过调用这些工具进行数据聚合与分析。
  • 产出:生成可复用的全局知识、自适应的用户聚类规则,以及基于区域级别的供需先验信息。这一步将非结构化的行为日志转化为结构化的全局洞察,为后续的用户画像提供基础框架。

2. 效用对齐的画像探索 (Utility-Aligned Profile Exploration)

该模块旨在解决长尾用户稀疏性和画像效用不确定的问题。

  • 机制
    • 候选生成:针对每个用户聚类簇,生成多个候选用户画像。
    • 效用评估:通过一个轻量级的下游效用代理模型(proxy)来评估这些候选画像的质量。
    • 迭代优化:根据评估结果迭代 refine(精炼)最佳候选画像。
    • DPO 微调:构建偏好对(preference pairs),用于 Direct Preference Optimization (DPO) 微调,确保生成的画像在语义上符合业务效用目标,而不仅仅是语言上的流畅。

3. 工业级部署与效果

ProfiLLM 已部署在 DiDi(滴滴) 的生产调度器中。实验结果显示,该方法在多个维度上均取得了显著成效:

  • 预测性能:在结果预测任务中,AUC(曲线下面积)相对提升了最高 6.14%
  • 仿真效果:在调度仿真中,GMV(商品交易总额)提升了最高 4.35%
  • 线上 A/B 测试:在为期 14 天的在线测试中,实现了持续且稳定的业务指标改善:
    • GMV 提升 +0.47%
    • 完单率(Completion Rate)提升 +0.33%
    • 取消率(Cancel-Before-Accept rate)降低 -0.82%

关键要点

  • 范式转变:从传统的结构化数值特征主导,转向利用 LLM 提取上下文相关的语义行为信号(如司机偏好、区域习惯)。
  • 解决三大痛点
    • 通过工具增强和全局挖掘,克服平台级数据量远超 LLM 上下文窗口的限制。
    • 通过聚类策略和全局知识复用,解决长尾用户数据稀疏导致的画像构建难题。
    • 通过效用代理评估和 DPO 微调,确保生成的画像能直接提升下游业务指标,避免“为了智能而智能”。
  • 双模块架构
    • 全局层:利用 27 种工具挖掘全局供需先验和聚类规则。
    • 用户层:基于聚类生成候选画像,并通过效用对齐机制进行迭代优化。
  • 实证有效性:在滴滴的生产环境中,ProfiLLM 不仅提升了预测模型的准确性(AUC +6.14%),更直接转化为业务价值的增长(GMV +0.47%,完单率 +0.33%)。

意义与影响

ProfiLLM 的研究成果标志着 LLM 在工业级数据系统中的应用从“概念验证”迈向了“生产就绪”。其核心意义在于:

  1. 打通了语义特征与数值调度的壁垒:证明了 LLM 生成的非结构化语义特征可以与现有的数值化调度引擎有效融合,并产生可量化的业务增益。
  2. 提供了可扩展的 LLM 数据管道范式:通过“工具增强”和“效用对齐”两个模块,为解决 LLM 在大规模、低延迟、长尾数据场景下的落地难题提供了一套可复用的方法论。
  3. 重新定义用户画像的价值评估标准:强调“效用对齐”(Utility-Aligned),即画像的价值不应仅由其语言质量决定,而应通过下游任务的实际表现来评估和驱动优化。这为后续 AI 在推荐、广告、风控等领域的应用提供了重要的评估思路。
  4. 工业落地的标杆案例:作为在 DiDi 这样超大规模平台上的成功实践,ProfiLLM 展示了 AI 技术如何在保证毫秒级延迟和极高并发要求的同时,实现业务指标的稳定提升,为其他行业提供了宝贵的参考经验。
查看原文 →arxiv.org