LEVEL

陈水平

微信：THAachen | 邮箱：csp19890128@qq.com

工作与教育经历

2017.09至今，美团，高级技术专家（L9）

2014.07-2017.09，高德地图，资深算法工程师（P6）

2011.09-2014.07，清华大学-德国亚琛工业大学，管理科学与工程专业 & 生产系统工程专业，双硕士

2007.09-2011.07，清华大学，工业工程专业，本科

研究经历

研究领域1：LLM Agent

AI搜索助手

背景：早期的多数AI搜索采用预定义工作流模式，未知场景泛化能力不足，未能充分激发LLM自主决策潜力。
成果：将AI搜索从工作流模式演进到ReAct模式，实现从单轮问答到多轮长程Agent的能力升级。通过Agent框架重构、上下文工程和后训练（含Agentic RL）等技术，提升框架稳定性、搜索效果和模型效率，让LLM自主决策下一步动作直到回复用户。

TextViz（AI制图）

背景：多数AI制图结果为栅格图片，整体效果OK，细节处易有错误，二次加工不方便。
成果：基于LLM的前端Coding能力实现AI制图。搭建ReAct闭环——规划布局、生成制图代码、前端渲染截图、VLM评估反馈、调用工具修复，循环迭代直至达标。通过上下文工程解决任务遵循度、自评收敛、上下文溢出和事实性错误等问题。

研究领域2：搜推大模型

生成式推荐

背景：线上模型采用传统的MMoE结构，序列建模与特征交互效率低，常规迭代虽取得一定收益但存在明显天花板。
成果：使用RankMixer、decoder-only Transformer重构精排模型，迈入推荐大模型范式。通过特征token化与Transformer结构提升序列建模和特征交互效率，并构建全链路模型监控Agent保障效果稳定性。

生成式搜索

背景：搜前、搜中、搜后各环节存在多个可被LLM改进的模块，能更好理解用户需求，为用户提供更准的结果。
成果：在导购、query理解、向量召回、相关性模块应用LLM。通过旗舰模型标注+SFT小模型落地线上服务，结合向量索引与文本召回提升召回能力，基于LLM微调与BERT蒸馏提升相关性，GSB显著提升。

研究领域3：决策智能

外卖配送选品定价

背景：商家配送范围（选品）和C端配送费（定价）的模型为订单视角，假设同一用户（AOI）在不同商家（POI）之间的下单行为相互独立，即一个POI-AOI是否可见或价格只影响自身的转化率，不影响其他POI-AOI的转化率。这种忽视订单转移的设定，虽然降低了技术建模难度，但是与强竞争替代效应下的外卖业务实际情况不符，得到的是伪最优决策。
成果：从用户视角出发，建模每个AOI基于可见商家列表形成的listwise干预下是否下单。通过量化listwise干预之间的相互影响（称为替代弹性），准确区分平台内部商家之间的订单转移和平台的增量订单，从而得到平台视角下的最优选品和出价决策。
论文：Dwelling unit choice in a condominium complex: Analysis of willingness to pay and preference heterogeneity. Urban Studies. 2016. 二作.

因果推断

背景：配送价格和用户下单意愿之间的关系是因果关系。在观测数据中由于配送价格在各种商家用户对之中并非随机分配的，而是根据某种策略机制与商家用户的属性相关，而这些属性往往对用户下单意愿也有作用，因此在观测数据上应用机器学习算法无法区分相关性和因果关系。
成果：建立了两套因果推断体系。一是建立随机实验机制，避免观测数据的选择偏差对建模造成影响。二是研发基于样本重加权的因果去偏技术，在无法开展随机实验或随机实验数据不足场景，针对二值型干预、多值型干预、连续型干预分别建立了re-weighting方向的去偏技术。
论文：Counterfactual Prediction for Outcome-Oriented Treatments. ICML 2022. 四作.

运筹优化

背景：现有运筹优化算法可以做到对小规模问题的精确求解，面对超大参数规模问题时，常规方法的求解精度和运行效率不理想。外卖配送的选品定价场景，决策变量规模可达上亿，是一个超大规模的优化分配问题。在有限的几个小时内求解最大能力仅为十万量级，只能选择丧失精度来近似求解。
成果：基于图神经网络的组合优化，将混合整数线性规划（MILP）的决策变量和约束表示成二分图的节点，变量是否在约束表达式中用边表示，然后通过图卷积生成每个节点的node embedding，再接MLP，预测每个变量节点取值为1的概率。模型训练完成后，会基于GCN预测的每个决策变量取值概率值，固定一部分变量的取值，剩余未固定的变量构成了一个子问题，子问题规模较小，可调用免费开源的低维优化求解器实现快速高效求解超大规模的高维整数规划问题。

研究领域4：时空数据挖掘

轨迹挖掘

背景：骑手GPS轨迹记录了骑手履约过程的时空信息，对判断骑手何时何地取货或交付、驾驶路线偏好、道路通行状态、社区管理模式具有巨大的数据价值；然而配送轨迹具有室内室外混合、骑手并单配送的业务特点，加上GPS定位本身存在10-20m的误差，在城市峡谷、隧道、高架等复杂场景易发的定位缺失和漂移问题，使得轨迹预处理面临了较大的技术挑战。
成果：通过融合运单和轨迹数据，基于Spark与Flink实现了漂移清洗、停留识别、轨迹分段、地图匹配等轨迹预处理算法，清洗出每天千万级的高质量轨迹数据，为配送各个算法场景提供了海量真值数据。
论文：Cycling Map Inference Using Global Positioning System Trajectories: A Case Study in the Online Food Delivery Business. Transportation Research Record. 2023. 三作.

POI&AOI挖掘

背景：末端百米配送是骑手配送困难的痛点环节，存在社区门难找、门难进（封闭、步行）、楼难找问题。地图行业现有的AOI数据仅能覆盖较低比例外卖配送下单地址，需自行发现和补充AOI轮廓、挖掘AOI的出入口位置、AOI通行模式和顾客地址交付点。
成果：打造了骑手App端地图页的末端指引服务。提出基于多模态地理数据的AOI自动生成算法，融合外卖配送地理位置数据和卫片、路网等多源地理数据，通过语义分割和轮廓学习生成AOI边界。基于海量历史轨迹挖掘头部AOI的通行模式、楼栋分布和出入口位置。通过地址结构化和骑手轨迹挖掘获得楼栋和单元粒度的交付点数据，替换原始的POI坐标，显著提升用户坐标的准确度。
论文：C-AOI: Contour-based Instance Segmentation for High-Quality Areas-of-Interest in Online Food Delivery Platform. KDD 2023. 通讯作者.
论文：Automatic generation of areas of interest using multimodal geospatial data from an on-demand food delivery platform. ACM SIGSPATIAL 2022. 通讯作者.
论文：Simultaneous detection of multiple areas-of-interest using geospatial data from an online food delivery platform. ACM SIGSPATIAL 2022. 四作.
论文：POI Detection of High-Rise Buildings Using Remote Sensing Images: A Semantic Segmentation Method Based on Multitask Attention Res-U-Net. IEEE Transactions on Geoscience and Remote Sensing. 2022. 三作.
论文：A semantic segmentation based poi coordinates generating framework for on-demand food delivery service. ACM SIGSPATIAL 2021. 通讯作者.

路线规划

背景：规划路线与司机/骑手实走轨迹不一致，基本上可以概括为以下几个原因，一是路网缺失，二是路况不准，三是起终点抓路错误，四是路网权值（道路通行代价）设置不合理；导航路线学习针对最后一个场景，研究如何基于海量实走轨迹，用机器学习的方法对路网权值进行学习。
成果：实验了两种不同的建模方法；一是端到端方法，将路权学习转化为路线排序问题，使用神经网络生成每个道路和路口的权值，使用实走路线权值小于规划路线的pair对方式构造损失函数；二是预训练方法，使用RNN模型学习道路之间的转移概率，基于道路的转移概率生成最优路线；两种方法均能有效提升规划路线的无偏航率和覆盖率。
论文：Route planning using divide-and-conquer: A GAT enhanced insertion transformer approach. Transportation Research Part E: Logistics and Transportation Review. 2023. 五作.
论文：Integrating Dijkstra’s algorithm into deep inverse reinforcement learning for food delivery route planning. Transportation Research Part E: Logistics and Transportation Review. 2020. 三作.
论文：Finding the K shortest paths in a time-schedule network with constraints on arcs. Computers & Operations Research. 2013. 二作.

专业技能

LLM/Agent：qwen-agent/gemini-cli的agent开发、ms-swift/verl后训练、MCP/Skill开发、Prompt/Context Engineering
搜推：ES索引、文本/向量召回、相关性、SUG、框内词；序列建模、MMoE、RankMixer、decoder-only Transformer
因果+运筹：Causal Forest、AUUC；派单/TSP/VRP、分支定界、拉格朗日松弛、Gurobi/SCIP求解
地图：Dijkstra/A*路径规划、GEOS/JTS/Shapely空间计算、Leaflet/GeoServer地图应用
大数据：Hadoop/Hive/Spark/Flink
外语：英语六级，德语C1