← Back to list
Mult-DPO

Mult-DPO: Multinomial Direct Preference Optimization for Recommender Systems

生成式推荐 Netflix
Abstract 7 Reading 8 Rating —
2026-06-08
Yaochen Zhu, Harald Steck, James McInerney, Aditya Sinha, Yinhan He, Nathan Kallus, Jundong Li
University of Virginia, Netflix, Cornell University
把 DPO 从成对偏好推广到推荐系统的 set-wise 多正样本偏好:用同一奖励权重空间上的多项式(multinomial)代理事件替代难处理的边缘化 Plackett-Luce 似然,导出闭式 DPO 目标并证明其为 PL-DPO 损失的可处理上界(并以正/负累积权重比刻画紧致性),进一步扩展到多偏好层级 Mult²-DPO。
评分原因
摘要评分:可迁移的 LLM 对齐方法用于推荐:把 DPO 从成对偏好推广到集合式偏好(多正例),用可处理的多项式替代似然规避 Plackett-Luce 边缘化的组合爆炸,并证明其为 PL DPO 损失的可处理上界;Netflix 系作者 + 理论扎实,但无线上实验。
精读评分:理论新颖且严谨——多项式代理是难处理的边缘化 Plackett-Luce DPO 损失的可证上界并刻画其紧致性(A/B 比),干净推广到多层级 Mult²-DPO;DPO baseline 对比充分(3 数据集×4 骨干)。但全程离线、无线上 A/B、绝对增益温和、RQ2 紧致性验证仅在受限子集,故定 8 分而非更高。
pretrained-lm rl academic

Mult-DPO: Multinomial Direct Preference Optimization for Recommender Systems

Yaochen Zhu¹, Harald Steck², James McInerney², Aditya Sinha², Yinhan He¹, Nathan Kallus²,³, Jundong Li¹ ¹University of Virginia ²Netflix ³Cornell University · arXiv:2606.10078 [cs.IR] · 2026-06-08 代码:https://github.com/yaochenzhu/Mult_DPO

研究动机与背景

Direct Preference Optimization(DPO)已经成为大语言模型(LLM)偏好对齐的主流方案:它绕开 RLHF 中显式训练奖励模型 + RL 优化的两阶段流程,利用「最优策略与奖励函数之间的闭式关系」把对齐化简成偏好数据上的一个分类式目标,因其简洁与强经验表现被广泛用于摘要、代码生成、数学推理等任务。

当 LLM 越来越多地作为推荐系统(Recommender System, RS)的骨干时,一个自然的问题是:能否直接用 DPO 来对齐 LLM-based RS 与用户偏好?答案被一个根本性的数据结构错配复杂化了:

  • Vanilla DPO 假设成对(pairwise)偏好——每个 context 只有一个正样本和一个负样本。这适合 QA 式长回答任务(候选难以批量生成)。
  • 但 RS 中的用户反馈几乎从不是成对的。给定一个 context $x$(用户画像、交互历史,或一段 user–RS 对话),我们通常观察到集合式(set-wise)偏好:一个包含多个正样本的正集合 $\mathcal{E}^p$(被点击 / 喜欢的 item)与一个负集合 $\mathcal{E}^d$(未交互或被显式拒绝的 item)。从偏好对齐的视角看,每一个正样本都应被排在每一个负样本之前,但正样本之间、负样本之间不施加任何顺序

直接把 vanilla DPO 套到 set-wise 偏好上,需要枚举所有正–负组合对,既计算昂贵,又丢弃了反馈的联合排序结构(joint rank structure)。已有工作沿两条技术路线尝试解决:

  1. 泛化 Bradley–Terry 到 Plackett–Luce(PL):把 vanilla DPO 背后的成对 BT 奖励模型升级为 listwise 的 PL 模型(如 PRO、KPO 等)。但用于 set-wise 偏好时,PL 似然必须在所有与观测一致的正样本排序上做边缘化(marginalize),其复杂度是组合爆炸的。
  2. 限制监督形式来回避难处理性:把监督退化为「每个 context 仅一个正样本 + 多个负样本」。例如 DMPO 在 BT 模型内把正样本对比负样本对数比的算术平均S-DPO 证明在单正样本约束下,边缘化后的 PL 似然坍缩为一个闭式的 softmax DPO 损失,把正样本联合对比所有采样负样本。

然而,这两条路都没有忠实保留反馈的 set-wise 联合结构——使得「多正样本偏好对齐」依然是一个根本上未解决的挑战。

本文贡献。 作者提出 Mult-DPO(Multinomial DPO),用一个可处理的多项式(multinomial, MN)代理事件模型替代难处理的边缘化 PL 似然,核心要点:

  • 在与 BT / PL 相同的奖励诱导权重空间上定义一个 MN 代理似然,虽然它本身不是一个排序分布,却允许通过标准 RLHF 策略–奖励重参数化导出一个闭式、分类式的 DPO 风格目标,从而直接用多个候选对齐 LLM;
  • 理论上证明:最小化 MN-DPO 损失等价于优化难处理的边缘化 PL-DPO 损失的一个可处理上界(Theorem 1 + Corollary 1),并以闭式刻画该上界的紧致性(Theorem 2)——紧致性由正样本相对总权重与负样本总权重之比决定,揭示出选更丰富 / 更难的负样本会收紧上界
  • 进一步把 Mult-DPO 推广到多偏好层级(如显式评分),通过序列多项式(sequential multinomial, SMN)代理得到 Mult²-DPO,二层级时退化为 binary Mult-DPO;
  • 在通用推荐与对话式推荐 benchmark 上,Mult-DPO 及其多层级扩展一致超越各类 DPO baseline。

预备知识与问题形式化

问题设定

令 $x$ 表示推荐 context(可含用户画像、交互历史或对话),$\mathcal{C}$ 表示 item 目录,每个 item $e$ 渲染成一段 token 序列 $y(e)=(y_1,\dots,y_{m_e})$。对偏好数据集 $\mathcal{D}$ 中的每个 context $x$,观测到形如 $(x,\mathcal{E}^p,\mathcal{E}^d)$ 的用户偏好,其中 $\mathcal{E}^p=\{e_1,\dots,e_k\}$ 与 $\mathcal{E}^d=\{e_{k+1},\dots,e_K\}$ 分别是与 $x$ 关联的正、负 item 集合(不相交)。$\mathcal{E}=\mathcal{E}^p\cup\mathcal{E}^d\subset\mathcal{C}$ 是全候选集,$k=|\mathcal{E}^p|$、$K-k=|\mathcal{E}^d|$。

用户偏好蕴含一个 set-wise ranking 约束:$\mathcal{E}^p$ 中每个正样本都应排在 $\mathcal{E}^d$ 中每个负样本之前:

$$\Omega_x := \{\, e \succ e' \mid e\in\mathcal{E}^p,\; e'\in\mathcal{E}^d \,\}, \tag{1}$$

但正样本内部、负样本内部不施加顺序。令 $\pi_\theta(e\mid x)$ 为 LLM-based RS 策略,给每个候选 $e$ 赋一个生成概率。目标是让 $\pi_\theta$ 对齐到 $\Omega_x$ 所刻画的 set-wise 偏好结构,充分利用多正/多负联合结构,同时保持推理时计算高效、可对整个目录 $\mathcal{C}$ 排序。

RLHF 与 DPO 回顾

对每个 context–item 对 $(x,e)$ 假设隐奖励 $r(x,e)\in\mathbb{R}$,定义关联权重 $w(e\mid x):=\exp(r(x,e))>0$。Bradley–Terry(BT)模型给出成对偏好概率:

$$P(e_p\succ e_d\mid x)=\sigma\big(r(x,e_p)-r(x,e_d)\big)=\frac{w(e_p\mid x)}{w(e_p\mid x)+w(e_d\mid x)}, \tag{2}$$

$\sigma(\cdot)$ 为 sigmoid。给定固定参考策略 $\pi_{\text{ref}}$ 与学到的奖励 $r(x,e)$,RLHF 目标为:

$$\max_{\pi(\cdot\mid x)}\ \mathbb{E}_{e\sim\pi(\cdot\mid x)}[r(x,e)]-\beta\,\mathrm{KL}\big(\pi(\cdot\mid x)\,\|\,\pi_{\text{ref}}(\cdot\mid x)\big), \tag{3}$$

$\beta>0$ 控制正则强度。DPO 观察到 (3) 有闭式解,从而奖励可由最优策略与参考策略表示:

$$r(x,e)=\beta\log\frac{\pi^*(e\mid x)}{\pi_{\text{ref}}(e\mid x)}+\beta\log Z(x), \tag{4}$$

其中 $Z(x)$ 为难处理的配分函数。由于 BT 似然 (2) 只依赖奖励,代入后 $Z(x)$ 抵消,把 $\pi^*$ 换成可训练策略 $\pi_\theta$ 得到 DPO 目标:

$$\mathcal{L}_{\text{DPO}}(x,e_p,e_d)=-\log\sigma\!\left(\beta\log\frac{\pi_\theta(e_p\mid x)}{\pi_{\text{ref}}(e_p\mid x)}-\beta\log\frac{\pi_\theta(e_d\mid x)}{\pi_{\text{ref}}(e_d\mid x)}\right), \tag{5}$$

即把 RLHF 对齐化简为偏好数据上的分类式目标。

边缘化 Plackett–Luce DPO 目标(朴素扩展)

Vanilla DPO 受限于 BT 的成对结构,只能对齐两个候选。BT 到多候选的自然泛化是 Plackett–Luce(PL)模型:对候选集 $\mathcal{E}$ 的一个排列 $\tau$,PL 似然为序贯选择过程:

$$p_{\text{PL}}(\tau\mid x,\mathcal{E};w)=\prod_{t=1}^{|\mathcal{E}|}\frac{w(e_{\tau(t)}\mid x)}{\sum_{j=t}^{|\mathcal{E}|}w(e_{\tau(j)}\mid x)}, \tag{6}$$

即每一步按剩余候选中的权重比例采样下一个 item。要用 PL 建模 set-wise 偏好事件 $\Omega_x$,由于正/负内部顺序未知,必须在所有与观测一致的排列上边缘化。定义正集合、负集合、全集合的累积权重:

$$A:=\sum_{e\in\mathcal{E}^p}w(e\mid x),\quad B:=\sum_{e\in\mathcal{E}^d}w(e\mid x),\quad W:=A+B=\sum_{e\in\mathcal{E}}w(e\mid x). \tag{7}$$

设 $S_k$ 为正样本下标 $\{1,\dots,k\}$ 的全排列集合。边缘化 (6) 后得到 marginalized PL event model

$$p_{\text{PL}}(\Omega_x\mid x,\mathcal{E};w)=\sum_{\rho\in S_k}\prod_{t=1}^{k}\frac{w(e_{\rho(t)}\mid x)}{B+\sum_{j=t}^{k}w(e_{\rho(j)}\mid x)}. \tag{8}$$

关键观察:对负样本排序的边缘化优雅地消失了,全部并入累积权重 $B$(附录 A.2 用 PL 在负集合后缀排序上归一化为 1 的 Lemma 证明)。附录 A.3 进一步用 PL 的「指数竞速(exponential-race)」表示给出一个 inclusion–exclusion 形式,把项数从 $k!$ 降到 $2^k$,但仍随 $k$ 指数增长。因此即使 $k$ 中等大小,直接把 (8) 当 DPO 目标优化也不可行——这正是 Mult-DPO 要解决的根本难处理性。


核心方法:Mult-DPO

多项式代理事件模型

为得到 marginalized PL event model 的一个有效且可处理的代理,作者在同一权重空间 $w(e\mid x)$ 上构造 multinomial(MN)代理。首先把权重归一化成候选上的类别分布:

$$p(e\mid x):=\frac{w(e\mid x)}{W},\quad e\in\mathcal{E}. \tag{9}$$

MN 代理把 set-wise 事件 $\Omega_x$ 定义为:在从 $p(\cdot\mid x)$ 独立抽 $k$ 次的过程中,每个正样本恰好出现一次,且不抽到任何负样本的概率。由于 $k$ 个正样本可以以任意先后顺序出现,有 $k!$ 个等价序列对应该事件,故 MN 代理似然为:

$$p_{\text{MN}}(\Omega_x\mid x,\mathcal{E};w)=k!\prod_{e\in\mathcal{E}^p}\frac{w(e\mid x)}{W}, \tag{10}$$

可在 $\mathcal{O}(k)$ 复杂度内计算。与 PL 不同,MN 构造不是排列上的分布:它是一个 IID 事件似然,会把概率质量分配给「有重复抽样、落在合法排序空间之外」的序列。作者用它作为观测正集合的可处理代理,并证明它是精确 marginalized PL 的下界,从而是一个保守代理:

Theorem 1. 对任意不相交集合 $\mathcal{E}^p,\mathcal{E}^d$($|\mathcal{E}^p|\ge1$)与任意正权重 $\{w(e\mid x)\}$, $$p_{\text{PL}}(\Omega_x\mid x,\mathcal{E};w)\ \ge\ p_{\text{MN}}(\Omega_x\mid x,\mathcal{E};w). \tag{11}$$

证明思路(附录 A.5):PL 在每个 rank $t$ 的分母 $B+\sum_{j=t}^{k}w(e_{\rho(j)}\mid x)\le W$,故每一项的逐点不等式 $\frac{w(e_{\rho(t)})}{B+\cdots}\ge\frac{w(e_{\rho(t)})}{W}$ 连乘并对 $\rho\in S_k$ 求和,即得 (11)。

进一步刻画 PL 与 MN 之比的紧致性:

Theorem 2. 对任意不相交 $\mathcal{E}^p,\mathcal{E}^d$($|\mathcal{E}^p|\ge1,|\mathcal{E}^d|\ge1$)与任意正权重, $$1\ \le\ \frac{p_{\text{PL}}(\Omega_x\mid x,\mathcal{E};w)}{p_{\text{MN}}(\Omega_x\mid x,\mathcal{E};w)}\ \le\ \left(1+\frac{A}{B}\right)^{k-1}. \tag{12}$$

证明(附录 A.6)固定 $\rho\in S_k$、定义正权重前缀和 $H_{t-1}(\rho)=\sum_{j=1}^{t-1}w(e_{\rho(j)})$,则 PL 在 rank $t$ 的分母为 $D_t(\rho)=W-H_{t-1}(\rho)$,逐 $\rho$ 之比 $\prod_{t=2}^{k}\frac{1}{1-H_{t-1}(\rho)/W}\le\big(\frac{W}{W-A}\big)^{k-1}=(1+A/B)^{k-1}$,因对所有 $\rho$ 一致成立故对 $S_k$ 求和后仍成立。当 $k=1$ 时上界精确,此时 MN 代理坍缩为 S-DPO 的类别似然——S-DPO 正是 Mult-DPO 在「单正样本 + 多负样本」下的特例。

Mult-DPO 对齐目标

MN 代理与 DPO 共用 RLHF 奖励–策略重参数化:由 (4) 知 $r(x,e)=\beta\log\frac{\pi^*(e\mid x)}{\pi_{\text{ref}}(e\mid x)}+\beta\log Z(x)$,而 $w(e\mid x)=\exp(r(x,e))$,把最优策略换成可训练 $\pi_\theta$ 得到 policy-induced weights

$$w_{\pi_\theta}(e\mid x)\ \propto\ \left(\frac{\pi_\theta(e\mid x)}{\pi_{\text{ref}}(e\mid x)}\right)^{\beta}, \tag{13}$$

其中省略的比例常数 $Z_{\pi_\theta}(x)^\beta$ 在所有候选间共享、在 PL 与 MN 似然中均抵消。代入 MN 似然 (10) 并取负对数,得到 Mult-DPO 目标

$$ \mathcal{L}_{\text{Mult-DPO}}(x,\mathcal{E}^p,\mathcal{E}^d) = -\beta\sum_{e\in\mathcal{E}^p}\log\frac{\pi_\theta(e\mid x)}{\pi_{\text{ref}}(e\mid x)} \;+\; k\log\sum_{e\in\mathcal{E}}\left(\frac{\pi_\theta(e\mid x)}{\pi_{\text{ref}}(e\mid x)}\right)^{\beta} \;+\; C, \tag{14} $$

$C$ 仅依赖 $k$、优化时可略。直观理解:第一项拉高所有正样本相对参考的对数概率比之和;第二项是一个 $\log\text{-}\sum\text{-}\exp$ 型配分项,把所有候选(含正负)联合压低——区别于 vanilla DPO 的成对对比,Mult-DPO 让每个正样本同时对抗整个候选集的累积权重,从而保留 set-wise 联合结构。

与边缘化 PL-DPO 的关系

定义 policy-induced 累积权重(类比 (7)):

$$A_{\pi_\theta}:=\sum_{e\in\mathcal{E}^p}w_{\pi_\theta}(e\mid x),\qquad B_{\pi_\theta}:=\sum_{e\in\mathcal{E}^d}w_{\pi_\theta}(e\mid x), \tag{15}$$

把 (13) 代入 (8)、取负对数得到「理想但难处理」的 PL-DPO 损失

$$\mathcal{L}_{\text{PL-DPO}}(x,\mathcal{E}^p,\mathcal{E}^d):=-\log p_{\text{PL}}(\Omega_x\mid x,\mathcal{E};w_{\pi_\theta}). \tag{16}$$

Theorem 1、2 立即给出:

Corollary 1. 对每个 context $x$ 与每个训练样本 $(x,\mathcal{E}^p,\mathcal{E}^d)$, $$\mathcal{L}_{\text{PL-DPO}}(x,\mathcal{E}^p,\mathcal{E}^d)\ \le\ \mathcal{L}_{\text{Mult-DPO}}(x,\mathcal{E}^p,\mathcal{E}^d), \tag{17}$$ 且 $$0\ \le\ \mathcal{L}_{\text{Mult-DPO}}-\mathcal{L}_{\text{PL-DPO}}\ \le\ (k-1)\log\!\left(1+\frac{A_{\pi_\theta}}{B_{\pi_\theta}}\right). \tag{18}$$

这说明 Mult-DPO 损失是难处理的 marginalized PL-DPO 损失的一个可处理上界。更重要的是它揭示:对固定的 $k$-正样本集合与当前策略,增大负样本的非可忽略 policy-induced 权重 $B_{\pi_\theta}$ 会收紧最坏情况 gap——即当选更丰富 / 更难的负样本时,MN 代理对难处理的 marginalized PL-DPO 是更好的逼近。这为后文「动态难负样本采样」提供了理论依据。

Mult-DPO 的多层级扩展(Mult²-DPO)

前述假设二元偏好(隐式反馈)。实际中用户反馈常更细粒度(如显式评分),诱导出多层级偏好结构:候选 $\mathcal{E}$ 被划分为 $G\ge2$ 个有序偏好组:

$$\mathcal{E}=\bigcup_{g=1}^{G}\mathcal{E}^{(g)},\quad |\mathcal{E}^{(g)}|=k_g,\quad \sum_{g=1}^{G}k_g=K, \tag{19}$$

组号即偏好层级($g<h$ 则 $\mathcal{E}^{(g)}$ 中 item 应排在 $\mathcal{E}^{(h)}$ 之前,组内无序)。多层级偏好事件:

$$\Omega_x^{\text{grp}}:=\big\{\,e\succ e'\mid e\in\mathcal{E}^{(g)},\,e'\in\mathcal{E}^{(h)},\,1\le g<h\le G\,\big\}. \tag{20}$$

对每个边界 $g=1,\dots,G-1$ 定义组 $g$ 特定事件 $\Omega_x^{(g)}$(视 $\mathcal{E}^{(g)}$ 为正、$\bigcup_{h>g}\mathcal{E}^{(h)}$ 为负,与二元情形同构),并有 $\Omega_x^{\text{grp}}=\bigcap_{g=1}^{G-1}\Omega_x^{(g)}$;对应累积权重 $A_g=\sum_{e\in\mathcal{E}^{(g)}}w(e\mid x)$、$B_g=\sum_{h>g}\sum_{e\in\mathcal{E}^{(h)}}w(e\mid x)$、$W_g=A_g+B_g$。

由 PL 的序贯选择性质,高层级组放置完毕后 $\Omega_x^{(g)}$ 在 $g$ 上条件独立,marginalized PL 似然递归分解

$$p_{\text{PL}}(\Omega_x^{\text{grp}}\mid x,\mathcal{E};w)=\prod_{g=1}^{G-1}p_{\text{PL}}\!\left(\Omega_x^{(g)}\,\Big|\,x,\bigcup_{h=g}^{G}\mathcal{E}^{(h)};w\right), \tag{21}$$

每个因子与第 3.1 节研究的 set-wise marginalized PL 似然同形。把二元 MN 代理逐组应用即得 sequential multinomial(SMN)代理

$$p_{\text{SMN}}(\Omega_x^{\text{grp}}\mid x,\mathcal{E};w):=\prod_{g=1}^{G-1}\left(k_g!\prod_{e\in\mathcal{E}^{(g)}}\frac{w(e\mid x)}{W_g}\right). \tag{22}$$

代入 policy-induced 权重、取负对数得到 Mult²-DPO 目标

$$ \mathcal{L}_{\text{Mult}^2\text{-DPO}} =\sum_{g=1}^{G-1}\left[-\beta\sum_{e\in\mathcal{E}^{(g)}}\log\frac{\pi_\theta(e\mid x)}{\pi_{\text{ref}}(e\mid x)} +k_g\log\sum_{h=g}^{G}\sum_{e\in\mathcal{E}^{(h)}}\left(\frac{\pi_\theta(e\mid x)}{\pi_{\text{ref}}(e\mid x)}\right)^{\beta}\right]+C', \tag{23} $$

$C'=-\sum_{g}\log k_g!$ 与 $\theta$ 无关、可略。当 $G=2$ 时 (23) 退化为二元 Mult-DPO (14)。同样有多层级版的上界(附录 A.9):

Corollary 2(多层级 loss-gap 上界). 对每个 context 与每个非空有序组的多层级偏好样本, $$0\ \le\ \mathcal{L}_{\text{Mult}^2\text{-DPO}}-\mathcal{L}_{\text{PL-DPO}}^{\text{grp}}\ \le\ \sum_{g=1}^{G-1}(k_g-1)\log\!\left(1+\frac{A_{\pi_\theta,g}}{B_{\pi_\theta,g}}\right). \tag{24}$$

复杂度分析

虽然 Mult-DPO 每步对齐比单正样本方法(vanilla DPO、S-DPO)涉及更多候选,但得益于共享 prompt 前缀允许 KV-cache 复用,每步复杂度可比。设 $N_x$ 为 prompt token 数、$N_i$ 为每个 item 的平均 token 数,每步自注意力代价为:

$$\mathcal{O}\big(N_x^2+c\,N_xN_i+c\,N_i^2\big), \tag{25}$$

其中 $c$ 为每步打分的候选数:vanilla DPO $c=2$、S-DPO $c=1+(K-k)$、Mult-DPO $c=K$。由于 RS 中 prompt 通常含用户上下文 / 特征 / 历史 / 对话,$K\ll N_x$,prompt 级自注意力项 $N_x^2$ 主导;实验中 Mult-DPO 的 wall-clock 与 vanilla DPO / S-DPO 相近。


实验设置

数据集。 通用推荐用 MovieLens-10MGoodreads;对话式推荐用 Reddit-V2(改编自 He et al. 2023 / Zhu et al. 2026,把同一对话上不同 Reddit 用户的推荐合并为多个 ground truth)。MovieLens-10M 有显式评分,正集合取 rating=5、负样本从未评分 item 随机采样,并把不同评分作为不同偏好层级用于 Mult²-DPO(§4.5)。验证用 200 个采样负样本做高效模型选择,测试在全目录上报告。

指标。 NDCG@$K$,$K\in\{5,15,20\}$。

骨干。 Qwen2.5-0.5B-Instruct、Qwen2.5-3B-Instruct(主实验),并用 0.5B/1.5B/3B/7B 做 scaling 分析。

实现(附录 C.1)。 0.5B–1.5B 用 2×NVIDIA H100,3B–7B 用 2×NVIDIA B200;据数据集最大序列长度与候选数采用从纯数据并行到 ZeRO-2 的不同并行策略,并行策略在 baseline 间保持一致以公平对比;所有方法用 AdamW、学习率 $1\text{e-}6$;训练与推理始终复用同一 context 下 prompt 的 KV cache。

Baseline。 两类 LLM-based 推荐:(i) SFT-only——BIGRec(基于交互历史生成候选再 grounding 到目录)、(解码时去偏多样化);(ii) DPO 式对齐——Vanilla DPODMPO(BT 内对负样本对数比取算术平均)、S-DPO(softmax DPO,marginalized PL 的 $k=1$ 特例)、LiPO (BT)(listwise 学习排序,把所有正负对的成对 BT 损失逐步相加)。所有 DPO 式 baseline 共享同一参考骨干与训练协议。


主要实验结果

训练动态与超参分析

Figure 1: Validation NDCG@5 (solid) and NDCG@20 (dashed) versus the regularization strength β.

图 1 在验证集上扫 $\beta$(公式 (3) 的正则强度):$\beta$ 太小则 $\pi_\theta$ 偏离强 $\pi_{\text{ref}}$ 太远,太大则过度正则、侵蚀对齐信号。MovieLens-10M 与 Goodreads 的最优 $\beta$ 一致小于 Reddit-V2——可能因为对话式推荐中参考骨干提供了更强初始化(对话上下文可被语言理解利用),而通用推荐更依赖预训练 LLM 不具备的协同过滤信号。scaling 实验中固定 $\beta=0.005$。

与 baseline 的对比(RQ1)

下表为 Table 1:Goodreads / MovieLens-10M / Reddit-V2 测试集(全目录候选)上 Mult-DPO 与 DPO 式 baseline 的对比,大多数结果在 N@5、N@20 上的标准误为 0.0020–0.0035。粗体为该列最优。

Qwen2.5-0.5B-Instruct:

Method GR N@5 GR N@15 GR N@20 ML N@5 ML N@15 ML N@20 RD N@5 RD N@15 RD N@20
zero-shot 0.0085 0.0090 0.0090 0.0136 0.0156 0.0156 0.0175 0.0207 0.0216
SFT:+BigRec 0.0776 0.1069 0.1177 0.0657 0.0884 0.0962 0.1043 0.1056 0.1083
SFT:+D³ 0.0818 0.1122 0.1210 0.0612 0.0881 0.0948 0.1015 0.1037 0.1064
DPO:+Vanilla DPO 0.0389 0.0558 0.0622 0.0426 0.0710 0.0834 0.0816 0.0819 0.0838
DPO:+DMPO 0.0586 0.0805 0.0845 0.0461 0.0701 0.0758 0.0875 0.0893 0.0912
DPO:+S-DPO 0.0762 0.1105 0.1192 0.0592 0.0920 0.1049 0.0931 0.0938 0.0985
DPO:+LiPO (BT) 0.0862 0.1198 0.1294 0.0622 0.0980 0.1100 0.0963 0.1020 0.1060
+Mult-DPO (ours) 0.0947 0.1292 0.1406 0.0650 0.1001 0.1103 0.1097 0.1101 0.1154

Qwen2.5-3B-Instruct:

Method GR N@5 GR N@15 GR N@20 ML N@5 ML N@15 ML N@20 RD N@5 RD N@15 RD N@20
zero-shot 0.0149 0.0184 0.0184 0.0232 0.0340 0.0359 0.0633 0.0617 0.0641
SFT:+BigRec 0.1109 0.1527 0.1682 0.0747 0.1069 0.1180 0.1228 0.1247 0.1364
SFT:+D³ 0.1254 0.1531 0.1678 0.0710 0.1038 0.1159 0.1195 0.1214 0.1332
DPO:+Vanilla DPO 0.0870 0.1120 0.1202 0.0559 0.0806 0.0903 0.0915 0.0960 0.0998
DPO:+DMPO 0.0932 0.1200 0.1359 0.0562 0.0875 0.0938 0.0981 0.1009 0.1032
DPO:+S-DPO 0.1181 0.1586 0.1693 0.0631 0.0989 0.1122 0.1043 0.1132 0.1219
DPO:+LiPO (BT) 0.1252 0.1611 0.1731 0.0672 0.1046 0.1185 0.1147 0.1234 0.1329
+Mult-DPO (ours) 0.1288 0.1678 0.1785 0.0751 0.1155 0.1300 0.1369 0.1431 0.1503

结论分析。

  • DMPO 用算术平均处理多负样本,但该平均落在 BT sigmoid 内是一个缺乏一致排序似然解释的 ad-hoc 构造,表现普遍偏弱。
  • S-DPO 用 marginalized PL 的 $k=1$ 闭式 softmax 替代该平均,是对「单正多负」的有原则处理,故优于 DMPO。
  • LiPO (BT) 进一步允许多正样本监督(逐对 BT 损失求和),但它把 set-wise 事件分解为独立成对 BT丢弃了「正样本应联合压制负样本集」的约束——是最强的 DPO baseline。
  • Mult-DPO 从根本上移除这种虚假独立:在 MN 代理下每个正样本对抗累积负权重 $B$,保留联合 set-wise 结构、且可证是 marginalized PL-DPO 的上界。它对 LiPO (BT) 的优势在 Reddit-V2(多正样本 ground truth 最密集)上最显著,并随骨干规模放大(3B 比 0.5B 提升更大),说明联合信号在策略有能力利用时收益最大。
  • Mult-DPO 还超越 SFT 系的 BIGRec / D³(从同一 SFT 初始化出发),表明 set-wise 对齐提供了「示例匹配(demonstration matching)无法恢复」的监督。唯一例外是 0.5B 骨干上 MovieLens-10M N@5(Mult-DPO 0.0650 略低于 BigRec 0.0657),但在 N@15/N@20 上仍最优。
  • 效率:相比最强 baseline LiPO (BT),Mult-DPO 因跨正样本共享 $B$,把损失聚合代价从 $\mathcal{O}((K-k)\cdot k)$ 降到 $\mathcal{O}(K)$。

MN-DPO 对 marginalized PL-DPO 的上界与紧致性(RQ2)

Figure 2: Left—Mult-DPO loss vs exact marginalized PL-DPO loss; Right—NDCG on Goodreads with SPRec-style epoch-level dynamic hard negatives.

为验证 Corollary 1 的上界关系,作者把训练集限制到至多 3 个正样本的样本(此时精确 marginalized PL-DPO 损失可算)。图 2(左) 显示在该过滤子集上,Mult-DPO 损失与精确 marginalized PL-DPO 损失的训练动态验证了上界关系(前者始终在后者之上)。但该限制移除了大部分训练样本,使其 test-set 评估信息量不足

为进一步检验「更难的负样本是否收紧上界并改善多正样本对齐」,作者引入动态负样本采样:由于负样本难度与策略相关、训练中变化,借鉴 SPRec 在 epoch 级重采样负样本——每个 epoch 开始时按当前策略权重诱导的温度缩放(温度 0.1)类别分布抽负样本。图 2(右) 显示引入更难负样本(Mult-DPO+SP)确实提升 Mult-DPO 的对齐能力,与 Corollary 1 关于「增大 $B_{\pi_\theta}$ 收紧 gap」的理论预测一致。

多层级偏好扩展(RQ3)

Figure 3: Comparison of Mult-DPO and Mult²-DPO NDCG on MovieLens-10M.

在 MovieLens-10M 上把 item 按评分划分为 $G=4$ 个有序偏好组(rating=5 为最高偏好组,即二元情形的正集合;随机采样的未评分 item 接在高评分组之后以保持候选集与二元设定可比)。Mult²-DPO 按 (23) 跨三个组边界聚合逐边界多项式损失,对比把四组合并为单一正负二分的 binary Mult-DPO baseline。图 3 显示 Mult²-DPO 在每个 cutoff 都优于二元版,0.5B 骨干上 NDCG@5 提升约 12%(0.0732 vs 0.0650),且改进可推广到 3B 骨干。这进一步证明 Mult²-DPO 通过保留显式评分更丰富的偏好结构提供了更强的对齐信号。

Scaling 分析(附录 C.3)

Figure 4: Mult-DPO test NDCG on Goodreads across four Qwen2.5 backbones at β=0.005.

在 Goodreads 上用 Qwen2.5-{0.5B,1.5B,3B,7B} 训 Mult-DPO(复用 0.5B/3B 验证扫出的 $\beta=0.005$,避免在每个规模重跑昂贵的 $\beta$ 扫)。图 4 显示 NDCG 从 0.5B 到 1.5B 陡升、之后在 1.5B/3B/7B 间逐渐平缓(每次翻倍收益递减)。这表明 Mult-DPO 在中等规模已提取了大部分可用的 set-wise 信号,而 7B 上的持续改进确认 set-wise 对齐的收益可推广到大骨干


讨论与局限性

核心贡献。 Mult-DPO 的关键 insight 是:用一个定义在同一奖励诱导权重空间、但不要求是排序分布的多项式代理事件,去替代难处理的 marginalized PL 似然——这一「放松到非排序的 IID 事件」换来了闭式 DPO 风格目标,且代价(与精确 PL 的 gap)被两条定理严格控制并以 $A/B$ 比刻画其紧致性。这把「set-wise / 多正样本偏好对齐」从一个组合难题,化简为与 vanilla DPO 同量级的分类式优化,并优雅地推广到多偏好层级(Mult²-DPO,SMN 代理递归分解)。理论与方法的优雅性是本文最大的亮点,值得借鉴的设计是「用可处理的代理似然 + 可证上界」来对齐 listwise/set-wise 结构。

值得借鉴的设计。

  • 「共享 prompt 前缀 → KV-cache 复用」使每步对 $K$ 个候选打分的复杂度由 prompt 项主导,从而 set-wise 对齐几乎不增加 wall-clock,这是把多候选监督落到 LLM-based RS 的关键工程点。
  • 「收紧上界 ⇔ 选更难负样本」的理论联系,直接落地为 SPRec 式动态难负样本采样并验证有效——理论分析对实践有指导意义。

局限与争议(部分作者已在附录 D 自陈)。

  • MN 构造是代理事件似然、而非归一化排序分布,因此可能不是唯一或最紧的代理;目标对同层级正样本用均匀 target,最适合「正样本可交换」的设定,当正样本相关性差异大时,rating-aware 分组或加权变体可能更优。作者指出 EM(引入未观测排序的隐分配变量)或变分下界是值得探索的替代路线。
  • 无任何线上 / 工业 A/B 实验:尽管有 4 位 Netflix 作者,全部实验都是离线公开数据集(Goodreads / MovieLens-10M / Reddit-V2),缺少部署收益证据;这与 score_reason 中「理论扎实但无线上实验」的判断一致。
  • 绝对指标提升温和,且 RQ2 的紧致性验证只能在「至多 3 个正样本」的过滤子集上做,作者自承其 test-set 评估信息量不足——上界的实证检验偏弱。
  • 方法本质是一个训练目标,对 LLM 骨干无架构侵入,参数量 scaling 时表征与序列建模能力随骨干一起增长(图 4 验证到 7B),无明显方法论扩展瓶颈——这是相对许多「先压缩再建模」两阶段方案的优势。

适用范围。 作者(附录 E)指出 Mult-DPO 适用于任何「存在一组偏好回复、回复间无可靠内部顺序」的 set-wise 偏好场景,包括信息检索 / 搜索排序(多个相关文档)、开放域 QA(多个可接受答案)、代码生成(多个正确程序),不限于推荐。

评分(reading_score = 8): 理论新颖且严谨(多项式代理是难处理 marginalized PL-DPO 的可证上界,并刻画紧致性,干净地推广到多层级),DPO baseline 对比充分(3 数据集 × 4 骨干),方法对骨干 scaling 友好;但离线评估、无线上 A/B、绝对增益温和、RQ2 紧致性验证受限使其止步于「扎实工作」上沿而非开创性。