Paper Reading — Archivist

生成式 Kuaishou

8 │ 8 │ —

RaG Recommendation as Generation: Unifying Personalized Video Generation and Recommendation at Industrial Scale

快手提出 Recommendation-as-Generation(RaG),用解耦语义 ID(D-SIDs)统一生成式推荐与个性化视频生成:GRM 预测的兴趣 D-SIDs 不再用于检索固定库存,而是解码生成全新个性化视频,配合多智能体 VGAs 与跨域奖励学习 GDPO,在 4 亿用户广告场景相比强 GRM 基线提升广告收入 1.87%。

semantic-id quantization rl pretrained-lm ad-rec

2026-06-24

生成式 Meta

8 │ 8 │ —

G2Rec Structuring and Tokenizing Distributed User Interest Context for Generative Recommendation

提出 G2Rec:消去 user 节点构造稀疏 item 共参与图(O(M log M) 边,谱稀疏化有保证),在图上做可微软模块度聚类得到每个 item 的兴趣原型软成员,把连续兴趣画像 token 与 item 嵌入交替成序列喂 Llama2-13B 自回归推荐器,在 Meta 多场景上线。

semantic-id graph pretrained-lm transformer industrial

2026-06-18

判别式 Zalando

7 │ 6 │ —

VCG VCG: A Multimodal Retrieval Framework for E-Commerce Video Feeds under Extreme Cold-Start Conditions

Zalando 提出 VCG——一套 zero-shot 双塔多模态召回引擎,用领域适配 CLIP 把用户(商品交互聚合)与视频(帧均值)映射到同一流形做点积召回,攻克电商短视频流的极端冷启动,并实证生成式 LLM embedding 因表征坍塌不适合检索、判别式 CLIP 才适合,线上 A/B 深度完播 +50%。

cold-start contrastive-ssl pretrained-lm industrial

2026-06-17

生成式 Kuaishou

7 │ 8 │ —

DIF Denoising Implicit Feedback for Cold-start Recommendation

快手提出模型无关的冷启动隐式反馈去噪方法 DIF:用内容相似暖物品的协同表征为冷启动物品生成置信度加权伪标签,再以相对熵+冷启动状态估计样本不确定性自适应修正噪声标签,十亿级线上部署显著提升冷启动商业指标。

cold-start industrial

2026-06-17

LLM 学术

7 │ 7 │ —

Arch-Warmup Taming Curvature: Architecture Warm-Up for Stable Transformer Training

提出 warm-started 幂迭代(复用上一步顶特征向量 + HVP,每步<5次)实现十亿参数级 Transformer 的在线(预条件)Hessian 最大特征值追踪,并基于 Edge-of-Stability 理论提出'架构 warm-up'——用零初始化逐步解锁网络深度把有效曲率约束在稳定边界内,在不拖慢收敛的前提下减少 loss spike 并拓宽可用学习率范围。

transformer training-stability pretrained-lm parameter-scaling

2026-06-15

判别式 Shopee

8 │ 8 │ —

OneRank OneRank: Unified Transformer-Native Ranking Architecture for Multi-Task Recommendation

提出 OneRank,把多任务推理内化进 Transformer 栈以消除编码器-预测器分离:任务 token 互不可见实现早期特化、候选感知上下文化弥合训练-服务 gap、带策略性梯度解耦的跨任务注意力做受控知识迁移、动态匹配打分替代静态 MLP head,在 Shopee 线上取得 GMV/UU +1.01%。

transformer multi-task search-ranking industrial

2026-06-15

判别式 NetEase

7 │ 6 │ —

PIANO PIANO: Personalized Reranking via Information Aggregation Node for Music Search Optimization

网易云音乐提出 PIANO 音乐搜索个性化重排框架:QDIR 以当前 query 对历史 query 序列做 cross-attention 精炼长期偏好,IAN([CLS] 式聚合节点)受真实 per-list CTR/CVR 监督做 listwise 多目标优化,线上 A/B 取得 CTR +0.62%、CVR +4.45%。

transformer search-ranking industrial pretrained-lm contrastive-ssl

2026-06-15

判别式 Tencent

7 │ 8 │ —

TAPF Beyond Positive Signals: Unlocking Implicit Negative Behaviors for Enhanced Sequential User Modeling

提出混合极性行为序列(固定长度预算内按时序交错正负反馈 token、替换部分正向 token,零额外在线推理成本)+ 轻量 Target-Aware Polarity Fusion 目标条件极性门控,在 DIN/Transformer/OneTrans/HyFormer/MixFormer 五种 CTR 架构、三个数据集上一致取得 +1.9%~+9.6% 相对 AUC 提升。

negative-feedback transformer industrial ad-rec

2026-06-13

生成式 Kuaishou

8 │ 8 │ —

OneBar OneBar: An End-to-End Content-Grounded Generative Query Recommendation Framework for E-Commerce Video Feeds

提出 OneBar,面向短视频电商信息流底栏的端到端内容接地生成式查询推荐框架,用单个 BART encoder-decoder 取代多阶段检索级联,并通过 PIOPD(偏好内化 on-policy 蒸馏)免奖励模型地内化后验点击偏好,在快手主信息流在线 A/B 取得 Guided GMV +21.67%。

search-ranking pretrained-lm knowledge-distillation rl industrial

2026-06-13

生成式 Meta

7 │ 7 │ —

ChronoID ChronoID: Infusing Explicit Temporal Signals into Semantic IDs for Generative Recommendation

ChronoID 指出生成式推荐的语义 ID 是时间无关的,把'如何将显式时间注入 SID'拆解为时间编码(绝对/相对)、融合顺序(早/晚)、量化机制(残差/并行)三个正交维度并系统评测,发现相对时间+并行量化最优,同时贡献了一个杜绝未来信息泄漏的时间显式生成推荐基准。

semantic-id quantization transformer pretrained-lm academic

2026-06-12

生成式 Snapchat

8 │ 8 │ —

PauseRec Implicit Reasoning for Large Language Model-based Generative Recommendation

PauseRec 诊断出显式 CoT 在 SID 生成式推荐中失败的三大根因(世界知识难言语化、文本-SID 嵌入错位、rationale 脆弱),提出用可训练 token 做隐式 latent 推理替代显式 rationale,无需教师 CoT 与 RL,在三个 Amazon 数据集上 10/12 指标超过 RL-based 的 OneRec-Think,同时训练省 65% GPU 时、推理快约 3.5x。

pretrained-lm semantic-id test-time-scaling industrial

2026-06-12

生成式 Kuaishou

8 │ 8 │ —

OneRetrieval OneRetrieval: Unifying Multi-Branch E-commerce Retrieval with an Editable Generative Model

快手提出 OneRetrieval,首个可编辑的生成式电商检索:用 Keyword-Aligned Encoding 把每个 SID 位置绑定到可解释属性词并预留空槽,运营无需重训即可注入新词;深召回与最强生成式 baseline OneSearch 打平、干预命中率高出闭码本一个数量级,线上替换倒排/稠密双分支转化不降而 CTR 显著提升。

semantic-id search-ranking industrial pretrained-lm

2026-06-11

生成式 Google

8 │ 7 │ —

LLM-Based User Personas for Recommendations at Scale

Google 在十亿级视频推荐平台上用 LLM 实时生成自然语言用户兴趣画像(总结兴趣+探索兴趣),经知识蒸馏(Gemini Pro→Nano)+异步生成+量化压进工业服务链路,线上观看时长 +0.04%、活跃用户 +0.03%,增益主要来自轻度用户。

pretrained-lm knowledge-distillation quantization industrial

2026-06-10

生成式 Kuaishou

8 │ 8 │ —

AIR Atomic Intent Reasoning: Bringing LLM Semantics to Industrial Cross-Domain Recommendations

把 LLM 跨域意图推理离线化为'原子行为-意图对'缓存,在线只做意图树检索 + 目标感知检索 + MHA 融合,以约 400x 吞吐换取实时 LLM 语义,在快手电商取得 +3.446% GMV。

cross-domain pretrained-lm industrial cold-start

2026-06-09

判别式 Meta

7 │ 7 │ —

DUET DUET -- Dual User Embedding Transformers for Offsite Conversion Prediction

Meta DUET 把站外转化预估的上游用户嵌入预训练按统计机制分流——稠密点击流用多层自注意力(ClickAUE)、稀疏转化流用交叉+自注意力锚定(ConvAUE),两个互补嵌入冻结后经事件触发推理(ETI)异步 serving 喂给下游 ranker,训练 NE 降 0.38%、线上 CVR +0.66%/+0.15%。

transformer cross-domain quantization semantic-id ad-rec

2026-06-08

生成式 Netflix

7 │ 8 │ —

Mult-DPO Mult-DPO: Multinomial Direct Preference Optimization for Recommender Systems

把 DPO 从成对偏好推广到推荐系统的 set-wise 多正样本偏好:用同一奖励权重空间上的多项式(multinomial)代理事件替代难处理的边缘化 Plackett-Luce 似然,导出闭式 DPO 目标并证明其为 PL-DPO 损失的可处理上界(并以正/负累积权重比刻画紧致性),进一步扩展到多偏好层级 Mult²-DPO。

pretrained-lm rl academic

2026-06-08

生成式 OPPO

7 │ 7 │ —

ToolRec ToolRec: Calibrated Preference Alignment for Query Recommendation in On-Device Assistants

ToolRec（OPPO 小布）把端侧 LLM 查询推荐的偏好对齐拆为「锚定可执行动作」与「校准点击信号可信度」两步：用 708 工具的 SysToolkit + 上下文感知检索把推荐锚定到系统工具，再以用户活跃度 + 工具频率的双层样本重加权校准点击噪声并融入加权 KTO，在 1.5 亿 MAU 在线 A/B 上 CTR +3.32%、点击 +4.74% 且相关性几乎无损。

search-ranking rl pretrained-lm industrial

2026-06-07

生成式 JD

8 │ 8 │ —

AdaGRPO Adaptive Loss Balancing for Noise-Robust GRPO in Generative Recommendation

JD.com 的 AdaGRPO 把生成式推荐的 RL 对齐从『均匀施加奖励』改为『选择性准入』：保留监督 NLL 作静止锚，用两个 rank-based rollout 诊断（policy 侧困难度 × reward 侧可判别性）合取出一个 detached 二值 sample-level clip，只在『策略不确定且曝光偏置的 production ranker 局部可信』的样本上放行 GRPO 梯度，把 PPO 的 clip 从 ratio 域抬到 sample 域；offline HR@10 11.01%→12.18%（幻觉≤0.22%），线上 A/B effective IPV +0.43% 等显著提升。

industrial semantic-id rl pretrained-lm training-stability

2026-06-07

生成式 Yandex

8 │ 7 │ —

Gryphon Gryphon: A Unified Architecture for Semantic-ID Generation and Item-Level Scoring in Industrial Recommendations

Gryphon 在 encoder-decoder 语义 ID 生成式检索之上联合训练一个 item 级打分模块（ILSM），复用共享 encoder 的用户表征对 beam 生成 SID 解析出的具体 item 重打分，把最终 item 选择与失准的 beam 似然解耦并解决 SID 碰撞；工业音乐场景取得最高 item 级 Recall@1000（较 vanilla GR +3.7%），并在 7 天 A/B 中作为唯一召回源替换 15+ 召回器与 preranking 阶段且收听时长无显著变化。

semantic-id transformer quantization industrial

2026-06-07

判别式学术

8 │ 8 │ —

DeRes DeRes: Decoupling Residual Stability and Adaptivity for Scalable CTR Prediction

DeRes 用"恒等残差(稳)+块注意力残差(变)"双路径 + 逐维向量门控重做 CTR Transformer 的层间连接，并用 SiLU 替 Softmax(Pointwise AttnRes)支持并行多兴趣与负权遗忘，在 <5% 额外 FLOPs 下让 8 层匹配 16 层 OneTrans(scaling 指数 γ=0.118 vs 0.071)。

transformer feature-interaction parameter-scaling industrial ad-rec

2026-06-06

判别式 Alibaba

8 │ 8 │ —

SSRLive SSRLive: Live Streaming Recommendation with Dynamic Semantic ID

淘宝提出 SSRLive,生成式-判别式混合的直播粗排:给每个直播间同时生成刻画主播稳定属性的静态 SID(历史多模态+Swing 协同对比)和追踪实时人气的动态 SID(实时特征经 RQ-KMeans+EMA 在线码本量化),用 task query 与用户-直播 cross-attention 把 SID 和用户-主播交互特征喂进多任务预测,全量服务数亿用户,线上观看时长 +3.38%、GMV +0.72%。

semantic-id quantization feature-interaction contrastive-ssl transformer

2026-06-05

生成式 Yandex

8 │ 7 │ —

GBLA Gated Bidirectional Linear Attention for Generative Retrieval

提出 Gated Bidirectional Linear Attention (GBLA)——训练与推理均为线性时间的双向注意力层(核化线性注意力 + Conv1D + key gating + gated RMSNorm)；以 [SA,LA,LA] 混合编码器在 Yandex Music 上匹配双向自注意力的检索质量，并在 H100、长度 32768 下相对 FlashAttention-v3 取得最高 8.2× 单层加速。

transformer linear-attention semantic-id industrial

2026-06-05

生成式 Tubi

— │ 6 │ —

Shallow-RHS Bridging the Semantic-Collaborative Gap: An Asymmetric Graph Architecture for Cold-Start Item Recommendation

Tubi×Kumo 把物品冷启动重述为时序二部图上的归纳式图补全,提出非对称双塔 Shallow-RHS——内容塔刻意无 ID 无图、仅凭内在特征被图链接预测训练进 CF 感知空间,配合暖代理邻居 ANN 检索实现隐式图补全,并以人口统计 cohort 把同一原则推广到设备冷启动,线上 A/B 提升 TVT 与冷内容晋升速度。

cold-start industrial transformer contrastive-ssl pretrained-lm

2026-06-04

生成式 Kuaishou

9 │ 9 │ —

OneReason OneReason Technical Report

快手 OneRec 团队的推理基础模型 OneReason：通过四粒度感知预训练 + 三层认知 CoT 的 SFT + 专精后统一的 RL（域内 GRPO→RFT/MOPD），首次让生成式推荐的思考模式稳定超越非思考模式，已在快手本地生活广告线上部署（ROI>5）。

semantic-id pretrained-lm rl knowledge-distillation process-supervision

2026-06-04

other 学术

8 │ 8 │ —

Scaling Laws for Behavioral Foundation Models over User Event Sequences

用约600次iso-FLOP训练(10^15-10^19 FLOPs)系统标定行为基础模型(特征事件嵌入器+decoder-only Transformer预测下一事件)的scaling law:计算最优嵌入器仅约2%参数、行为模型低算力下数据偏多(D/N约340)并随算力向Chinchilla收窄(到36)、且评测指标本身是scaling law的一部分——sampled-softmax训练loss不是full-catalogue排序质量的可靠代理,换指标会改变计算最优配方。

parameter-scaling transformer academic

2026-06-03

判别式 Alibaba

8 │ 7 │ —

DSIRM DSIRM: Learning Query-Bridged Discrete Semantic Identifiers for E-commerce Relevance Modeling

DSIRM 把语义 ID 从生成式检索目标重新定位为电商排序的离散相关性特征——用 query 桥接对比 RQ-VAE（类目感知首层码本）学相关性感知的 item SID、微调 Qwen 生成 query SID，二者层级前缀匹配分增强排序 DNN，天猫离线 AUC +1.54%、线上 UCTR/UCTCVR +0.13%/+0.25%。

semantic-id quantization contrastive-ssl pretrained-lm search-ranking

2026-06-03

生成式 Kuaishou

8 │ 8 │ —

RGCD-Rep Bridging Short Videos and Live Streams: Reasoning-Guided Multimodal LLMs for Cross-Domain Representation Learning

快手 RGCD-Rep 用冻结大教师 MLLM 生成结构化跨域推理并蒸馏进轻量学生 MLLM,经 transferable-residual 查询感知聚合 + 行为/语义双信号路由学出可离线落库的短视频→直播跨域可迁移表征,全量部署服务 4 亿+ 日活。

cross-domain cold-start knowledge-distillation contrastive-ssl pretrained-lm

2026-06-03

LLM IBM

7 │ 7 │ —

Dynamic Short Convolutions Improve Transformers

提出动态短卷积作为 Transformer 的新原语——从隐藏状态生成输入依赖的深度卷积滤波器,在保留局部性归纳偏置的同时增强表达力;跨 150M–2B 稠密及 7B MoE 持续优于带/不带静态卷积的 Transformer,scaling law 显示 QKV 放置 1.33×、全线性放置 1.60× 的算力优势,并以自研 Triton 内核把训练额外开销控制在约 8%。

transformer parameter-scaling moe academic

2026-06-02

生成式 Kuaishou

8 │ 8 │ —

Taiji Taiji: Pareto Optimal Policy Optimization with Semantics-IDs Trade-off for Industrial LLM-Enhanced Recommendation

Taiji 是快手广告的工业级 LLM-as-Enhancer 框架,用逆向工程 CoT(RUPR)+PPL 拒绝采样(ORFT)提升推理数据质量,再以 POPO 在 GRPO 中动态做 LLM 语义奖励与推荐协同(CTCVR)奖励的 Pareto 最优加权,7B 模型离线多数指标超过 32B 教师,线上 A/B 提升 +2.83% ADVV/+3.30% Revenue,已部署服务 4 亿日活。

rl pretrained-lm knowledge-distillation cross-domain ad-rec

2026-06-02

生成式 Shopee

7 │ 7 │ —

DRQ Decoupled Residual Quantization for Robust Semantic IDs in Recommendation

提出诊断 Semantic ID tokenizer 失效的量化框架（期望重叠率 O_π / 有效码本容量 K_eff，把失效拆成分布惩罚与几何惩罚），并以解耦残差量化 DRQ（无 STE 的 VAE 连续重塑 + 事后层次 K-Means）作为概念验证，在 1500 万物品的工业短视频数据上揭示 tokenizer 质量是符号容量/重构保真/软匹配三者的多目标权衡。

semantic-id quantization contrastive-ssl industrial

2026-06-01

判别式 Kuaishou

7 │ 8 │ —

FlowTime FlowTime: Towards Continuous Generative Watch Time Prediction via Flow-based Personalized Priors

提出连续生成式回归(Continuous Generative Regression)新范式与 FlowTime——用一步式 VAE 学连续潜空间、再用基于用户/物品观看时长分位数历史的条件 Normalizing Flow 把高斯先验 warp 成个性化多峰流形，建模观看时长的多峰异质分布，避免点回归均值坍缩与离散化量化误差；快手线上 A/B 视频播放时长 +1.044%，并开源 WTP 基准库 TimeRec。

industrial normalizing-flow transformer

2026-05-31

判别式 Bilibili

7 │ 7 │ —

LeAP LeAP: Learnable Adaptive Permutation for Feature Selection in Heterogeneous and Sparse Recommender Systems

LeAP 把传统 O(N) 的置换特征重要性改造成 O(1) 批内可微门控,并用置换散度自适应正则化解异构维度与极端稀疏的评估偏差,在 Bilibili 十亿级请求、12000+ 维搜索排序模型上无损剪掉 3600+ 冗余维度。

feature-selection search-ranking industrial

2026-05-31

判别式 LinkedIn

8 │ 7 │ —

RQ-FSQ Quantizing Intent: Cross-Domain Semantic IDs from Organic Activity for Industrial Ranking

LinkedIn 首次实证跨域 viewer Semantic ID:把 organic feed 行为派生的预训练用户 embedding 用 RQ-FSQ(残差 VAE + 逐维有限标量量化)离散成 30-280× 更小的 SID,经 prefix n-gram 的 HDE 模块端到端注入广告 CTR 排序器,确立'行为活跃度丰富性决定跨域迁移质量',最冷启动用户段 +1.522% AUC。

semantic-id quantization cross-domain cold-start ad-rec

2026-05-31

判别式 Meta

7 │ 6 │ —

SCALR Synthetic Data from Cross-Domain Events for Large-Scale Recommendation Systems

Meta 提出 SCALR，把跨域事件迁移重铸为合成数据生成：用重叠用户共现统计估计 item 翻译分布、从中采样把源域事件翻译成目标域格式的合成训练样本，再用加权损失做数据层、模型无关的跨域增强，在线 A/B 一致提升转化率。

cross-domain industrial ad-rec

2026-05-29

生成式 Pinterest

8 │ 8 │ —

PrefixMem LLMs Need Encoders for Semantic IDs Too

Pinterest 提出 PrefixMem——把 Semantic ID 当作像图像/音频一样需专用编码器的模态,用前缀 n-gram 哈希记忆表为每个 SID token 注入前缀条件表征,可独立预训练并跨 LLM 家族迁移,匹配算力下最深层 SID 准确率相对提升达 46%、硬样本上达 77%、稀有物品上达 115%。

semantic-id quantization pretrained-lm industrial cold-start

2026-05-29

生成式判别式 Pinterest

9 │ 9 │ —

UniPinRec UniPinRec: Unifying Generative Retrieval and Ranking at Pinterest Scale

Pinterest 提出 UniPinRec——首个全栈统一检索与排序的生产系统(单输入格式/单共享骨干/单阶段联训), 靠 Masked Action Modeling 把动作监督加到非交错用户序列、靠跨进程 KV-cache 共享让排序复用检索的历史编码, 线上互动 +~1%、e2e 延迟 -11.1%、QPS +63.6%。

transformer search-ranking industrial sparse-attention quantization

2026-05-29

判别式 Coupang

7 │ 7 │ —

On the Practice of Scaling Search Conversion Rate Prediction

Coupang 关于工业搜索 CVR 预测缩放的经验研究：把缩放拆成 backbone/embedding/data 三维并实测各自的 log-linear 规律，证明三者收益 largely 独立可加,从而'小数据搜架构、全量训部署';配合 warmstart 重训与解耦 CPU-GPU 执行+动态批处理,最终以 8x 推理算力换来线上搜索转化率 +2.6% 且延迟近乎不变。

parameter-scaling feature-interaction search-ranking industrial

2026-05-28

判别式 ByteDance

8 │ 8 │ —

Rec-Distill Rec-Distill: An Industrial Distillation Pipeline for Large-Scale Recommendation Models

ByteDance 提出 Rec-Distill：把蒸馏收益分解为「教师 scaling 收益 × 可迁移性 η」，用解耦双塔学生 + 黑盒 CE 蒸馏 + 学生侧重校正去偏 + 批流混合流水线，把 24B 稠密参数/20K 序列教师的 scaling 收益迁移给轻量部署学生，峰值可迁移性 >60%，多场景在线 A/B 取得 GMV/时长等显著提升。

knowledge-distillation parameter-scaling industrial ad-rec search-ranking

2026-05-28

生成式 LUCID

7 │ 7 │ —

AMRS Affective Music Recommendation: A Rollout-Based World Model for Offline Preference Optimization

LUCID 真实部署的情感音乐推荐系统:用因果 Transformer 世界模型联合预测 engagement/rating/valence/arousal 作离线仿真器,先行为克隆生产策略再用世界模型打分的 DPO 做多目标偏好优化(KL锚定保安全),规避脆弱临床人群在线情感实验的伦理禁区。

industrial transformer rl cold-start

2026-05-27

判别式 Pinterest

8 │ 7 │ —

Fine-Tuned LLM as a Complementary Predictor Improving Ads System

Pinterest 把微调开源 LLM 当作'广告主预测器'(而非排序器)的互补信号源,从用户画像/转化历史预测高意图广告主并同时注入召回与排序,线上 U.S. Shopping RoAS 提升 4.94%/6.69%

ad-rec industrial pretrained-lm rl semantic-id

2026-05-27

LLM Meta

7 │ 8 │ —

MobileMoE MobileMoE: Scaling On-Device Mixture of Experts

Meta 提出首个面向端侧的 sub-billion 激活 MoE 模型族 MobileMoE,用一条联合内存+算力约束的端侧 MoE 扩展律推出'适中稀疏度+细粒度+共享专家'甜点架构(E=8,g=8,1 共享专家),经四阶段配方(PT→MT→SFT→INT4 QAT)在 14 个 benchmark 上以 2-4x 更少推理 FLOPs 匹配/超过稠密小模型,并首次在商用手机上以自定义 fused MoE kernel 实现 1.8-3.8x prefill、2.2-3.4x decode 加速。

moe quantization parameter-scaling pretrained-lm transformer

2026-05-26

判别式 Alibaba

7 │ 6 │ —

Uniboost Uniboost: Global Coordination with Value Alignment for Fair and Efficient Traffic Allocation

淘宝混排（重排）阶段的统一流量分配框架：先把抽象混排分线性对齐到稳定锚定指标（有效完播率）赋予业务语义，再用带偏置项的统一线性 Boosting 收编 PID 保量（w=0）与冷启 Boost（b=0）两套机制并保证线性可加归因，支持按计划的成本/ROI 分析，线上 A/B 在淘宝内容流取得一致提升。

search-ranking ad-rec cold-start industrial

2026-05-26

LLM Ant Group

7 │ 7 │ —

PowLU PowLU: An Activation Function for Stable Pre-Training of LLMs

提出 PowLU 激活函数,用有理幂指数 1+m/(√x+1) 把 SwiGLU 正区间的二次增长平滑压到近线性以抑制激活/梯度 outlier,在 7.9B/124B Ling LLM 上消除 FP8 低精度训练的 loss spike,同时保持与 SwiGLU 相当的性能。

transformer moe parameter-scaling training-stability industrial

2026-05-25

判别式 Tencent

8 │ 8 │ —

SIREN SIREN: Unified Multi-Granularity Semantic Interaction for Multi-Modal Lifelong User Interest Modeling

SIREN 把多模态信号从'晚融合'改为 item 级'早融合':用 prefix-encoded SemID(刻画语义)+ target-aware 相似度桶(刻画相关性)两路互补边信息,与 ID 协同特征在 target-conditioned 注意力内统一交互;GSU 另提供 SemID 硬检索把在线成本降 90%+。腾讯微信广告全量上线,三场景 GMV +1.61%~+3.87%。

semantic-id industrial ad-rec cold-start transformer

2026-05-25

生成式 Alibaba

8 │ 8 │ —

DeGRe DeGRe: Dense-supervised Generative Reranking for Recommendation

提出 DeGRe:基于累积回归的前瞻评估器用 beam search 离线挖掘未曝光排列空间的高价值序列,再以混合蒸馏(硬标签+软标签+序列加权)把 step-wise 稠密监督灌入轻量在线生成器,离线-在线解耦下仅需一次贪心解码即可逼近全局最优,解决生成式重排的启发式标签偏差与信用分配两大问题,淘宝闪购线上 GMV +3.75%。

industrial transformer knowledge-distillation process-supervision

2026-05-25

判别式 Taboola

7 │ 7 │ —

rDCN Context Features Are Cheap: Rank-Aware Decomposition for Efficient Feature Interaction in Recommender Systems

提出 rank-aware 分解:利用上下文(rank-2,跨候选共享)与目标(rank-3,逐候选)特征的秩不对称,把上下文-only 计算从每候选一次降到每请求一次,对 FM/FC/DCNv2/attention 精确等价,Taboola 生产 DLRM 排序器单 pod 吞吐 +87.5%(p99 -33%);并提出贯穿全深度的架构变体 rDCN(省 67% FLOPs)。

feature-interaction industrial ad-rec

2026-05-24

判别式 Alibaba

8 │ 7 │ —

HeteGenCTR Self-Balancing Gradient Allocation for Heterogeneity-Aware Feature Generation in Click-Through Rate Prediction

提出 HeteGenCTR:用一组 per-field 可学难度标量(源自不确定性加权)同时驱动自平衡损失与难度引导注意力,纠正离散扩散生成式 CTR 预训练中易域主导梯度、难域(ID/序列)欠拟合的不均衡;五基准+7天线上A/B(+4.7% CTR,冷启动+9.2%)验证。

diffusion feature-interaction transformer cold-start ad-rec

2026-05-24

判别式 Alibaba

8 │ 8 │ —

UTTSI Selective Test-Time Compute Scaling for Click-Through Rate Prediction via Uncertainty-Triggered Feature Path Exploration

UTTSI 是首个免训练、模型无关的测试时计算扩展框架,用双信号(logit置信+频率先验attribution加权)估计 per-instance 不确定性并按比例分配 K(x) 条特征探索路径,把 LLM 的 test-time scaling 迁移到工业 CTR,7 天线上 A/B 取得 +5.3% CTR。

test-time-scaling feature-interaction ad-rec industrial

2026-05-24

判别式 Tencent

8 │ 7 │ —

RankElastor Expand More, Shrink Less: Shaping Effective-Rank Dynamics for Dense Scaling in Recommendation

从有效秩动力学视角诊断 RankMixer 的嵌入坍缩(token mixing 扩张、P-FFN 收缩的阻尼振荡轨迹),提出 RankElastor 用参数化全混合 + GLU 改进 P-FFN 实现'多扩张、少收缩',在 Criteo/Avazu 上 AUC 提升达 0.001 并展现更优稠密参数 scaling。

feature-interaction parameter-scaling transformer industrial

2026-05-22

判别式 Alibaba

8 │ 7 │ —

AKT-Rec From Head to Tail: Asymmetric Knowledge Transfer in Long-tail Recommendation with Generative Semantic IDs

阿里天猫提出 AKT-Rec,用高碰撞 RQ-VAE 把 LLM/MLLM 语义表示聚成语义簇,通过 stop-gradient 非对称 InfoNCE 实现头→尾单向知识迁移 + 活跃度双层门控,在不损头部精度下提升长尾 CTR,线上 GMV +3.47%。

semantic-id cold-start contrastive-ssl quantization pretrained-lm

2026-05-22

生成式 Netflix

8 │ 7 │ —

Towards Generalizable and Efficient Large-Scale Generative Recommenders

Netflix 把生成式推荐骨干从 2M 缩放到 1B,把模型规模降格为生产迁移问题里的一个变量:提出任务相关的 offset 幂律 scaling law 作为'哪些任务还有剩余空间'的诊断,并用采样 softmax+投影 d/8 解码头(降重训成本)、多 token 预测(对齐缓存服务的标签错配)、语义物品塔+协同 embedding 掩码(冷启动)把规模红利传导到下游;1M 用户一周生产 shadow 中 1B 全面优于 2M,冷启动 +28.1%。

transformer parameter-scaling cold-start industrial pretrained-lm

2026-05-22

生成式 Kuaishou

8 │ 8 │ —

RPORec Reinforced Preference Optimization for Reasoning-Augmented Recommendations

RPORec 用文本接口解耦「生成显式 CoT 的 LLM backbone」与「检索式推荐头 Rechead」：Stage I 冻结 backbone 训 Rechead，Stage II 冻结 Rechead 当稠密 verifiable 奖励 + CoT 质量奖励用 GRPO 精炼 backbone，同时规避隐状态扭曲推理与文本→item 语义鸿沟；3 个 Amazon 数据集超 SOTA，工业广告 A/B Revenue +1.348%。

rl pretrained-lm process-supervision ad-rec industrial

2026-05-21

判别式 Meta

8 │ 5 │ —

LLM Retrieval for Stable and Predictable Ad Recommendations

Meta 提出量化广告系统稳定性/可预测性的 A/A'(StatSigDiff)度量框架,并用微调 LLM 从广告创意抽取层级语义属性、构建 ad-to-ad 语义图做图遍历召回,在线上 A/B 中同时改善可预测性(A/A' -8.62%、MAD +45%)与传统性能(顶线 +0.45%、召回 +1.2%)。

ad-rec industrial pretrained-lm cold-start

2026-05-21

判别式 ByteDance

8 │ 8 │ —

FLUID FLUID: From Ephemeral IDs to Multimodal Semantic Codes for Industrial-Scale Livestreaming Recommendation

提出 FLUID,首个在生产级直播排序中彻底退役候选侧 item ID 的框架:用跨域多模态编码器(SigLIP2+Qwen3,联合短视频与直播训练)经 RQ-KMeans 生成离散分层语义码 LUCID(区分瞬态 slice 级与持久 room 级),通过 prefix n-gram embedding 后融合进排序器,并用 slice add-on→item ID phase-out→room add-on 三阶段 warmup 绕开 item ID 的捷径与优化非对称性;在十亿级直播平台线上取得 Quality Watch Duration +0.55%、Cold-Start Room Views +2.05% 等一致收益。

semantic-id cold-start quantization industrial pretrained-lm

2026-05-20

判别式 ByteDance

7 │ 8 │ —

PEARL PEARL: Unbiased Percentile Estimation via Contrastive Learning for Industrial-Scale Livestream Recommendation

PEARL 把工业直播 watch-time 预测重构为非参数的每用户分位数估计,证明'当前样本是否大于一个随机历史样本'的对比指示其期望即真分位(无偏 CDF 估计),并扩展出多样本降方差、价值加权、自举与回归协同训练;十亿级上线带来 +2.10% 观看时长,且对低活跃用户 UAUC 大幅提升。

industrial contrastive-ssl

2026-05-20

other 学术

7 │ 8 │ —

BlockQuant Block-Sphere Vector Quantization

BlockQuant 把 rotation-based 向量量化的码本从 coordinate-wise scalar 推广到 block-on-sphere——按球面均匀分布解析推导的精确块边缘分布做 K-means，在 MSE/IP 失真两个准则上严格优于 EDEN/RabitQ/TurboQuant，p=d 时达到本文修正后的 Shannon 下界；在 Llama-3.1-8B KV-cache 3.5-bit 量化下 LongBench-E 平均 44.03 接近 full cache 44.15。

quantization academic

2026-05-19

生成式学术

8 │ 8 │ —

VarLenRec Learning Variable-Length Tokenization for Generative Recommendation

VarLenRec 首次实证发现生成式推荐中的 Popularity-Length Paradox（热门 item 适合短 SID、长尾 item 需要长 SID），提出 PIBA 闭式定理 L*∝p^(-α/γ)、Hyperbolic Adaptive Residual Quantization、可微 Soft Length Controller 与下游碰撞/length-bias/hallucination 三件套，在 Amazon Beauty/Sports/Toys/Yelp 上一致超越 TIGER/LC-Rec/LETTER/ETEGRec，碰撞率从 12.7% 降至 3.2%，且训练/推理更快。

semantic-id quantization academic

2026-05-18

判别式 Kuaishou

8 │ 8 │ —

DADF DADF: A Distribution-Aware Debiasing Framework for Watch-Time Regression in Recommender Systems

DADF 是 Kuaishou 提出的二阶 watch-time 残差去偏框架，通过 group-specific Box–Cox 变换稳定长尾乘性校正因子、按 duration 分专家建模异质残差、并复用首阶段 engagement 头的 logits/tower 表征作为推理时信号，在 7 个 backbone 上一致提升 MAE/XAUC 并在 Kwai 线上获得 +0.347% 人均时长。

industrial moe

2026-05-18

生成式 Alibaba

9 │ 9 │ —

GrowthGR Towards Sustainable Growth: A Multi-Value-Aware Retrieval Framework for E-Commerce Search

GrowthGR 把新品冷启拆成 ItemLTV（counterfactual uplift 估计）+ MultiGR/MoPO（多价值 GRPO 变体 + CIW 抵消 popularity bias）的两阶段框架，在 Taobao 主搜索上线 2 月获得新品 GMV +5.39%、整体 GMV +0.31%、TI@30 +20.0% 的工业级长期增长收益。

semantic-id rl cold-start search-ranking industrial

2026-05-18

生成式 Huawei

7 │ 8 │ —

RAGR RAGR: Review-Augmented Generative Recommendation

RAGR 把生成式推荐的统一 RQ-VAE tokenizer 同时用在 user review 文本上得到 review SID，与 item SID 按时间交错构成行为-语义混合序列同时训练 next-item / next-review SID 生成，再用 DPO 把 next-item 设为 chosen、next-review 设为 rejected 维持 item-centric 任务边界，在 Amazon Beauty/Toys/Sports 上对 TIGER 和 LETTER 两个 backbone 均带来 7%-26% 的 HIT/NDCG 提升。

semantic-id transformer pretrained-lm rl academic

2026-05-17

生成式 Nokia

8 │ 8 │ —

SAPO SAPO: Step-Aligned Policy Optimization for Reasoning-Based Generative Recommendation

SAPO 把 reasoning-based 生成式推荐的 RL credit-assignment 单元从 rollout 下沉到「thinking block + 配对 SID token」这一 reasoning step，配套 per-step verifiable match reward、per-step group-relative advantage 与 step-normalized token aggregation，在三个 Amazon 类目上稳住稀疏 exact-match RL 训练并一致领先 NDCG。

rl semantic-id process-supervision pretrained-lm academic

2026-05-17

生成式学术

7 │ 8 │ —

Ghost Echoes in Filter Bubble: Diagnosing and Curing Popularity Bias in Generative Recommenders

Ghost 把生成式推荐流行度偏差归因于 MLE 下 tail token 的梯度饥饿与未差异化 tokenization 导致的多步几何 bias 放大，分别用 Skeleton-Founded Tokenization (head 训骨架、tail 继承前缀+加 tail-specific token) 和 Asymmetric Unlikelihood Optimization (对高文本相似度但 SID 分叉的 head 干扰集施加非对称 unlikelihood 损失) 治理，在 3 个 Amazon 数据集上 Tail HR/NDCG +63.91%/+70.66%、MGU -55.76%、CNS +16.81%。

semantic-id quantization pretrained-lm academic

2026-05-16

生成式 Tencent

7 │ 8 │ —

AsymRec Asymmetric Generative Recommendation via Multi-Expert Projection and Multi-Faceted Hierarchical Quantization

AsymRec 识别 GenRec 中对称 SID 表示导致的输入端 popularity-bias / 输出端 dimensional-collapse 双瓶颈，提出非对称连续-离散框架：MSP 用 MoE 投影直接消化连续 embedding 作为输入，MHQ 在 M 个正交子空间内做 EMA 残差量化提供高保真离散监督，在 4 个 Amazon 子集 NDCG@10 平均 +15.8%、广告 pCVR 在线 A/B +1.9% GMV。

semantic-id quantization moe industrial transformer

2026-05-14

生成式 Alibaba

— │ 8 │ —

CQ-SID Efficient Generative Retrieval for E-commerce Search with Semantic Cluster IDs and Expert-Guided RL

阿里 TmallAPP 把生成式检索定位为多级漏斗的召回补充而非端到端替代，提出 CQ-SID（类目约束 + Query-Item 对比的语义簇 SID）+ 4 阶段渐进 SFT + EG-GRPO（向 GRPO group 注入 K 条 ground-truth SID 缓解稀疏奖励坍塌），离线 hitrate 相对 RQ-VAE +26.76%、beam size -53.85%、线上 GMV +1.15%，单链路贡献全平台 72.63% 购买。

semantic-id rl contrastive-ssl pretrained-lm search-ranking

2026-05-14

生成式判别式 Meituan

8 │ 8 │ —

DIG Discrimination Is Generation: Unifying Ranking and Retrieval from a Tokenizer Perspective

DIG 把 RQ tokenizer 嵌入 DIN+DCNv2+MoE 判别式排序器内部，用 BCE ranking loss 端到端驱动 SID codebook 构造，通过 feature assignment taxonomy + MLP_u2t 蒸馏让同一模型既做排序又通过 beam search 做生成式检索，相对 SOTA SID baseline 在 5 数据集上取得 +52%~+220% R@10 gain 且同步改进排序 AUC。

semantic-id quantization feature-interaction knowledge-distillation industrial

2026-05-14

other Ant Group

7 │ 8 │ —

MaskTab MaskTab: Scalable Masked Tabular Pretraining with Scaling Laws and Distillation for Industrial Classification

MaskTab 是面向工业级表格分类的统一预训练框架：用专用 [MASK]/[MISS] token 编码'缺失即信号'，孪生双路混合监督同时学重建与分类避免 train-test mismatch，MoE 重建头实现高维特征自适应分组扩容，在 TabReD 8 任务平均排名 2.3、CreditRisk 上 +5.04% AUC 与 +8.28% KS，蒸馏到 500 可解释特征仍 +2.55%/+4.85% 且推理快 9.3×。

industrial transformer moe parameter-scaling knowledge-distillation

2026-05-12

生成式学术

7 │ 8 │ —

ComeIR Conditional Memory Enhanced Item Representation for Generative Recommendation

ComeIR 把 Engram 风格静态稀疏记忆外置到生成式推荐的表征构造接口，用 MM-guided token scoring 解决身份保持、dual-level intra/inter Engram 解决 SID 结构保持、Memory-restoring Prediction Head 在解码端复用同套记忆打通输入-输出粒度错配，在 Yelp/Industrial/Instrument 上 H@5 平均提升 8% 并实现 2.5× 推理加速。

semantic-id transformer quantization pretrained-lm sparse-attention

2026-05-12

生成式学术

— │ 8 │ —

TwiSTAR TwiSTAR: Think Fast, Think Slow, Then Act, Generative Recommendation with Adaptive Reasoning

TwiSTAR 提出一种 agentic 生成式推荐框架：训练一个 planner 自适应地为每条用户历史调用三种工具之一（fast SID 检索、ranking、slow CoT 推理），通过把 I2I 共现转写为自然语言注入协同常识、并仅在 hard 样本上 GRPO 训练 slow 模型，在 Amazon Beauty/Sports/Toys 上 NDCG@10 全面超过 OneRec-Think 且推理延迟比 uniform slow reasoning 降低 3.3x。

semantic-id pretrained-lm rl academic test-time-training

2026-05-12

LLM 学术

— │ 7 │ —

The Geometric Wall: Manifold Structure Predicts Layerwise Sparse Autoencoder Scaling Laws

用 pullback 信息几何把 SAE 重构误差的层级差异归因于激活流形的内禀维度与多尺度曲率：在 844 个 Gemma Scope checkpoints 上拟出几何条件 scaling law，在 2B↔9B 之间几何回归系数迁移 R²>0.92，识别 SAE 遭遇的不是有限算力天花板而是流形几何决定的几何墙。

pretrained-lm parameter-scaling academic

2026-05-11

other Xiaohongshu

— │ 8 │ —

CCD-Level and Load-Aware Thread Orchestration for In-Memory Vector ANNS on Multi-Core CPUs

针对 chiplet 时代多 CCD CPU 上向量 ANNS 加核不加吞吐的瓶颈，提出 hot-cold 均衡映射 + CCD 拓扑感知任务窃取 + 快照重映射的统一线程编排框架，在 RedNote 生产环境 HNSW/IVF 服务上取得 1.4–3.7× 吞吐和 30–90% P50/P999 延迟改善。

industrial

2026-05-11

生成式 Baidu

8 │ 8 │ —

LASAR LASAR: Latent Adaptive Semantic Aligned Reasoning for Generative Recommendation

把 Coconut 风格递归 hidden-state feedback latent reasoning 首次完整移植到主流 decoder-only 生成式推荐：两阶段解耦（先 SID alignment 再 latent loop）+ 每步 bidirectional KL 对齐到 explicit CoT 段 + Policy Head + REINFORCE 做样本级自适应推理步数，在 Amazon 三数据集上几乎全 SOTA，比生成显式 CoT 快约 20×。

pretrained-lm rl semantic-id recursive-depth process-supervision

2026-05-11

LLM 学术

— │ 7 │ —

Language Models Without a Trainable Input Embedding Table: Learning from Fixed Minimal Binary Token Codes

用 K=⌈log₂V⌉ 比特的固定二元 token 码 + 零参数 tile lift 替换 67.1M 的可训练输入嵌入表，在 32 层 17B tokens 训练下 PPL 不退化 (2.36 vs 2.44，差距在 4.8% seed 区间内)，构造性地证明 LLM 输入侧的 trainable embedding table 不是架构必要项。

transformer academic

2026-05-10

LLM 学术

8 │ 9 │ —

Practical Scaling Laws: Converting Compute into Performance in a Data-Constrained World

提出 8 参数闭合形式扩展 L(N,D,T)=E+(L₀−E)h/(1+h)，把 loss 分解为 undercapacity、undertraining、overfitting 三项并用饱和包装器限定在 [E, L₀]；跨 4 个架构域和 5 个公开 LLM grid 取得 SOTA 外推，并给出 data-vs-compute 价格比驱动的 closed-form 成本最优分配。

parameter-scaling transformer academic

2026-05-09

判别式 Kuaishou

8 │ 9 │ —

UxSID UxSID: Semantic-Aware User Interests Modeling for Ultra-Long Sequence

UxSID 提出 ULSM 的第三条范式：用 target SID 作为语义路由键，按 (UID, SID) 索引离线压缩用户兴趣 memory，online O(1) 拉取，在快手 4 亿用户广告平台一周 A/B 实现 +0.337% Revenue 且仅增加 +0.16 ms 延迟。

semantic-id industrial ad-rec quantization sparse-attention

2026-05-09

生成式 Tencent

7 │ 8 │ —

NewsRec-Chat Intent-Driven Semantic ID Generation for Grounded Conversational News Recommendation

腾讯 NewsRec-Chat 用 Generate-then-Match 范式将对话式新闻推荐从 retrieve-first 转为 LLM 直接生成 3 层 SID prefix + fuzzy match，结合 PADR 自适应 warm/hybrid/cold 推理路径，7B 模型在 152K SID 空间架构级保证 0% 幻觉，冷启动 L1 18.0% 反超 warm 11.9%。

semantic-id cold-start pretrained-lm knowledge-distillation industrial

2026-05-08

生成式学术

7 │ 8 │ —

TGH An Embarrassingly Simple Graph Heuristic Reveals Shortcut-Solvable Benchmarks for Sequential Recommendation

用故意设计极简的免训练图启发式 TGH 审计 87% 生成式推荐论文使用的 Amazon Review benchmark，揭示三种数据集 shortcut 结构（低分叉局部转移 / 特征平滑 / 短历史足够），TGH 在 14 个数据集中 10 个 best/second-best，呼吁 capability-aware evaluation。

industrial pretrained-lm

2026-05-08

生成式 Snapchat

8 │ 8 │ —

Latte Expressiveness Limits of Autoregressive Semantic ID Generation in Generative Recommendation

Latte 把目标 SID 前预置一个随机 latent token，把单棵 SID 解码树展开成森林，松弛由 tree-distance 强加的概率耦合，从而打破 GR 在 rank-reversal 与 forced-transitivity 两类基本场景上的表达力极限，在 Amazon Reviews 三类目带来 NDCG@10 +3.45% 的相对提升。

semantic-id transformer academic

2026-05-07

生成式 Tencent

— │ 8 │ —

UniVA Unified Value Alignment for Generative Recommendation in Industrial Advertising

UniVA 在腾讯微信视频号广告平台上提出统一价值对齐的生成式推荐框架，通过 Commercial SID 分词器、Generation-as-Ranking 双头解码器和 eCPM-aware 强化学习实现 SID 构造、解码和服务三层的商业价值对齐，离线 HR@100 提升 37.04%，线上 GMV +1.50%。

transformer moe pretrained-lm rl recursive-depth

2026-05-07

LLM 学术

7 │ 7 │ —

AIR-MoE Adaptive Inverted-Index Routing for Granular Mixtures-of-Experts

AIR-MoE 把 IVF 倒排索引思想搬进端到端可训练的 MoE 路由:用 gradient-free 自适应球面 k-means 学一个 codebook 做 coarse shortlisting,再在短名单内做精确 top-K 打分,在 65k experts 设定下持续优于 PEER/Hierarchical 基线,PPL 改善最高 10% 而无需对专家中心施加结构约束。

moe transformer quantization academic

2026-05-06

生成式学术

7 │ 7 │ —

BLADE Beyond Static Best-of-N: Bayesian List-wise Alignment for LLM-based Recommendation

把 LLM4Rec 的 BoN alignment 中静态参考导致的 high-reward CDF 饱和与梯度衰减形式化为两大瓶颈, 用 Beta-Binomial 共轭闭式融合 static prior 与 dynamic batch evidence 构造自演化 quantile 目标, 与 GRPO 共享 sampling 实现 zero-overhead, 在 3 个数据集 8 个 baseline 一致领先并可推广到 fairness/diversity 复合目标.

pretrained-lm rl academic

2026-05-06

生成式 Alibaba

7 │ 6 │ —

RecGPT-Mobile RecGPT-Mobile: On-Device Large Language Models for User Intent Understanding in Taobao Feed Recommendation

RecGPT-Mobile 把 LLM 下沉到 Mobile Taobao 客户端做 next-query 意图预测：用 LoRA+Quant 把 Qwen3-0.6B 压到端侧，4 阶段自适应 prompt 构建严守 token 预算，熵+Jaccard+JS 三信号意图漂移触发把推理频率降到 21%、电量降到 40%，4 场景一个月 A/B 平均 +1.8% CLICK / +2.7% PAY / +2.5% GMV。

pretrained-lm quantization industrial search-ranking

2026-05-06

other Alibaba

8 │ 8 │ —

HLEM One Pool, Two Caches: Adaptive HBM Partitioning for Accelerating Generative Recommender Serving

HLEM 把 GR serving 中 EMB cache 与 KV cache 争抢同一块 HBM 的零和问题建模为 MDP,用 PPO+OnlineAdapter+RecoveryController 三层控制器以 32μs 决策开销追踪在线最优分配,配 paged KV pool/contiguous EMB slab 实现非干扰式调整和 EMB-KV-aware 路由,在 32 节点 A100 集群上比最强静态基线降低 P99 24-38%,达成 93.5-99.6% SLO 满足率

industrial transformer rl

2026-05-06

生成式学术

8 │ 9 │ —

CapsID CapsID: Soft-Routed Variable-Length Semantic IDs for Generative Recommendation

CapsID 用 capsule 软路由替代 RQ-VAE 的硬 argmax 分配，配合置信驱动变长 SID 与语义 + 频率双门控的 SemanticBPE 子词合并，在 3 个 Amazon 数据集上相对最强 single-rep baseline R@10 提升 8.9–11.0%，并在 35M item 工业目录上以 51% 的 COBRA 推理延迟追平或超越其指标。

semantic-id quantization transformer industrial

2026-05-06

other 学术

7 │ 7 │ —

ReClaim Foundation Models to Unlock Real-World Evidence from Nationwide Medical Claims

Yale 团队在 MarketScan 200M 入组人 43.8B 理赔事件上从零训练 1.7B Qwen3 风格 healthcare foundation model ReClaim，1208 病发生预测平均 AUC 75.57% 显著超越 LightGBM 和 Delphi，instruct token post-training 用 100K 样本带来 +13.76pp 单步跃升，并将 foundation model embedding 引入倾向得分使 RWE 因果推断 EASE 偏差降低 72%。

transformer parameter-scaling academic

2026-05-04

LLM ByteDance

8 │ 9 │ —

InfoLaw: Information Scaling Laws for Large Language Models with Quality-Weighted Mixture Data and Repetition

InfoLaw 把 LLM 训练重新刻画为信息累积过程，引入 quality density f_d=e^{-θd} 与 log(K) 归一化的指数衰减 1-e^{-λ(N)R/log(K)}，把不同 mixture × scale × repetition 的 loss 坍缩到一条 L=α·info^{-β} 的统一幂律；从 252M-1.2B + 3 mixture 拟合，外推到 7B + 425B token mean error 0.15%/max 0.96%，并能在 100k 候选中选出 prescriptive 最优 recipe（小模型偏 quality、大模型偏 diversity）。

transformer parameter-scaling industrial

2026-05-04

判别式 Tencent

7 │ 7 │ —

FEDIN FEDIN: Frequency-Enhanced Deep Interest Network for Click-Through Rate Prediction

FEDIN 通过实证发现用户兴趣谱在目标物品条件下呈现低熵集中模式，提出 target-aware 复值 MLP 频谱滤波 + 双分支（时域 patch Transformer + 频域）+ Top-k Target Attention 融合，在三个公开 CTR 数据集上一致超越 DIN/DIEN/SASRec/DIFF 等基线。

transformer sparse-attention academic

2026-05-03

LLM Meta

8 │ 8 │ —

Compute Optimal Tokenization

本文用 988 个 BLT + 320 个 subword 模型系统研究 tokenizer 压缩率对 scaling law 的影响，把 Chinchilla 的 '20 token/param' 推广为 '~60 byte/param 跨 tokenizer 不变'，并发现最优压缩率随 compute budget 下降、随语言 parity 上升。

parameter-scaling transformer academic

2026-05-02

LLM 学术

8 │ 8 │ —

Prescriptive Scaling Laws for Data Constrained Training

在 Chinchilla scaling law 上加一个简单的加性过拟合惩罚项 P·R_D^δ·(N/U_D)^κ，1 个自由参数即让 multi-epoch R² 从 0.58 跃至 0.95，给出 'compute 超过阈值后扩大模型而非加 epoch' 的反直觉但实测最优的分配建议，并把过拟合代价孤立为单一系数 P 解释 strong weight decay 在数据受限场景下削减 P 70% 的现象。

transformer parameter-scaling academic

2026-05-02

生成式学术

7 │ 7 │ —

PAD-Rec Position-Aware Drafting for Inference Acceleration in LLM-Based Generative List-Wise Recommendation

PAD-Rec 通过在 speculative decoding 草稿模型中注入 within-item slot 与 draft-step 位置嵌入并加门控融合，针对生成式推荐的 SID 结构与多步不确定性进行结构感知加速，在四个公开数据集上取得最高 3.1× wall-clock 加速且基本不损失推荐质量。

semantic-id transformer pretrained-lm knowledge-distillation academic

2026-04-30

生成式学术

7 │ 7 │ —

CARD CARD: Non-Uniform Quantization of Visual Semantic Unit for Generative Recommendation

CARD 通过把文本/视觉/协同信号渲染为统一卡牌图像并由 SigLIP2 编码、再用可学习可逆的非均匀变换（Kumaraswamy CDF 或 scaled logistic）在残差量化前将 latent 矫正到近似均匀空间，同时解决生成式推荐中 SID 异质融合监督不足与 codebook 利用不均两大瓶颈。

semantic-id quantization transformer academic

2026-04-29

LLM Naver

7 │ 7 │ —

RRK Efficient Listwise Reranking with Compressed Document Representations

RRK 把 PISCO 风格的多 token soft compression 引入 listwise reranking，每文档压缩为 8 个 memory token 后由 LoRA 微调的 8B Qwen2.5 reranker 单次前向 + 余弦打分，蒸馏 jina-v3 教师；BEIR 上比 0.6–4B reranker 快 3×–18×，长文档场景效率优势放大到 10×–58×。

pretrained-lm search-ranking knowledge-distillation academic

2026-04-29

生成式 Meituan

7 │ 7 │ —

FLR Factorized Latent Reasoning for LLM-based Recommendation

FLR 把 LLM 推荐里的 latent reasoning 从单一向量分解为 K 个互相解耦的偏好因子，配合多因子注意力+正交/多样/稀疏正则与重新设计的 GRPO（噪声扰动探索+token confidence/exact match 混合奖励+L2 归一 advantage），在 Amazon 四子集上稳定优于 LatentR³。

pretrained-lm rl transformer academic

2026-04-29

other Apple

7 │ 7 │ —

Scaling Properties of Continuous Diffusion Spoken Language Models

Apple 首次给出连续扩散语音语言模型(CD SLM)的完整 scaling law,提出 pJSD 评估扩散模型的语言性,通过 fused two-stage 拟合分析 isoFLOP 曲率与下游指标,并将模型 scale 到 16B 参数

diffusion transformer parameter-scaling

2026-04-27

LLM Kuaishou

9 │ 9 │ —

KSA Kwai Summary Attention Technical Report

Kuaishou 提出 Kwai Summary Attention（KSA），通过在序列中插入可学习 summary token 实现 O(n/k) 语义级 KV cache 压缩，与 GQA/MLA 完全正交可叠加 8× 进一步压缩，在 RULER-128K 上 hybrid-KSA 比 Hybrid-GDN 高 +5.48 分（from-scratch）/+3.69 分（CPT）

transformer sparse-attention knowledge-distillation pretrained-lm industrial

2026-04-27

判别式学术

7 │ 7 │ —

SUIN Similar Users-Augmented Interest Network

SUIN 把 RAG 思想引入 CTR：为目标用户检索 top-k 相似用户的整段行为序列做拼接增强,通过 UTPE 三性质位置编码与 UTA 双相关性目标注意力同时建模 item-item 和 user-user 信号,在 4 个公开数据集稳定击败短/长序列 baselines。

transformer academic

2026-04-26

生成式 Kuaishou

9 │ 8 │ —

AdaSID Beyond Static Collision Handling: Adaptive Semantic ID Learning for Multimodal Recommendation at Industrial Scale

AdaSID 把 SID 碰撞处理从'固定治疗'升级为'两阶段自适应过程'：语义自适应豁免良性重叠、负载与训练进度自适应分配剩余压力，在 Amazon Toys/Beauty 全部指标超越 QuaSID 等强 baseline，并在快手电商 A/B 实测取得 GMV +0.98%、Orders +0.91%、GPM +1.16% 的业务收益。

semantic-id quantization contrastive-ssl industrial

2026-04-26

生成式 Meituan

7 │ 8 │ —

Pro-GEO Birds of a Feather Cluster Nearby: a Proximity-Aware Geo-Codebook for Local Service Recommendation

Pro-GEO 把 RoPE 从序列位置外推到空间域，通过 geo-centroid 局部坐标系 + 双向 Geo-RoPE 把地理邻近性以正交旋转的方式嵌入 SID 第三层码本，在 Meituan 量级本地服务数据上把平均聚类距离降低 45.6% 同时 Hit@50 提升 1.87%。

semantic-id industrial pretrained-lm transformer

2026-04-25

other 学术

7 │ 7 │ —

PAMT A Parametric Memory Head for Continual Generative Retrieval

提出 PAMT，先正常微调 GenIR 主干，再冻结主干并通过一个 product-key 参数化记忆头做稀疏 value-only 校准，在 MS MARCO 与 NQ 上将持续 GenIR 的 BWT± 拉到与索引型检索器同量级。

transformer pretrained-lm semantic-id search-ranking academic

2026-04-25

LLM Alibaba

7 │ 8 │ —

ResRank ResRank: Unifying Retrieval and Listwise Reranking via End-to-End Joint Training with Residual Passage Compression

ResRank 用 Encoder-LLM 把每段压成单 embedding 直接喂给 Reranker-LLM,配合残差连接和余弦相似度打分消除生成瓶颈,通过 dual-stage multi-task 端到端联合训练统一检索与列表式重排,在 BEIR/TREC DL 上以零生成 token 接近 GPT-4 效果

pretrained-lm search-ranking contrastive-ssl industrial

2026-04-24

生成式 Meta

— │ 8 │ —

TAWin Objective Shaping with Hard Negatives: Windowed Partial AUC Optimization for RL-based LLM Recommenders

形式化证明 GRPO+二值奖励=AUC、+beam-search=OPAUC，提出 WPAUC 与 Recall@K 的精确双边界以及可微 soft 窗口重加权方法 TAWin，在四个公开数据集上跨 backbone/optimizer/encoding 一致 SOTA

rl pretrained-lm academic

2026-04-24

生成式 Huawei

8 │ 8 │ —

ReCast ReCast: Recasting Learning Signals for Reinforcement Learning in Generative Recommendation

提出 ReCast——一个 repair-then-contrast 的 within-group 信号设计：先用 ground-truth-derived anchor 修复 all-zero group 恢复可学性，再以 hardest 正负对边界对比更新替代全组 reward 归一化，把生成式推荐 RL 的瓶颈从「奖励稀疏」推前到「group 可学性退化」

rl contrastive-ssl pretrained-lm industrial

2026-04-24

判别式 Alibaba

8 │ 8 │ —

LoopCTR LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction

提出 LoopCTR，将共享层递归复用作为正交的第四种 scaling 维度引入 CTR 预估，配合 Hyper-Connected Residuals、MoE 与多深度 process supervision，实现 train-multi-loop / infer-zero-loop——单次前向（甚至完全跳过 Loop Block）即超过所有 Transformer baseline。

transformer moe recursive-depth process-supervision industrial

2026-04-21

判别式学术

7 │ 7 │ —

CAST CAST: Modeling Semantic-Level Transitions for Complementary-Aware Sequential Recommendation

提出 CAST 框架，通过 LLM 验证的互补关系先验 + 可学习的子空间语义转移张量，在离散语义码空间直接建模细粒度 code-level 转移，在三个 Amazon 数据集上 Recall/NDCG 最高提升 17.66%，相对最强 baseline 训练加速 65x。

transformer semantic-id pretrained-lm academic

2026-04-21

判别式 Kuaishou

8 │ 8 │ —

CS3 CS3: Efficient Online Capability Synergy for Two-Tower Recommendation

提出 CS3 即插即用三模块框架（CAS 循环自适应结构、CTS 跨塔同步、CMS 级联模型共享），在在线学习约束下增强双塔召回，Kuaishou 广告系统三场景一致增益，Scenario A 广告收入 +8.36%

ad-rec industrial recursive-depth knowledge-distillation

2026-04-21

判别式 Tencent

9 │ 8 │ —

RankUp RankUp: Towards High-rank Representations for Large Scale Advertising Recommender Systems

RankUp 通过随机置换分片、多嵌入表、全局 token、跨域嵌入融合与任务专属 token 五个机制提升工业排序器的 Effective Rank，在微信三大广告场景 100% 部署并带来 3.41–4.81% GMV 提升。

industrial ad-rec transformer parameter-scaling

2026-04-20

生成式 Kuaishou

7 │ 7 │ —

On the Equivalence Between Auto-Regressive Next Token Prediction and Full-Item-Vocabulary Maximum Likelihood Estimation in Generative Recommendation--A Short Note

形式化证明 k-token AR-NTP 在 bijective 分词下严格等价于全词表 MLE，首次给出工业 GR 范式的严格理论基础，并推广到级联与并行两种分词。

semantic-id industrial transformer

2026-04-17

判别式 Meituan

9 │ 8 │ 6

SIF Sample Is Feature: Beyond Item-Level, Toward Sample-Level Tokens for Unified Large Recommender Models

通过离线 HGAQ 把每条历史交互的完整 Raw Sample 压缩为紧凑 Token Sample，再用 token-level+sample-level 分解注意力的 SIF-Mixer 建模跨时序交互，把工业排序模型的序列 token 从 item-level 升级到 sample-level。

ad-rec quantization transformer feature-interaction industrial

2026-04-17

生成式 JD

9 │ 8 │ 7

GenRec GenRec: A Preference-Oriented Generative Framework for Large-Scale Recommendation

JD.com 推出的偏好对齐生成式推荐框架，以 Page-wise NTP 解决分页场景的标签歧义，Token Merger 将 SID prompt 压缩 2× 不损精度，GRPO-SR 用 hybrid rewards 抑制 reward hacking，JD App 首页 feed 全量上线后点击数 +9.5%、成交数 +8.7%。

industrial semantic-id rl pretrained-lm transformer

2026-04-16

other Naver

— │ 8 │ —

AuthGR From Relevance to Authority: Authority-aware Generative Retrieval in Web Search Engines

首个将文档权威性融入生成式检索的框架AuthGR，通过VLM多模态评分和CPT-SFT-GRPO三阶段训练，3B模型匹配14B性能并在Naver搜索A/B测试中提升20%+用户参与度

pretrained-lm rl process-supervision industrial transformer

2026-04-15

判别式 Tencent

9 │ 8 │ 8

TokenFormer TokenFormer: Unify the Multi-Field and Sequential Recommendation Worlds

提出 TokenFormer 统一推荐架构，通过 BFTS 注意力分层和 NLIR 非线性门控解决多域特征与序列统一建模中的 Sequential Collapse Propagation 问题

transformer feature-interaction industrial ad-rec

2026-04-15

判别式 ByteDance

9 │ 8 │ —

IAT IAT: Instance-As-Token Compression for Historical User Sequence Modeling in Industrial Recommender Systems

提出 Instance-As-Token 两阶段框架，将用户历史训练样本压缩为紧凑嵌入作为序列 token，突破手工序列特征的信息瓶颈，在字节跳动多个广告场景获得显著线上收益

industrial ad-rec transformer parameter-scaling

2026-04-10

LLM 学术

— │ 8 │ —

ReRec ReRec: Reasoning-Augmented LLM-based Recommendation Assistant via Reinforcement Fine-tuning

ReRec 以双图奖励塑形、段落级推理感知优势估计与在线课程调度，把 RFT 推进到复杂查询驱动的 LLM 推荐助手场景，在 RecBench+ 全面刷新 RFT baseline 并保持通用推理/指令/世界知识能力。

rl process-supervision pretrained-lm academic

2026-04-09

判别式 Zalando

— │ 7 │ —

LTE Long-Term Embeddings for Balanced Personalization

提出固定语义基底的长期嵌入 LTE，用加滞后窗口的 CLIP 内容向量加权平均作为 prefix token 注入 SASRec 排序器，Zalando 25 市场在线 A/B 获 engagement +0.61% / revenue +0.42% 显著提升，并用不对称自编码器在保持高惯性的前提下行为微调。

transformer industrial ad-rec pretrained-lm

2026-04-09

判别式 Alibaba

— │ 8 │ —

SSR Beyond Dense Connectivity: Explicit Sparsity for Scalable Recommendation

SSR 通过显式稀疏过滤 + 多视角稠密融合打破稠密 CTR 骨干的 scaling 饱和瓶颈，在 AliExpress 亿级工业场景线上 A/B 取得 CTR +2.1%、GMV +3.5%。

ad-rec industrial feature-interaction parameter-scaling

2026-04-09

LLM ByteDance

8 │ 8 │ —

In-Place TTT In-Place Test-Time Training

提出 In-Place TTT 框架，将 MLP block 的 W_down 作为 fast weights 原地更新，配合 NTP 对齐的目标函数和 chunk-wise 更新，实现预训练 LLM 的 drop-in 长上下文增强

transformer pretrained-lm industrial parameter-scaling test-time-training

2026-04-08

判别式学术

7 │ 7 │ —

Pay Attention to Sequence Split: Uncovering the Impacts of Sub-Sequence Splitting

系统性审计研究揭示 Sub-Sequence Splitting（SSS）在 2022-2026 年 17 篇 SR 论文中大量未披露地启用，导致新模型提升被错误归因于架构创新；移除 SSS 后 8/10 的 SOTA 模型回退 40% 并输给 2018 年的 SASRec；提供 Single-target+CE+Prefix/Suffix 作为 SR 评测的推荐配置。

academic transformer

2026-04-07

生成式学术

7 │ 7 │ —

LGCD From Clues to Generation: Language-Guided Conditional Diffusion for Cross-Domain Recommendation

LGCD 用 LLM 为单域用户生成目标域的 pseudo-overlapping 交互，再通过 cross-attention 条件扩散模型 + MoE 融合从源域生成目标域用户偏好表征，解决 inter-domain 跨域推荐中 overlapping users 稀缺的冷启动问题。

diffusion pretrained-lm cold-start transformer academic

2026-04-07

生成式 Meituan

8 │ 8 │ —

NSGR Next-Scale Generative Reranking: A Tree-based Generative Rerank Method at Meituan

NSGR 提出 tree-based 的 next-scale 生成式重排框架，用 log2(m) 步粗到细二分替代逐位自回归或一次性生成，并通过 Multi-Scale Evaluator 与 Multi-Scale Neighbor Loss 解决生成器-评估器目标错位，在美团食品配送线上 A/B 取得 CTR +2.89% / GMV +3.15% 的提升。

industrial transformer semantic-id process-supervision

2026-04-07

生成式 Alibaba

8 │ 8 │ —

STAMP STAMP: Semantic Trimming and Auxiliary Multi-step Prediction for Generative Recommendation

针对 Semantic ID 生成式推荐的训练加速框架：SAP 依据语义显著性与注意力中心性在 Transformer 中层剪枝冗余 token，MAP 通过多步前瞻预测增稠监督信号，在 T5 与 Qwen 双架构上实现 1.23-1.38x 加速与 17-55% VRAM 节省，同时保持甚至提升推荐精度。

semantic-id transformer pretrained-lm industrial process-supervision

2026-04-07

生成式学术

7 │ 7 │ —

FAVE FAVE: Flow-based Average Velocity Establishment for Sequential Recommendation

FAVE 通过 semantic anchor prior 与 average velocity + JVP 曲率约束，将生成式序列推荐压缩为单步 flow，在三个基准上同时实现精度提升与一个数量级的推理加速。

diffusion academic transformer knowledge-distillation

2026-04-06

生成式 Walmart

7 │ 7 │ —

CRAB CRAB: Codebook Rebalancing for Bias Mitigation in Generative Recommendation

CRAB 通过正则化 K-means 拆分过热门 token 并配合层次语义对齐正则器，在不损失精度的前提下显著降低生成式推荐的流行度偏差。

semantic-id industrial pretrained-lm academic

2026-04-06

判别式 Google

7 │ 6 │ —

RAR_GPT Retrieval Augmented Conversational Recommendation with Reinforcement Learning

提出RAR框架，通过两阶段检索增强（retriever + LLM generator）和在线强化学习偏好优化，对齐检索与生成阶段，在多个对话推荐基准上超越SOTA

rl pretrained-lm academic cold-start

2026-04-06

生成式 Snapchat

7 │ 7 │ —

Semantic IDs for Recommender Systems at Snapchat: Use Cases, Technical Challenges, and Design Choices

Snapchat 大规模部署 Semantic IDs 作为推荐系统的辅助特征和生成式检索目标，提出 STE 优化和多模态 embedding 融合解决 codebook collapse，并通过 intra-bucket 消歧和 depth-优先策略解决 SID-to-Item 解析问题

semantic-id quantization industrial ad-rec

2026-04-05

other Baidu

7 │ 6 │ —

DebiasFirst LLM-based Listwise Reranking under the Effect of Positional Bias

提出DebiasFirst方法，通过逆倾向评分的位置校准和位置感知数据增强，在微调阶段缓解LLM列表式重排序中的位置偏差

search-ranking pretrained-lm academic

2026-04-04

生成式 Tencent

8 │ 7 │ 5

TencentGR Tencent Advertising Algorithm Challenge 2025: All-Modality Generative Recommendation

腾讯广告算法大赛 2025 发布 TencentGR-1M/10M 两个工业级全模态生成式推荐 benchmark：百万到千万级真实脱敏广告用户序列，同时包含曝光/点击/转化信号与多模态 embedding，提供 baseline Transformer 与加权 HitRate/NDCG 评估协议。

ad-rec industrial transformer pretrained-lm

2026-04-04

生成式 Meituan

7 │ 7 │ —

MBGR MBGR: Multi-Business Prediction for Generative Recommendation at Meituan

提出首个面向多业务场景的生成式推荐框架MBGR，通过BID、MBP和LDR三个模块解决跨业务跷跷板效应和表征混淆问题，在美团线上CTCVR提升3.98%

ad-rec industrial moe semantic-id transformer

2026-04-03

生成式 LinkedIn

8 │ 7 │ —

GTI Grounded Token Initialization for New Vocabulary in LMs for Generative Recommendation

揭示均值初始化导致新词汇token坍缩至退化子空间，提出GTI在微调前通过语言监督grounding新token，在工业级和公开生成式推荐基准上一致优于均值初始化和LC-Rec

semantic-id pretrained-lm ad-rec industrial

2026-04-02

判别式 Kuaishou

8 │ 7 │ —

UniMixer UniMixer: A Unified Architecture for Scaling Laws in Recommendation Systems

提出UniMixer统一架构，通过参数化TokenMixer建立attention、TokenMixer和FM三大推荐Scaling模块的理论联系，并设计轻量UniMixing-Lite模块实现最优Scaling效率

transformer feature-interaction parameter-scaling ad-rec industrial

2026-04-01

生成式 Microsoft

7 │ 7 │ —

DACT Drift-Aware Continual Tokenization for Generative Recommendation

提出 DACT 框架，通过协同漂移识别模块和分层编码重分配策略，在生成式推荐持续学习中平衡 tokenizer 的可塑性与稳定性

semantic-id transformer pretrained-lm contrastive-ssl cold-start

2026-03-31

判别式 Google

6 │ 6 │ —

Zero-shot CDKD Zero-shot Cross-domain Knowledge Distillation: A Case study on YouTube Music

提出零样本跨域知识蒸馏（CDKD）方法，将大规模 YouTube 视频推荐教师模型的知识迁移至低流量的 YouTube Music 学生模型，无需共享训练数据即可显著提升音乐推荐性能

knowledge-distillation cold-start industrial ad-rec

2026-03-30

生成式 Kuaishou

9 │ 9 │ —

OneSearch-V2 OneSearch-V2: The Latent Reasoning Enhanced Self-distillation Generative Search Framework

在 OneSearch 基础上提出思维增强查询理解、推理内化自蒸馏和 TPMA-GRPO 偏好对齐，在快手商城搜索实现 Item CTR +3.98%、订单量 +2.11%，无需额外推理开销

semantic-id knowledge-distillation rl industrial search-ranking

2026-03-25

other 学术

7 │ 7 │ —

SumRank SumRank: Aligning Summarization Models for Long-Document Listwise Reranking

提出 SumRank，通过三阶段训练将轻量摘要模型与下游列表式重排序目标对齐，在 TREC DL 19-23 上实现 SOTA 排序性能并大幅降低延迟

search-ranking pretrained-lm rl academic

2026-03-25

判别式学术

6 │ 6 │ —

SELLER Sequence-aware Large Language Models for Explainable Recommendation

提出 SELLER 框架，通过双路径序列编码器和 MoE 适配器将用户行为序列信息注入 LLM 以生成序列感知的个性化推荐解释，并设计基于解释增强推荐器的统一评估框架来衡量解释的实际效用

academic transformer moe pretrained-lm

2026-03-25

判别式 Alibaba

8 │ 8 │ —

HHSFT UniScale: Synergistic Entire Space Data and Model Scaling for Search Ranking

提出数据与模型架构协同缩放框架UniScale，通过ES3全空间采样系统扩展高质量训练信号，并设计HHSFT异构层次化融合Transformer有效建模复杂异构分布，在淘宝搜索排序中实现GMV 2.04%提升。

search-ranking transformer moe feature-interaction industrial

2026-03-25

生成式 Google

8 │ 7 │ —

GEM-Rec One Model, Two Markets: Bid-Aware Generative Recommendation

提出 GEM-Rec 框架，通过控制 token 和竞价感知解码机制，将广告变现目标统一集成到基于 Semantic ID 的生成式推荐序列中

ad-rec semantic-id transformer academic

2026-03-23

判别式学术

8 │ 7 │ —

AgenticRec AgenticRec: End-to-End Tool-Integrated Policy Optimization for Ranking-Oriented Recommender Agents

提出AgenticRec框架，通过List-wise GRPO和渐进式偏好精炼两阶段训练，端到端优化推荐智能体的推理、工具调用和排序列表生成的完整决策轨迹

ad-rec rl pretrained-lm academic

2026-03-23

生成式学术

7 │ 7 │ —

GenRecEdit Bringing Model Editing to Generative Recommendation in Cold-Start Scenarios

提出GenRecEdit框架，首次将模型编辑技术应用于生成式推荐的冷启动问题，在仅需9.5%重训练时间下显著提升冷启动物品推荐性能

cold-start semantic-id transformer academic

2026-03-15

生成式 Kuaishou

7 │ 7 │ —

RecoGEM Quantized Inference for OneRec-V2

通过分布分析证明 OneRec-V2 的权重和激活统计特性接近 LLM，据此设计 FP8 后训练量化框架并集成推理基础设施优化，在生产环境实现 49% 延迟降低和 92% 吞吐提升，线上 A/B 测试无指标退化

quantization moe industrial transformer ad-rec

2026-03-12

生成式 LinkedIn

8 │ 7 │ —

AttnMVP Beyond Interleaving: Causal Attention Reformulations for Generative Recommender Systems

揭示生成式推荐中交错 item-action token 的注意力机制本质是基于相似度的隐式 pooling，提出 AttnLFA 和 AttnMVP 两种因果注意力架构显式编码 item->action 因果关系，消除交错带来的注意力噪声和计算冗余

transformer ad-rec industrial feature-interaction

2026-03-11

LLM 学术

— │ 8 │ —

How Far Can Unsupervised RLVR Scale LLM Training?

系统证明所有 intrinsic URLVR 奖励本质都在锐化模型先验、必然 rise-then-fall 崩溃，提出 Model Collapse Step 指标并论证 external reward 才能突破置信度-正确性天花板。

rl academic parameter-scaling pretrained-lm

2026-03-09

生成式学术

8 │ 7 │ —

MLLMRec-R1 MLLMRec-R1: Incentivizing Reasoning Capability in Large Language Models for Multimodal Sequential Recommendation

提出 MLLMRec-R1，通过文本化视觉信号、高质量多模态 CoT 构建和混合粒度数据增强，实现首个面向多模态序列推荐的高效稳定 GRPO 训练框架

pretrained-lm rl process-supervision academic

2026-03-06

生成式判别式 Tencent

9 │ 8 │ —

OneRanker OneRanker

提出 OneRanker，通过价值感知多任务解耦、粗细协同目标感知和双侧一致性保障，实现生成与排序的架构级深度融合，在微信视频号广告系统全量上线

ad-rec industrial transformer semantic-id knowledge-distillation

2026-03-03

生成式学术

7 │ 7 │ —

APAO APAO: Adaptive Prefix-Aware Optimization for Generative Recommendation

提出自适应前缀感知优化框架 APAO，通过引入前缀级别的优化目标和自适应最差前缀加权策略，解决生成式推荐中 beam search 解码带来的训练-推理不一致性问题

academic transformer semantic-id pretrained-lm

2026-03-03

判别式 Xiaohongshu

7 │ 7 │ —

IDProxy IDProxy: Cold-Start CTR Prediction for Ads and Recommendation at Xiaohongshu with Multimodal LLMs

提出 IDProxy，利用多模态大语言模型为冷启动物品生成代理 ID embedding，通过两阶段粗到细对齐机制无缝集成到现有 CTR 排序模型中，已部署于小红书内容推荐和展示广告场景

cold-start ad-rec industrial pretrained-lm contrastive-ssl

2026-03-02

生成式 Huawei

8 │ 7 │ —

HPGR Beyond the Flat Sequence: Hierarchical and Preference-Aware Generative Recommendations

提出 HPGR 框架，通过 Session Enhancement Module 建模用户行为层次结构和 Preference-Guided Sparse Attention 实现偏好驱动的稀疏注意力，在两阶段训练范式下显著超越 HSTU 和 MTGR 等生成式推荐基线

transformer industrial ad-rec sparse-attention

2026-03-01

生成式 Kuaishou

8 │ 7 │ —

QuaSID Stop Treating Collisions Equally: Qualification-Aware Semantic ID Learning for Recommendation at Industrial Scale

提出QuaSID框架，通过Hamming引导的边距排斥和冲突感知有效对掩码区分有害碰撞与良性重叠，实现资质感知的语义ID学习

semantic-id contrastive-ssl quantization industrial ad-rec

2026-02-28

生成式 Kuaishou

9 │ 9 │ —

GR4AD Generative Recommendation for Large-Scale Advertising

提出GR4AD，一个面向大规模实时广告场景的生产级生成式推荐系统，通过UA-SID、LazyAR、VSL和RSPO的协同设计，在快手4亿用户广告系统上实现4.2%的广告收入提升

ad-rec industrial semantic-id transformer rl

2026-02-26

判别式 Meta

9 │ 9 │ 9

ULTRA-HSTU Bending the Scaling Law Curve in Large-Scale Recommendation Systems

Meta 提出 ULTRA-HSTU，通过输入序列优化、Semi-Local Attention、动态拓扑设计和混合精度系统优化，实现 5x 训练和 21x 推理 scaling efficiency 提升，部署服务数十亿用户并带来 4%-8% 消费指标增益

transformer industrial parameter-scaling quantization sparse-attention

2026-02-23

判别式 ByteDance

8 │ 8 │ —

MixFormer MixFormer: Co-Scaling Up Dense and Sequence in Industrial Recommenders

提出统一的 Transformer 架构 MixFormer，将序列建模和特征交互融合到单一参数空间中，解决工业推荐系统中密集特征与序列长度的协同扩展问题

ad-rec transformer feature-interaction industrial parameter-scaling

2026-02-15

判别式 ByteDance

8 │ 8 │ —

TokenMixer-Large TokenMixer-Large: Scaling Up Large Ranking Models in Industrial Recommenders

提出TokenMixer-Large架构，通过Mixing-Reverting操作、Inter-layer残差、Sparse-Pertoken MoE等设计系统性解决TokenMixer在深层扩展中的瓶颈，成功将推荐排序模型扩展到150亿参数并在字节跳动多个在线场景取得显著业务收益

transformer moe feature-interaction parameter-scaling industrial

2026-02-06

判别式 ByteDance

8 │ 8 │ —

HyFormer HyFormer: Revisiting the Roles of Sequence Modeling and Feature Interaction in CTR Prediction

提出 HyFormer 统一混合 Transformer 架构，通过 Global Tokens + Query Decoding/Boosting 交替机制实现长序列建模与特征交互的紧密集成，在抖音搜索全量部署

transformer feature-interaction industrial ad-rec search-ranking

2026-01-23

LLM Meta

— │ 8 │ —

MobileLLM-Pro MobileLLM-Pro Technical Report

Meta 推出的 1B 端侧基座 LLM，通过四阶段预训练（语言习得 + 隐式位置蒸馏扩窗到 128k + 专家模型合并 + 4-bit QAT）在 11 项预训练 benchmark 上同时超越 Gemma 3-1B 与 Llama 3.2-1B，量化后体积压到 590 MB 仅回退 0.7%。

transformer quantization knowledge-distillation industrial

2025-11-10

判别式 ByteDance

8 │ 9 │ —

STCA Make It Long, Keep It Fast: End-to-End 10k-Sequence Modeling at Billion Scale on Douyin

提出 STCA+RLB+Extrapolation 三位一体方案，将端到端长序列推荐从 500 扩展到 10k，在抖音全流量上线并观测到类 scaling law 增益

transformer industrial parameter-scaling

2025-11-08

判别式 ByteDance

8 │ 8 │ —

OneTrans OneTrans: Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender

提出OneTrans，用统一的因果Transformer骨干网络同时完成用户行为序列建模和特征交互，通过混合参数化、金字塔裁剪和跨请求KV缓存实现高效扩展，在线A/B测试中GMV/u提升5.68%

transformer ad-rec industrial parameter-scaling feature-interaction

2025-10-30

生成式 Kuaishou

9 │ 9 │ —

OneRec-Think OneRec-Think: In-Text Reasoning for Generative Recommendation

提出 OneRec-Think 框架，通过三阶段（Itemic Alignment、Reasoning Activation、Reasoning Enhancement）将显式推理引入生成式推荐，取得公开 benchmark SOTA 及快手 APP 停留时长 +0.159%

ad-rec industrial transformer pretrained-lm rl

2025-10-13

生成式 Alibaba

8 │ 8 │ —

FORGE FORGE: Forming Semantic Identifiers for Generative Retrieval in Industrial Datasets

提出首个工业级语义标识符基准FORGE，包含淘宝140亿交互和2.5亿商品的多模态数据，系统优化SID生成、碰撞缓解与在线收敛策略，并引入无需GR训练的SID质量评估指标

semantic-id ad-rec industrial contrastive-ssl pretrained-lm

2025-09-25

生成式 Kuaishou

8 │ 8 │ —

OneSearch OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search

提出首个工业部署的端到端生成式电商搜索框架 OneSearch，通过关键词增强层次化量化编码、多视角行为序列注入和偏好感知奖励系统，在快手商城搜索上线后 Item CTR +1.67%、订单量 +3.22%，OPEX 节省 75.40%

search-ranking industrial transformer semantic-id rl

2025-09-03

生成式 Kuaishou

9 │ 9 │ —

OneRec-V2 OneRec-V2 Technical Report

提出 Lazy Decoder-Only 架构将计算集中于目标 item 解码，并引入基于用户真实反馈的 GBPO 强化学习方法，在快手/快手极速版上实现 App Stay Time 分别提升 0.467%/0.741%

ad-rec transformer moe parameter-scaling rl

2025-08-28

判别式 ByteDance

8 │ 8 │ —

RankMixer RankMixer: Scaling Up Ranking Models in Industrial Recommenders

提出硬件感知的推荐排序模型 RankMixer，通过多头 Token Mixing 和逐 Token FFN 替代自注意力机制，在抖音全量部署 1B 参数模型，MFU 从 4.5% 提升至 45%，活跃天数增长 0.3%

transformer moe parameter-scaling industrial feature-interaction

2025-07-21

判别式 ByteDance

6 │ 6 │ —

Next-User Retrieval Next-User Retrieval: Enhancing Cold-Start Recommendations via Generative Next-User Modeling

提出 Next-User Retrieval 框架，利用冷启动物品的历史交互用户序列生成式预测下一个潜在交互用户，在抖音线上 A/B 测试中取得 DAU +0.0142%、发布量 +0.1144% 的显著提升

cold-start transformer contrastive-ssl industrial ad-rec

2025-06-18

生成式 Kuaishou

9 │ 9 │ —

OneRec OneRec Technical Report

提出端到端生成式推荐系统 OneRec，采用 encoder-decoder 架构统一检索与排序，通过 RQ-Kmeans tokenizer、MoE 解码器和 ECPO 强化学习，在快手部署后 App Stay Time 提升 0.54%/1.24%，OPEX 仅为传统系统 10.6%

transformer moe semantic-id rl industrial

2025-06-16

生成式 Kuaishou

7 │ 7 │ —

OneSug OneSug: The Unified End-to-End Generative Framework for E-commerce Query Suggestion

提出首个面向电商搜索查询建议的端到端生成式框架OneSug，通过prefix2query表示增强、统一编码器-解码器架构和奖励加权排序策略，替代传统多阶段级联架构，在快手电商搜索引擎全量部署并取得显著业务提升

search-ranking semantic-id rl transformer industrial

2025-06-07

判别式 Meituan

8 │ 8 │ —

MTGR MTGR: Industrial-Scale Generative Recommendation Framework in Meituan

提出 MTGR 框架，结合 DLRM 的交叉特征与 GRM 的 Transformer 可扩展性，通过用户聚合、GLN 和动态掩码实现工业级排序模型的高效扩展

transformer industrial ad-rec feature-interaction parameter-scaling

2025-05-24

other Kuaishou

7 │ 7 │ —

GAVE Generative Auto-Bidding with Value-Guided Explorations

提出 GAVE 框架，通过 score-based RTG、基于 RTG 评估的动作探索和可学习价值函数三大创新，增强 Decision Transformer 的离线广告自动竞价能力，NeurIPS 2024 竞赛第一名并在快手线上部署

ad-rec rl transformer industrial

2025-04-20

判别式 ByteDance

8 │ 8 │ —

HLLM HLLM: Enhancing Sequential Recommendations via Hierarchical Large Language Models for Item and User Modeling

提出层次化大语言模型架构HLLM，用两个独立LLM分别建模物品特征提取和用户兴趣序列，在多个大规模数据集上显著超越传统ID-based和文本-based推荐方法

transformer pretrained-lm parameter-scaling industrial ad-rec

2024-09-19

生成式判别式 Meta

10 │ 10 │ —

HSTU Actions Speak Louder than Words

提出 Generative Recommenders (GRs) 范式和 HSTU 架构，将推荐系统重新建模为序列转换任务，在工业规模下显著超越传统 DLRM，并展示推荐系统中的 scaling law

transformer industrial ad-rec parameter-scaling

2024-02-27

判别式 Google

7 │ 7 │ —

HiFormer Hiformer: Heterogeneous Feature Interactions Learning with Transformers for Recommender Systems

提出异构注意力层和Composite投影机制，使Transformer架构能感知特征语义差异，首次在工业级推荐系统中超越SOTA特征交互模型

transformer feature-interaction industrial ad-rec

2023-11-10

判别式 Kuaishou

8 │ 7 │ —

MEDA KuaiShou MultiEpoch

提出 MEDA：每个 epoch 开始时重置 embedding 层，在保留稀疏度的同时阻断 embedding 过拟合，使工业 CTR 模型首次得以多轮训练并在 Kuaishou 取得 +4.6% 收入提升、训练数据需求减半。

ad-rec industrial

2023-05-31

生成式 Google

9 │ 9 │ —

TIGER TIGER: Towards Generating Semantic IDs with Transformer for Scalable and Transferable Recommendation

提出TIGER框架，首次将生成式检索范式引入推荐系统，通过RQ-VAE为物品生成层次化Semantic ID并用Transformer自回归预测，在多个数据集上显著超越SOTA

semantic-id transformer pretrained-lm cold-start academic

2023-05-08

判别式 Google

9 │ 9 │ —

DCNv2 DCN V2: Improved Deep & Cross Network and Practical Lessons for Web-scale Learning to Rank Systems

将 DCN 的秩1权重矩阵升级为全秩矩阵并引入低秩混合专家机制，在保持简洁公式的同时大幅提升特征交叉表达力，已在 Google 多个大规模排序系统部署

feature-interaction industrial moe ad-rec

2020-08-31

判别式学术

— │ 10 │ —

SASRec Self-Attentive Sequential Recommendation

首次将纯self-attention架构引入序列推荐，自适应关注历史行为中的相关物品，在稀疏和稠密数据集上均超越MC/CNN/RNN方法，且训练效率提升一个数量级

transformer academic

2018-08-29

other Google

10 │ 10 │ —

Transformer Attention Is All You Need

提出完全基于注意力机制的Transformer架构，摒弃循环和卷积，在机器翻译任务上以更低训练成本达到SOTA

transformer academic

2017-06-12