2026-W23 周报

日期范围: 2026-06-01 ~ 2026-06-07

主题: 工业推荐双线推进：Semantic ID 量化检索与生成式强化偏好对齐

标签: semantic-id · industrial · rl · quantization · cold-start · pretrained-lm

📊 统计: 共 59 篇 · 精读 18 · 覆盖 6 个工作日

周度综述

本周（2026-06-01 至 06-07）共收录约 59 篇、精读 18 篇，判别式与生成式推荐两大类并重，辅以 LLM 增强与基础研究，工业界论文占据绝对主导，快手、阿里、LinkedIn、JD、Netflix、Yandex、Meta、Shopee、Bilibili、ShareChat 等悉数登场。主线一是 Semantic ID 持续深化：其角色从生成式检索目标扩展为通用离散语义组件，研究焦点转向量化保真、跨域迁移、冷启动与相关性建模。LinkedIn 的 RQ-FSQ 首次实证跨域 viewer Semantic ID，压缩 30–280 倍而 AUC 不降，最冷段 +1.522% AUC；阿里 SSRLive 用静态+动态双 SID 做直播粗排，线上观看时长 +3.38%、GMV +0.72%；Shopee 的 DRQ 给出诊断 tokenizer 失效的量化框架。主线二是强化偏好对齐成为生成式推荐新范式。快手 OneReason 以三层认知 CoT 与“专精后统一”RL 配方，首次让生成式推荐“思考模式”稳定超越非思考模式，本地生活广告 ROI>5；JD 的 AdaGRPO 把“均匀施奖”改为“选择性准入”，离线 HR@10 由 11.01% 升至 12.18%；Netflix 的 Mult-DPO 把 DPO 从成对推广到 set-wise 多正样本。快手 Taiji 则以 LLM-as-Enhancer 叠加 POPO 协同奖励，7B 模型离线超越 32B 教师，线上 +2.83% ADVV，服务 4 亿日活。主线三是基础规律与效率工程：Gabrielsson 在 10^15–10^19 FLOPs 上给出行为基础模型 scaling law，发现嵌入器仅需约 2% 参数即计算最优；快手 FlowTime 以条件 Normalizing Flow 提出“连续生成式回归”并开源 TimeRec 基准。整体看，Semantic ID 量化、生成式强化对齐与基础模型 scaling 正贯通学术与工业。

每日概览

2026-06-02

主题: 工业级推荐落地：Semantic ID 量化与生成式建模双线突破
论文数: 15 · 精读: 4

2026-06-03

主题: 推荐与 LLM 建模的效率帕累托权衡
论文数: 7 · 精读: 2

2026-06-04

主题: 大模型语义表征与行为基础模型 scaling 重塑工业推荐
论文数: 11 · 精读: 2

2026-06-05

主题: 工业生成式推荐迈向强化推理，冷启动与去噪并进
论文数: 4 · 精读: 2

2026-06-08

主题: Semantic ID 驱动的生成式与判别式推荐工业落地
论文数: 7 · 精读: 2

2026-06-09

主题: 工业级生成式推荐的强化偏好对齐与判别式 CTR 扩展双线
论文数: 15 · 精读: 6