← 返回报告列表

2026-W23 周报

周报 📅 2026-06-01 ~ 2026-06-07
工业推荐双线推进:Semantic ID 量化检索与生成式强化偏好对齐
semantic-id industrial rl quantization cold-start pretrained-lm
📊 共 59 篇 · 精读 18

2026-W23 周报

日期范围: 2026-06-01 ~ 2026-06-07

主题: 工业推荐双线推进:Semantic ID 量化检索与生成式强化偏好对齐

标签: semantic-id · industrial · rl · quantization · cold-start · pretrained-lm

📊 统计: 共 59 篇 · 精读 18 · 覆盖 6 个工作日

周度综述

本周(2026-06-01 至 06-07)共收录约 59 篇、精读 18 篇,判别式与生成式推荐两大类并重,辅以 LLM 增强与基础研究,工业界论文占据绝对主导,快手、阿里、LinkedIn、JD、Netflix、Yandex、Meta、Shopee、Bilibili、ShareChat 等悉数登场。主线一是 Semantic ID 持续深化:其角色从生成式检索目标扩展为通用离散语义组件,研究焦点转向量化保真、跨域迁移、冷启动与相关性建模。LinkedIn 的 RQ-FSQ 首次实证跨域 viewer Semantic ID,压缩 30–280 倍而 AUC 不降,最冷段 +1.522% AUC;阿里 SSRLive 用静态+动态双 SID 做直播粗排,线上观看时长 +3.38%、GMV +0.72%;Shopee 的 DRQ 给出诊断 tokenizer 失效的量化框架。主线二是强化偏好对齐成为生成式推荐新范式。快手 OneReason 以三层认知 CoT 与“专精后统一”RL 配方,首次让生成式推荐“思考模式”稳定超越非思考模式,本地生活广告 ROI>5;JD 的 AdaGRPO 把“均匀施奖”改为“选择性准入”,离线 HR@10 由 11.01% 升至 12.18%;Netflix 的 Mult-DPO 把 DPO 从成对推广到 set-wise 多正样本。快手 Taiji 则以 LLM-as-Enhancer 叠加 POPO 协同奖励,7B 模型离线超越 32B 教师,线上 +2.83% ADVV,服务 4 亿日活。主线三是基础规律与效率工程:Gabrielsson 在 10^15–10^19 FLOPs 上给出行为基础模型 scaling law,发现嵌入器仅需约 2% 参数即计算最优;快手 FlowTime 以条件 Normalizing Flow 提出“连续生成式回归”并开源 TimeRec 基准。整体看,Semantic ID 量化、生成式强化对齐与基础模型 scaling 正贯通学术与工业。

每日概览

2026-06-02

  • 主题: 工业级推荐落地:Semantic ID 量化与生成式建模双线突破
  • 论文数: 15 · 精读: 4

2026-06-03

  • 主题: 推荐与 LLM 建模的效率帕累托权衡
  • 论文数: 7 · 精读: 2

2026-06-04

  • 主题: 大模型语义表征与行为基础模型 scaling 重塑工业推荐
  • 论文数: 11 · 精读: 2

2026-06-05

  • 主题: 工业生成式推荐迈向强化推理,冷启动与去噪并进
  • 论文数: 4 · 精读: 2

2026-06-08

  • 主题: Semantic ID 驱动的生成式与判别式推荐工业落地
  • 论文数: 7 · 精读: 2

2026-06-09

  • 主题: 工业级生成式推荐的强化偏好对齐与判别式 CTR 扩展双线
  • 论文数: 15 · 精读: 6