精品五月天堂,欧美日韩中文字幕一区二区三区 ,日韩欧美2区

欧美精品91,黄毛片在线观看,亚洲精品成a人ⅴ香蕉片,日韩高清成人在线

在當(dāng)今的大模型后訓(xùn)練（Post-training）階段，DPO（直接偏好優(yōu)化）憑借其無(wú)需訓(xùn)練獨(dú)立 Reward Model 的優(yōu)雅設(shè)計(jì)和高效性，成功取代 PPO 成為業(yè)界的「版本之子」，被廣泛應(yīng)用于 Llama-3、Mistral 等頂流開(kāi)源模型的對(duì)齊中。

然而，隨著對(duì)模型能力要求的日益嚴(yán)苛，DPO 的缺陷逐漸浮出水面。

究竟該如何讓 DPO 學(xué)會(huì)「去偽存真」，精準(zhǔn)識(shí)別出那些真正決定勝負(fù)的 Critical Tokens？

針對(duì)這一問(wèn)題，來(lái)自中國(guó)科學(xué)院自動(dòng)化研究所、字節(jié)跳動(dòng)、微軟亞洲研究院和北京科技大學(xué)的研究者們?cè)诒贿x為 ICLR 2026 Oral 的新工作中聯(lián)合提出了一種全新的 TI-DPO 框架。

DPO「只看總分不看細(xì)節(jié)」？TI-DPO用Token重要性重塑大模型對(duì)齊

論文：《Token-Importance Guided Direct Preference Optimization》
論文地址：https://arxiv.org/abs/2505.19653
開(kāi)源地址：https://github.com/gracefulning/TIDPO

研究背景與意義

主流方法正面臨兩個(gè)核心難題，這使得模型難以實(shí)現(xiàn)真正精細(xì)化的語(yǔ)義控制:

痛點(diǎn)一：序列級(jí)的「二元對(duì)立」陷阱。傳統(tǒng)方法依然停留在序列級(jí)別（Sequence-level）的粗粒度優(yōu)化上，簡(jiǎn)單粗暴地將數(shù)據(jù)劃分為好與壞。這種二元監(jiān)督信號(hào)極度匱乏，因?yàn)樗谏w高質(zhì)量回復(fù)中可能混雜著瑕疵 Token 的事實(shí)，導(dǎo)致了模型在連續(xù)語(yǔ)義空間中微調(diào)效果差，甚至引發(fā)采樣分布偏移（Distribution Shift）。
痛點(diǎn)二：被偏差綁架的「?jìng)巍怪匾?/strong>。即使試圖下沉到 Token 級(jí)別，現(xiàn)有的重要性評(píng)估手段也存在問(wèn)題。許多方法依賴概率預(yù)測(cè)或簡(jiǎn)單加權(quán)，這導(dǎo)致它們直接繼承了模型架構(gòu)的固有缺陷 ——「U 型注意力偏差」（Lost in the Middle），模型天生傾向于過(guò)度關(guān)注首尾 Token 而忽略中間的核心語(yǔ)義。

TI-DPO 的核心機(jī)制

TI-DPO 的核心思想是：既然 Token 生而不同，那就給它們「加權(quán)」。通過(guò)引入混合加權(quán)機(jī)制和三元組損失，TI-DPO 能夠精準(zhǔn)識(shí)別并放大「關(guān)鍵 Token」的信號(hào)，同時(shí)抑制噪聲，從而實(shí)現(xiàn)比傳統(tǒng) DPO 更準(zhǔn)、更穩(wěn)的對(duì)齊效果。它主要包含兩大核心機(jī)制：

1. 混合加權(quán)機(jī)制 (Hybrid Weighting)

為了找出誰(shuí)才是決定回復(fù)質(zhì)量的「勝負(fù)手」，TI-DPO 設(shè)計(jì)了一套數(shù)據(jù)驅(qū)動(dòng)與先驗(yàn)結(jié)構(gòu)相結(jié)合的權(quán)重計(jì)算法：

梯度歸因：計(jì)算 Loss 對(duì)每個(gè) Token Embedding 的梯度范數(shù)。簡(jiǎn)單來(lái)說(shuō)，誰(shuí)對(duì)最終輸出貢獻(xiàn)大，誰(shuí)的權(quán)重就高。

高斯先驗(yàn)：針對(duì) LLM 常見(jiàn)的「U 型注意力偏差」（過(guò)度關(guān)注開(kāi)頭結(jié)尾），引入高斯分布強(qiáng)制模型關(guān)注中間的語(yǔ)義核心。

最終的 Token 權(quán)重，是這兩者的凸組合：

欧美精品91,黄毛片在线观看,亚洲精品成a人ⅴ香蕉片,日韩高清成人在线

DPO「只看總分不看細(xì)節(jié)」？TI-DPO用Token重要性重塑大模型對(duì)齊

今日新聞更多>>