We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
https://blog.philip-huang.tech/?page=reason-to-reject
研究首次系統性地探討了使用語言反饋(判斷)來對齊 LLM 的可能性,提出了 Contrastive Unlikelihood Training (CUT) 框架。
實驗結果表明,CUT 僅需 1317 筆訓練資料便能超越 175B 的 DaVinci003。並且進一步分析表明,判斷在LLM對齊中具有比 RL 獎勵更大的潛力。
問題設定
假設有一組指令-回應-判斷三元組 $(x, y, j)$,其中指令 $x = [x_1, \ldots, x_M]$,回應 $y = [y_1, \ldots, y_N]$,判斷 $j = [j_1, \ldots, j_Q]$ 為長度分別為 $M$、$N$ 和 $Q$ 的符號序列。回應可能存在缺陷或被認為完全滿意。判斷提供了對回應的優缺點的分析,這些分析可以由人類或 AI 模型起草。將 LLMs 與判斷對齊的目標是使 LLMs 保留在優點中提到的適當行為,更重要的是,解決缺點以防止未來的不當行為。
可能的解決方案 Forwar
The text was updated successfully, but these errors were encountered:
No branches or pull requests
https://blog.philip-huang.tech/?page=reason-to-reject
研究首次系統性地探討了使用語言反饋(判斷)來對齊 LLM 的可能性,提出了 Contrastive Unlikelihood Training (CUT) 框架。
實驗結果表明,CUT 僅需 1317 筆訓練資料便能超越 175B 的 DaVinci003。並且進一步分析表明,判斷在LLM對齊中具有比 RL 獎勵更大的潛力。
問題設定
假設有一組指令-回應-判斷三元組$(x, y, j)$ ,其中指令 $x = [x_1, \ldots, x_M]$ ,回應 $y = [y_1, \ldots, y_N]$ ,判斷 $j = [j_1, \ldots, j_Q]$ 為長度分別為 $M$ 、$N$ 和 $Q$ 的符號序列。回應可能存在缺陷或被認為完全滿意。判斷提供了對回應的優缺點的分析,這些分析可以由人類或 AI 模型起草。將 LLMs 與判斷對齊的目標是使 LLMs 保留在優點中提到的適當行為,更重要的是,解決缺點以防止未來的不當行為。
The text was updated successfully, but these errors were encountered: