-
Notifications
You must be signed in to change notification settings - Fork 16
llm_entropy
ChatGPT 對話 -- https://chatgpt.com/c/674fbf83-4e44-8012-8a21-82b56341a687
ccc: LLM 預測下一個 token 時,會有 P(token[t]|token[t-w,..,t-1]) 的預測機率,如果用這個當基礎,對原本 token 的 Entropy 進行計算,應該會得到『無模型 Entropy』與『有模型加入後的條件熵』對比。請用這樣的構想寫一篇論文
ccc: 我想說的是,LLM 可以代表那個 Markov Model,然後對下一個 token 進行預測,於是造成 Entropy 的下降,請用數學描述這個 LLM 的影響
好的,我們可以用數學方式描述 LLM 如何降低序列的熵,將其視為一個條件機率分佈
在無模型的情況下,每個 token
此時
當引入 LLM 時,每個 token 的生成被認為是基於其上下文的條件機率分佈決定的,即:
條件熵可以表述為:
這表示 LLM 的效能與其對條件機率的準確建模能力密切相關。
LLM 的目標是通過上下文學習,降低序列的整體不確定性(熵)。無模型熵和條件熵的差值
將其具體化為序列的對數機率分佈後,可得:
這項熵差
從信息理論的角度,熵的降低可以解釋為上下文提供的信息增益(Information Gain, IG):
這表示每個 token 的上下文對於預測下一個 token 的貢獻。
在理想情況下,LLM 能完美地學習文本序列的分佈,對於每個 token 的條件機率
實際中,條件熵的大小取決於 LLM 的表達能力和上下文窗口大小
Perplexity(困惑度)是一種常用於語言模型的效能指標,與條件熵相關:
Perplexity 直接反映了模型對序列的壓縮能力,數值越小,模型越能準確預測序列。
為了衡量模型的效能提升,我們可以計算熵下降率
LLM 作為一個馬爾可夫模型的高階擴展,其核心作用在於通過條件機率分佈學習來降低文本序列的不確定性。熵的下降量
ChatGPT: https://chatgpt.com/c/674fc4f0-4a7c-8012-9153-c7d71c313a75