Skip to content

ChatGpt

ccckmit edited this page Jun 1, 2023 · 3 revisions

ChatGPT

雖然 OpenAI 名稱裡有 Open,而且 GPT 的第 1,2 版也確實都有公開,包含程式碼和模型,但是從 GPT 3 開始就不再公開了,而 OpenAI 更是對 GPT4 的技術細節採用守密的方式,因此 GPT3/4 的論文其實沒什麼好看的!

OpenAI 對 ChatGPT 方法保密,但是其他人還是會試著去探索還原,包含 Facebook 釋出了 LLaMA 模型,還有很多人用 LLaMA 繼續訓練類似 ChatGPT 的模型。

Karpathy 在 Microsoft Developer 的一場演講,把這些後續技術描述得比較清楚一些,請看下列影片

根據上圖,ChatGPT 使用了下列方式

  1. Base Model : Pretraining 訓練語言模型 (預測下一個詞)
  2. SFT Model : Supervised Finetuning 進一步微調 (預測下一個詞), GPT1 裏列出了 (Classification / Entailment / Similarity / Multiple Choice) 等四種微調方式。
  3. RM Model : Reward Modeling 根據人類排序給予 Reward 獎勵,
  4. RL MOdel : Reinforcement Learning 用強化學習讓模型對 Reward 優化。

其中的前兩種方式 (1,2),在 GPT1 的論文裡就有提到,但是後兩種方式 (3,4) 則是 GPT3 之後才引入的 ...

Clone this wiki locally