ChatGpt

ChatGPT

雖然 OpenAI 名稱裡有 Open，而且 GPT 的第 1,2 版也確實都有公開，包含程式碼和模型，但是從 GPT 3 開始就不再公開了，而 OpenAI 更是對 GPT4 的技術細節採用守密的方式，因此 GPT3/4 的論文其實沒什麼好看的！

OpenAI 對 ChatGPT 方法保密，但是其他人還是會試著去探索還原，包含 Facebook 釋出了 LLaMA 模型，還有很多人用 LLaMA 繼續訓練類似 ChatGPT 的模型。

Karpathy 在 Microsoft Developer 的一場演講，把這些後續技術描述得比較清楚一些，請看下列影片

State of GPT | BRK216HFS

根據上圖，ChatGPT 使用了下列方式

Base Model : Pretraining 訓練語言模型 (預測下一個詞)
SFT Model : Supervised Finetuning 進一步微調 (預測下一個詞)， GPT1 裏列出了 (Classification / Entailment / Similarity / Multiple Choice) 等四種微調方式。
RM Model : Reward Modeling 根據人類排序給予 Reward 獎勵，
RL MOdel : Reinforcement Learning 用強化學習讓模型對 Reward 優化。

其中的前兩種方式 (1,2)，在 GPT1 的論文裡就有提到，但是後兩種方式 (3,4) 則是 GPT3 之後才引入的 ...

陳鍾誠於金門大學資訊工程系 -- 本書衍生自維基百科與 Karpathy 的 micrograd 與 minGPT ，採用 CC: BY-SA 授權

ChatGpt

ChatGPT

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Uh oh!