Skip to content

seq2seq

陳鍾誠 edited this page May 24, 2023 · 7 revisions

seq2seq 序列對序列模型

Google 在 2014 年於下列論文中提出了 seq2seq 序列對序列模型,企圖用循環神經網路來處理機器翻譯問題。

該模型的想法如下圖所示

基本上就是,當我們輸入一個序列時,會希望程式能輸出一個序列。例如:

  1. 英漢翻譯:當我們輸入英文語句時,希望程式輸出其中文翻譯。
  2. 問答:當我們輸入問題時,希望程式能輸出該問題的解答。

如果我們用 RNN/LSTM/GRU 等循環神經網路去取得輸入,那詞彙將會是一個一個餵入 RNN 的,然後輸出詞彙也是一個一個被丟出來的。

更具體的實現,可以參考下文中 Keras 程式的寫法

該文中的兩個圖片,分別示範了如何用 seq2seq 模型來學習處理 1. 加法 2. 翻譯 等問題。

  1. 加法

  1. 翻譯

參考文獻

Clone this wiki locally