Awesome Traditional Chinese Datasets: 我們收集有關繁體中文資料集資訊,將它們整理成清單,以利開源社群同好方便找尋及運用。
一些HF平台上的繁體中文資料集: (按住 Ctrl + 點擊 或 ⌘ + 點擊 在新分頁開啟)
- Taiwan-LLaMa模型訓練資料集: (https://huggingface.co/datasets/yentinglin/TaiwanChat)
- TWLLM-Data 繁中LLM對話資料集:(https://huggingface.co/datasets/yentinglin/twllm-data
- Taiwan-LLaMa模型訓練資料集: (https://huggingface.co/datasets/yentinglin/TaiwanChat)
- Erhwen,Kuo個人整理,一些知名的語料集之繁體中文化:(https://huggingface.co/erhwenkuo)
- 網頁新聞,由簡體轉繁體(文化對齊問題請自行評估):(https://huggingface.co/datasets/jed351/Traditional-Chinese-Common-Crawl-Filtered)
- TAIDE計劃-訓練資料集: (https://taide.tw/public/trainData)
- TAIDE計畫-測試資料集:(https://huggingface.co/datasets/taide/TAIDE-14-tasks)
- iKala 開源 TMMLU+ 繁體中文 LLM 測試資料集:(https://huggingface.co/datasets/ikala/tmmluplus)
- lianghsun 台灣常見任務對話集: (https://huggingface.co/datasets/lianghsun/tw-instruct-500k)
🤗 Twinkle AI 繁體中文推理:
- 👩🏫數理推理 - MIT License : twinkle-ai/tw-math-reasoning-2k
- 🇹🇼日常推理 - MIT License : twinkle-ai/tw-reasoning-instruct-50k
- 🛠Function Calling - Creative Commons Attribution 4.0 License : twinkle-ai/tw-function-call-reasoning-10k
台語文本資料集,目前主要來自作家胡長松老師的臉書文章,轉貼整理如下。 IMA Taiwan Tongues專案新建且已經公開的語料庫:(https://huggingface.co/IMA-Taiwan)
- 胡長松語料庫:(https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-ots)
- 陳金順語料庫:(https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-tks)
- 洪明道語料庫:(https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-abt)
- 林瑞崐語料庫:(https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-ljk)
- 王羅蜜多語料庫:(https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-olbt)
- 高嘉徽語料庫:(https://huggingface.co/datasets/IMA-Taiwan/taigi-literature-kkh)
一些github平台上的繁體中文資料集:
- 聯發創新基地(MediaTek Research)(https://github.com/mtkresearch/MR-Models/tree/main)
- 聯發創新基地 Fineweb-zhtw (https://github.com/mtkresearch/fineweb-zhtw)
- NCU-IISR X 臺灣事實查核中心(https://github.com/jason50706/CDDTC/tree/main)
- NTU-NLP Lab: Traditional-Chinese Alpaca (僅供研究使用) (https://github.com/ntunlplab/traditional-chinese-alpaca)
一些相關中文資料集:
- 繁體中文手寫資料集(image) (https://github.com/AI-FREE-Team/Traditional-Chinese-Handwriting-Dataset)
- 北京智源人工智能研究院-BAAI DataHub(data.baai.ac.cn):(https://huggingface.co/datasets/BAAI/COIG-PC)
有關模型驗證的方法參考:
- MTK, TC-Eval is a Traditional Chinese evaluation suite for foundation models (https://github.com/mtkresearch/MR-Models/tree/main/TC-Eval)
- 臺灣話音譯器和標記器 Taibun (https://github.com/andreihar/taibun)
- 臺灣言語工具 (https://github.com/i3thuan5/tai5-uan5_gian5-gi2_kang1-ku7)
有關繁體中文資料集社群:
- [FB] 中華民國台灣開源語言資料集_建立、收集、標註、監督、評鑑
- [FB] Taiwan Tongues 台灣通用語料庫
- [官網] Taiwan Tongues 台灣通用語料庫 - 讓世界也能說出台灣的語言