サンプル

日本語 / English / 한국어/ 中文/ Deutsch/ العربية/ Ελληνικά/ Español/ Français/ Italiano/ Latina/ Bahasa Melayu/ Русский *日本語以外は機械翻訳です。

TTSClient

Text To Speech(TTS)のクライアントソフトウェアです。各種AIに対応していく計画です。(現時点ではGPT-SoVITS v2, v3のみ)

対応 AI
- GPT-SoVITS
- coming soon...

サンプル

女性

out_woman.mp4

多言語

out1_multi.mp4

詳細

https://youtu.be/Fy7qifNB5T0

What's New!

v.1.0.21
- new feature:
  - zundamon-speech-webuiのずんだもんをサンプルからダウンロードできるようになりました。
v.1.0.20
- new feature:
  - GPT-SoVITSのイントネーション調整ができるようになりました。
v.1.0.13
- new feature:
  - GPT-SoVITS v3に対応。loraによるfinetuningしたモデルにも対応しています。
  - 参照音声登録の強化。直接マイクやPC音声を録音できるようになりました。また、自動でテキストの書き起こしも行われます。

ダウンロード

チュートリアル日本語 / Tutorial English / 튜토리얼 한국어/ 教程中文(zh)/ 教程中文(yue)/

Hugging Faceのリポジトリよりダウンロードしてください。

win_stdエディション：Windows向けのCPUで動作するエディションです。cuda版と比較して低速ですが、最近のそれなりのスペックのCPUであれば動きます。
win_cudaエディション：Windows向けのNVIDIAのGPUで動作するエディションです。GPUのハードウェアアクセラレーションにより高速に動きます。
macエディション：Mac(Apple silicon(M1, M2, M3, etc))向けのエディションです。

使用方法

zipファイルを展開後、start_http.batを実行してください。表示された、URLにブラウザでアクセスしてください。
start_https.batを使用すると、リモートからでもアクセスすることができます。
(上級者向け)start_http_with_ngrok.batを使用するとngrokを用いたトンネリングを使用してアクセスすることができます。
Windowsで韓国語を使用する場合は、初めにdownload_korean_module.batを実行してください。 note: macエディションは.batを.commandで読み替えてください。

GPT-SoVITS

モデルの詳細はGPT-SoVITSの公式リポジトリを参照してください。

GPT-SoVITSでは、モデルと参照音声と参照テキストを選択してから、音声生成を行います。TTSClientでは参照話者という概念があり、参照話者に複数の参照音声と参照テキストを持たせることができます。

音声生成

モデルと、参照話者を選択します((1), (2))。
参照話者に登録された参照音声と参照テキストを選択します(3)。
生成したいテキストを入力して音声を生成します(4)。

モデルの登録

モデル選択エリアの編集ボタンから登録してください。

参照話者の登録

参照話者登録エリアの編集ボタンから登録してください。

参照音声、テキストの登録

参照音声選択エリアで未登録のスロットを選択して登録してください。

リポジトリからの起動(Advanced)

Ubuntu

Requirements

cmake

$ git clone https://github.com/w-okada/ttsclient.git
$ cd ttsclient/
$ git submodule update --init --recursive
$ sed -i '/pyopenjtalk/d' pyproject.toml
$ poetry install

$ wget "https://files.pythonhosted.org/packages/source/p/pyopenjtalk/pyopenjtalk-0.4.0.tar.gz"
$ tar xzf pyopenjtalk-0.4.0.tar.gz
$ sed -i -E 's/cmake_minimum_required\(VERSION[^\)]*\)/cmake_minimum_required(VERSION 3.5...3.31)/' pyopenjtalk-0.4.0/lib/open_jtalk/src/CMakeLists.txt
$ rm pyopenjtalk-0.4.0.tar.gz
$ tar czf pyopenjtalk-0.4.0.tar.gz pyopenjtalk-0.4.0/
$ poetry run pip install pyopenjtalk-0.4.0.tar.gz

$ poetry run main cui
---

リモートからアクセスする場合は`--https true`を付与してください。
---
$ poetry run main cui --https true

cudaを使用する場合

モジュールを入れ替えてください。

$ poetry add onnxruntime-gpu==1.20.1
$ poetry remove torch
$ poetry add torch==2.4.1 torchaudio==2.4.1 --source torch_cuda12

directmlを使用する場合

モジュールを入れ替えてください。

$ poetry add onnxruntime-directml==1.19.2

Acknowledgements

JVNVコーパス

Name		Name	Last commit message	Last commit date
Latest commit History 113 Commits
.vscode		.vscode
client		client
docs_i18n		docs_i18n
scripts_		scripts_
settings		settings
third_party		third_party
ttsclient		ttsclient
web_front		web_front
.gitignore		.gitignore
.gitmodules		.gitmodules
.python-version		.python-version
README.md		README.md
build.bat		build.bat
licenses_by_license.json		licenses_by_license.json
licenses_flat.json		licenses_flat.json
mypy.ini		mypy.ini
pyproject.toml		pyproject.toml
utils.py		utils.py
w_okada's_TextToSpeech_version_2_x.ipynb		w_okada's_TextToSpeech_version_2_x.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

TTSClient

サンプル

女性

多言語

詳細

What's New!

関連ソフトウェア

ダウンロード

使用方法

GPT-SoVITS

音声生成

モデルの登録

参照話者の登録

参照音声、テキストの登録

リポジトリからの起動(Advanced)

Ubuntu

cudaを使用する場合

directmlを使用する場合

Acknowledgements

About

Releases

Packages

Contributors 2

Languages

w-okada/ttsclient

Folders and files

Latest commit

History

Repository files navigation

TTSClient

サンプル

女性

多言語

詳細

What's New!

関連ソフトウェア

ダウンロード

使用方法

GPT-SoVITS

音声生成

モデルの登録

参照話者の登録

参照音声、テキストの登録

リポジトリからの起動(Advanced)

Ubuntu

cudaを使用する場合

directmlを使用する場合

Acknowledgements

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages