Skip to content

Commit

Permalink
Merge pull request #38 from kotaro-kinoshita/docs/update-logo
Browse files Browse the repository at this point in the history
add logo
  • Loading branch information
kotaro-kinoshita authored Nov 25, 2024
2 parents 6409463 + 1b65e4b commit a03a008
Show file tree
Hide file tree
Showing 5 changed files with 119 additions and 25 deletions.
36 changes: 14 additions & 22 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,10 +1,12 @@
# YomiToku

![Python](https://img.shields.io/badge/Python-3.9|3.10|3.11|3.12-F9DC3E.svg?logo=python&logoColor=&style=flat)
![Pytorch](https://img.shields.io/badge/Pytorch-2.1+-EE4C2C.svg?logo=Pytorch&style=fla)
![Pytorch](https://img.shields.io/badge/Pytorch-2.5-EE4C2C.svg?logo=Pytorch&style=fla)
![OS](https://img.shields.io/badge/OS-Linux|MacOS-1793D1.svg?&style=fla)
[![Document](https://img.shields.io/badge/docs-live-brightgreen)](https://kotaro-kinoshita.github.io/yomitoku-dev/)

<img src="static/logo/horizontal.png" width="800px">

## 🌟 概要

YomiToku は日本語に特化した AI 文章画像解析エンジン(Document AI)です。画像内の文字の全文 OCR およびレイアウト解析機能を有しており、画像内の文字情報や図表を認識、抽出、変換します。
Expand All @@ -13,17 +15,17 @@ YomiToku は日本語に特化した AI 文章画像解析エンジン(Document
- 🇯🇵 各モデルは日本語の文書画像に特化して学習されており、7000 文字を超える日本語文字の認識をサーポート、縦書きなど日本語特有のレイアウト構造の文書画像の解析も可能です。(日本語以外にも英語の文書に対しても対応しています)。
- 📈 レイアウト解析、表の構造解析, 読み順推定機能により、文書画像のレイアウトの意味的構造を壊さずに情報を抽出することが可能です。
- 📄 多様な出力形式をサポートしています。html やマークダウン、json、csv のいずれかのフォーマットに変換可能です。また、文書内に含まれる図表、画像の抽出の出力も可能です。
-GPU環境で高速に動作し、効率的に文書の文字起こし解析が可能です。また、VRAMも8GB以内で動作し、ハイエンドなGPUを用意する必要はありません
-GPU 環境で高速に動作し、効率的に文書の文字起こし解析が可能です。また、VRAM も 8GB 以内で動作し、ハイエンドな GPU を用意する必要はありません

## 🖼️ デモ

[gallery.md](gallery.md)にも複数種類の画像の検証結果を掲載しています。

| 入力画像 | OCRの結果 |
| :--------------------------------------------------: | :------------------------------------------------: |
| <img src="static/in/demo.jpg" width="400px"> | <img src="static/out/in_demo_p1_ocr.jpg" width="400px"> |
| レイアウト解析の結果 | エクスポート<br>(HTMLで出力したものをスクショ) |
| <img src="static/out/in_demo_p1_layout.jpg" width="400px"> | <img src="static/out/demo_html.png" width="400px"> |
| 入力画像 | OCR の結果 |
| :--------------------------------------------------------: | :-----------------------------------------------------: |
| <img src="static/in/demo.jpg" width="400px"> | <img src="static/out/in_demo_p1_ocr.jpg" width="400px"> |
| レイアウト解析の結果 | エクスポート<br>(HTML で出力したものをスクショ) |
| <img src="static/out/in_demo_p1_layout.jpg" width="400px"> | <img src="static/out/demo_html.png" width="400px"> |

Markdown でエクスポートした結果は関してはリポジトリ内の[static/out/in_demo_p1.md](static/out/in_demo_p1.md)を参照

Expand All @@ -33,7 +35,6 @@ Markdown でエクスポートした結果は関してはリポジトリ内の[s
- `青枠` : 段落、テキストグループ領域
- `赤矢印` : 読み順推定の結果


画像の出典:[「令和 6 年版情報通信白書 3 章 2 節 AI の進化に伴い発展するテクノロジー」](https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r06/pdf/n1410000.pdf):(総務省) を加工して作成

## 📣 リリース情報
Expand All @@ -46,7 +47,7 @@ Markdown でエクスポートした結果は関してはリポジトリ内の[s
pip install git+https://github.com/kotaro-kinoshita/yomitoku-dev.git@main
```

- pytorchがご自身のGPUの環境にあったものをインストールしてください
- pytorch がご自身の GPU の環境にあったものをインストールしてください

### 依存ライブラリ

Expand Down Expand Up @@ -77,9 +78,10 @@ yomitoku ${path_data} -f md -o results -v --figure
- `-d`, `--device` モデルを実行するためのデバイスを指定します。gpu が利用できない場合は cpu で推論が実行されます。(デフォルト: cuda)
- `--ignore_line_break` 画像の改行位置を無視して、段落内の文章を連結して返します。(デフォルト:画像通りの改行位置位置で改行します。)
- `figure_letter` 検出した図表に含まれる文字も出力ファイルにエクスポートします。
- `figure` 検出した図、画像を出力ファイルにエクスポートします。(htmlとmarkdownのみ)
- `figure` 検出した図、画像を出力ファイルにエクスポートします。(html と markdown のみ)

その他のオプションに関しては、ヘルプを参照

```
yomitoku --help
```
Expand All @@ -97,18 +99,8 @@ yomitoku --help

## LICENSE

本リポジトリ内に格納されているリソースのライセンスはYomiTokuはCC BY-NC 4.0に従います
本リポジトリ内に格納されているリソースのライセンスは YomiToku は CC BY-NC-SA 4.0 に従います
非商用での個人利用、研究目的での利用は自由に利用できます。
商用目的での利用に関しては、別途、商用ライセンスを提供しますので、開発者にお問い合わせください。


YomiToku © 2024 by MLism inc. is licensed under CC BY-NC 4.0. To view a copy of this license, visit https://creativecommons.org/licenses/by-nc/4.0/


## 🙏 謝辞

YomiToku 内に搭載されているモデルは以下のオープンソース AI を参考し、開発しています。開発者の皆様に感謝申し上げます

- [DBNet](https://github.com/MhLiao/DB)
- [PARSeq](https://github.com/baudm/parseq)
- [RTDETR](https://github.com/lyuwenyu/RT-DETR)
YomiToku © 2024 by MLism Inc. is licensed under CC BY-NC-SA 4.0. To view a copy of this license, visit https://creativecommons.org/licenses/by-nc-sa/4.0/
97 changes: 97 additions & 0 deletions docs/assets/logo.svg
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
9 changes: 7 additions & 2 deletions mkdocs.yml
Original file line number Diff line number Diff line change
Expand Up @@ -3,14 +3,16 @@ theme:
name: material
features:
- navigation.tabs
logo: assets/logo.svg
icon:
custom_dir: overrides # on
repo: fontawesome/brands/github

palette:
- media: "(prefers-color-scheme: light)"
scheme: default
primary: indigo
accent: indigo
primary: brown
accent: blue
toggle:
icon: material/toggle-switch
name: Switch to dark mode
Expand Down Expand Up @@ -46,6 +48,9 @@ markdown_extensions:
- pymdownx.emoji:
emoji_index: !!python/name:material.extensions.emoji.twemoji
emoji_generator: !!python/name:material.extensions.emoji.to_svg
options:
custom_icons:
- overrides/.icons
- pymdownx.highlight:
anchor_linenums: true
line_spans: __span
Expand Down
Binary file added static/logo/horizontal.png
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
2 changes: 1 addition & 1 deletion uv.lock

Some generated files are not rendered by default. Learn more about how customized files appear on GitHub.

0 comments on commit a03a008

Please sign in to comment.