🌟 概要¶
YomiToku は日本語に特化した AI 文章画像解析エンジン(Document AI)です。画像内の文字の全文 OCR およびレイアウト解析機能を有しており、画像内の文字情報や図表を認識、抽出、変換します。
- 🤖 日本語データセットで学習した 4 種類(文字位置の検知、文字列認識、レイアウト解析、表の構造認識)の AI モデルを搭載しています。4 種類のモデルはすべて独自に学習されたモデルで日本語文書に対して、高精度に推論可能です。
- 🇯🇵 各モデルは日本語の文書画像に特化して学習されており、7000 文字を超える日本語文字の認識をサーポート、手書き文字、縦書きなど日本語特有のレイアウト構造の文書画像の解析も可能です。(日本語以外にも英語の文書に対しても対応しています)。
- 📈 レイアウト解析、表の構造解析, 読み順推定機能により、文書画像のレイアウトの意味的構造を壊さずに情報を抽出することが可能です。
- 📄 多様な出力形式をサポートしています。html やマークダウン、json、csv のいずれかのフォーマットに変換可能です。また、文書内に含まれる図表、画像の抽出の出力も可能です。
- ⚡ GPU環境で高速に動作し、効率的に文書の文字起こし解析が可能です。また、VRAMも8GB以内で動作し、ハイエンドなGPUを用意する必要はありません。
🙋 お問い合わせ先¶
不明点はsupport@mlism.comまでお問い合わせください。
索引¶
通常の利用方法¶
- Installation:インストール方法
- FAQ:よくある質問
CLI Usage¶
- Document Analyzer:CLI の利用方法
- Extractor:Extractor の利用方法
- Schema Generation Prompt:スキーマ生成プロンプト
Python API¶
- Document Analyzer Python API:DocumentAnalyzer の API 利用方法
- Table Semantic Parser Python API:TableSemanticParser の利用方法
- Module Output:各モジュールの出力スキーマ構成
- Model Config:モデルの設定(Config)
コードリファレンス¶
Inputs¶
- load_image:画像の読み込み方法
- load_pdf:PDF の読み込み方法
Modules¶
Outputs¶
Utilities¶
- create_searchable_pdf:検索可能な PDF の作成
- table_to_csv:テーブルデータを CSV に変換
エラーコード¶
- Error Codes:エラーコード一覧
- Error Codes 一覧:エラーコード詳細
サンプルコード¶
- Use Rotate Detection:向き補正モジュールの利用方法
- Table Extraction:テーブル情報の抽出(TableSemanticParser)
- Searchable PDF:検索可能な PDF の作成
- Get Query Count Information:処理枚数の取得方法
Server¶
- Overview:REST API サーバーの利用方法
運用情報¶
- Monitoring:ログ取得・監視について
- Release Note:リリースノート