【要約】Upstage Document Parse API を Python から叩いてみる [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
- ・従来のOCRでは、表形式の文書において行や列の構造が崩れやすい。
- ・単純なテキスト抽出では、RAGにおけるチャンク分割時に情報の整合性が失われる。
- ・スキャンPDFとデジタルPDFが混在する場合、OCRの挙動を制御する必要がある。
// Approach
1.
requestsを用いたPython実装。2.
multipart/form-data形式でのファイル送信。3.
model=document-parseおよびocr=forceの指定。4.
output_formats=['html','markdown']による構造化出力の取得。5.同期API(100ページまで)と非同期APIの使い分け。
// Result
- ・納品書等の画像から、正確なMarkdownテーブル形式での抽出に成功。
- ・HTML形式により、視覚的な構造確認も容易。
- ・RAGにおいて、HTML(構造確認用)とMarkdown(LLM入力用)の使い分けという指針を提示。
Senior Engineer Insight
> RAGの精度向上において、ドキュメントの構造維持は不可欠だ。単なるテキスト抽出から、HTML/Markdownによる構造抽出へのシフトは必須といえる。APIのレイテンシとページ数制限(同期100枚)を考慮した設計が求められる。大量処理時は非同期APIへの切り替えを前提としたアーキテクチャを構築すべきだ。実戦投入には、抽出精度とコストのバランス評価が鍵となる。