【要約】📊チャットから編集可能な PowerPoint を吐く LLM パイプラインの設計 — Vision-LLM レビューループ付き [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
Praxia Desktopの開発チームは、LLMが生成するスライドの品質不足に直面した。従来のテキスト生成のみでは、実務で求められる「手直し不要」な品質に達しなかった。具体的には以下の課題があった。
- ・PowerPointの複雑なオブジェクトモデルを正確に操作できない。
- ・文字溢れや要素の重なりといった、空間的なレイアウトを判断できない。
- ・「だいたい合っている」程度の出力では、結局ユーザーの手直しが発生する。
// Approach
開発チームは、生成物を視覚的に検証して修正するフィードバックループを採用した。具体的には、以下の6つのステージで構成されるパイプラインを構築した。
- ・[1] Plan: スライドの構成案を構造化データとして生成する。
- ・[2] Code-gen: outlineに基づき、python-pptxの生成コードを作成する。
- ・[3] Render: サイドカー環境でコードを実行し、.pptxを生成する。
- ・[4] Rasterize: LibreOffice等を用いてスライドをPNG画像に変換する。
- ・[5] Vision review: Vision-LLMが画像を見て、レイアウトの不備を特定する。
- ・[6] Approve: ユーザーの承認を経て、最終的なファイルを確定させる。
// Result
このパイプラインの導入により、スライドの品質が劇的に向上した。社内ベンチマークにおいて、そのまま社外提出可能なレベルの「OK率」を以下のように改善した。
- ・Code-genのみの場合:38%
- ・構文エラー自己修正のみ:51%
- ・Vision reviewを含む本構成:86%
Senior Engineer Insight
> 空間レイアウトの判断をVision-LLMに委ねる設計は、極めて合理的だ。テキストベースのLLMには物理的な「広さ」の概念が欠落している。この「視覚的フィードバック」こそが、生成AIを実務ツールへ昇華させる鍵となる。ただし、Vision-LLMの呼び出しコストとレイテンシが課題だ。画像の一括処理や差分更新など、計算リソースを最適化する実装力が、商用レベルの構築には不可欠だ。