【要約】📊チャットから編集可能な PowerPoint を吐く LLM パイプラインの設計 — Vision-LLM レビューループ付き [Zenn_Python] | Summary by TechDistill

> Source: Zenn_Python

Execute Primary Source

// Problem

Praxia Desktopの開発チームは、LLMが生成するスライドの品質不足に直面した。従来のテキスト生成のみでは、実務で求められる「手直し不要」な品質に達しなかった。具体的には以下の課題があった。

・PowerPointの複雑なオブジェクトモデルを正確に操作できない。
・文字溢れや要素の重なりといった、空間的なレイアウトを判断できない。
・「だいたい合っている」程度の出力では、結局ユーザーの手直しが発生する。

// Approach

開発チームは、生成物を視覚的に検証して修正するフィードバックループを採用した。具体的には、以下の6つのステージで構成されるパイプラインを構築した。

・[1] Plan: スライドの構成案を構造化データとして生成する。
・[2] Code-gen: outlineに基づき、python-pptxの生成コードを作成する。
・[3] Render: サイドカー環境でコードを実行し、.pptxを生成する。
・[4] Rasterize: LibreOffice等を用いてスライドをPNG画像に変換する。
・[5] Vision review: Vision-LLMが画像を見て、レイアウトの不備を特定する。
・[6] Approve: ユーザーの承認を経て、最終的なファイルを確定させる。

// Result

このパイプラインの導入により、スライドの品質が劇的に向上した。社内ベンチマークにおいて、そのまま社外提出可能なレベルの「OK率」を以下のように改善した。

・Code-genのみの場合：38%
・構文エラー自己修正のみ：51%
・Vision reviewを含む本構成：86%

また、画像の一括処理や、該当スライドのみを再生成する手法により、処理速度と安定性も向上させた。

Senior Engineer Insight

> 空間レイアウトの判断をVision-LLMに委ねる設計は、極めて合理的だ。テキストベースのLLMには物理的な「広さ」の概念が欠落している。この「視覚的フィードバック」こそが、生成AIを実務ツールへ昇華させる鍵となる。ただし、Vision-LLMの呼び出しコストとレイテンシが課題だ。画像の一括処理や差分更新など、計算リソースを最適化する実装力が、商用レベルの構築には不可欠だ。

TechDistill.dev

【要約】📊チャットから編集可能な PowerPoint を吐く LLM パイプラインの設計 — Vision-LLM レビューループ付き [Zenn_Python] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

友達から久々にLINEが来たので、マルチ勧誘リスクを機械学習で判定してみた

Psi4による量子化学計算-Tips　ヨウ素化合物の計算

FastAPI × SQLiteで作るレシートOCR履歴管理

【AI観察記録】完全初心者の人間に「AI」をゼロから作らせてみた（第1回：環境構築と辞書作り）

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

友達から久々にLINEが来たので、マルチ勧誘リスクを機械学習で判定してみた

Psi4による量子化学計算-Tips ヨウ素化合物の計算

FastAPI × SQLiteで作るレシートOCR履歴管理

【AI観察記録】完全初心者の人間に「AI」をゼロから作らせてみた（第1回：環境構築と辞書作り）

Psi4による量子化学計算-Tips　ヨウ素化合物の計算