【要約】"OllamaとStreamlitでコスプレ写真SNS映え採点アプリを作った" [Zenn_Python] | Summary by TechDistill

> Source: Zenn_Python

7Bクラスの軽量なVision LLM（llava）において、日本語での構造化出力が不安定であることや、GPU推論時にビジョンエンコーダの処理がCPU/GPU間で分割されることで出力が破損する技術的課題があった。

プロンプトを英語で記述してフォーマットを厳密に指定し、画像解析時はnum_gpu=0でCPU推論を強制することで安定性を確保。日本語化はLLMに頼らず、スコアに応じたテンプレート変換方式を採用した。

画像のアップロードから、5項目に基づく採点と改善アドバイスの日本語表示までを、API費用ゼロかつローカル環境で安定して実行可能なWebアプリとして実現した。

> 小規模モデルの限界を理解し、LLMに全てを委ねず、正規表現やテンプレートといった堅牢な手法を組み合わせる「適材適所」の設計判断が、実用的なシステム構築において極めて重要である。

TechDistill.dev