"OllamaとStreamlitでコスプレ写真SNS映え採点アプリを作った"
> Source: Zenn_Python
Execute Primary Source
// Problem
7Bクラスの軽量なVision LLM(llava)において、日本語での構造化出力が不安定であることや、GPU推論時にビジョンエンコーダの処理がCPU/GPU間で分割されることで出力が破損する技術的課題があった。
// Approach
プロンプトを英語で記述してフォーマットを厳密に指定し、画像解析時はnum_gpu=0でCPU推論を強制することで安定性を確保。日本語化はLLMに頼らず、スコアに応じたテンプレート変換方式を採用した。
// Result
画像のアップロードから、5項目に基づく採点と改善アドバイスの日本語表示までを、API費用ゼロかつローカル環境で安定して実行可能なWebアプリとして実現した。
Senior Engineer Insight
> 小規模モデルの限界を理解し、LLMに全てを委ねず、正規表現やテンプレートといった堅牢な手法を組み合わせる「適材適所」の設計判断が、実用的なシステム構築において極めて重要である。