【要約】アインシュタインAIに参照画像を渡したら「人間らしさ」が変わった — Soul-Twin r-14 実装記録 [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
開発チームは、AIの生成テキストにおける「人間らしさ」や「特定のペルソナ」の制御に課題を感じていた。従来のテキストベースの指示だけでは、対象の持つ深い歴史的背景や個性を引き出すのが困難であったため、以下の問題に直面していた。
- ・テキスト指示のみでは、特定の人物像や文脈を十分に再現できない。
- ・高コストなマルチモーダルモデルを導入せずに、視覚的文脈をAIに理解させる必要がある。
- ・画像情報の入力ミスが、プロンプトの品質を低下させるリスクがある。
// Approach
開発者は、画像情報を「視覚データ」ではなく「連想を促すテキスト情報」として扱う設計を採用した。具体的には、以下のステップでシステムを構築している。
- ・DB(PostgreSQLのJSONB)に、画像のURLとCaptionをセットで保存する仕組みを実装した。
- ・
_build_media_block()関数により、CaptionとURLをテキスト形式に変換し、システムプロンプトの末尾に自動注入する処理を構築した。 - ・フロントエンドでURLとCaptionのバリデーションを行い、無効なデータがプロンプトに混入するのを防いだ。
- ・Mermaid.jsを用いて、AIが生成した構造化データを動的に図解表示する機能を実装した。
// Result
アインシュタインAIを用いた3回の講演実験により、画像情報の注入が生成内容に劇的な変化を与えることを確認した。実験の結果、以下の成果が得られた。
- ・画像なしの場合、学術的で構造化された硬い文体となった。
- ・宇宙の画像のみを渡した場合、哲学的で深遠な内容へと変化した。
- ・アインシュタインの写真を加えた場合、ユーモアや個人的なエピソードが増え、人間らしさが顕著に向上した。
- ・Mermaidによる図解生成も、複雑な構造を正確に描画することに成功した。
Senior Engineer Insight
> 非常に合理的かつ賢明な設計だ。高コストなVisionモデルに頼らず、テキストによる「連想(Association)」を制御することで、低レイテンシかつ低コストにペルソナを制御している。Captionの品質が生成の質を左右するため、ユーザーがいかに具体的な記述を行えるかというUX設計が、システムの性能を決定づける鍵となるだろう。実戦投入においては、Captionの自動生成機能などを検討すべきだ。