【要約】アインシュタインAIに参照画像を渡したら「人間らしさ」が変わった — Soul-Twin r-14 実装記録 [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
開発者は、AIのキャラクター性を深める際、従来のテキスト指示だけでは限界を感じていた。指示文のみでは、出力が学術的・構造的な内容に偏る傾向があった。また、画像そのものを解析させる手法は、計算コストや実装の複雑性が増大する。AIの「連想」を効果的に引き出すための、軽量なコンテキスト注入手法が求められていた。
// Approach
実装チームは、画像情報を「CaptionとURLのテキスト」としてプロンプトに注入する手法を採用した。具体的には以下のステップで実装を行った。
- ・
twin_lecturesテーブルにJSONB形式でメディア情報を保存する設計とした。 - ・
_build_media_block関数により、CaptionとURLをテキスト化してプロンプト末尾に追記する。 - ・フロントエンドでは、Reactを用いてURLのバリデーションとMermaid.jsによる図解描画を実装した。
// Result
3回の検証実験を通じて、画像情報の有無がAIの出力特性に与える影響を定量的に確認した。
- ・画像なしの場合、出力は学術的で緻密な論理構造に留まった。
- ・宇宙の画像のみの場合、哲学的で深淵な内容へと変化した。
- ・人物写真を含む場合、ユーモアや個人的なエピソードが増え、高い「個人性」を示した。
- ・Mermaidによる図解も、構文エラーなく安定して描画された。
Senior Engineer Insight
> 画像認識を使わず、CaptionというメタデータでLLMの連想を制御する設計は合理的だ。推論コストを抑えつつ、プロンプトエンジニアリングの精度をCaptionの記述力に集約できる。ただし、Captionの質がアウトプットの質を左右するため、メタデータの管理が運用の要となる。スケーラビリティの観点からも、軽量なテキスト注入は優れた選択である。