【要約】AIペルソナは市場調査の代わりになるのか? [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
市場調査のコスト削減を目的に、LLMに人物像を演じさせる「合成リサーチ」が注目されている。しかし、生成された回答が実在する人間の回答分布をどこまで正確に再現できるかという課題がある。
- ・回答の分散が消失し、全員が平均的な回答に収束する。
- ・本音ではなく、肯定的・建前的な回答に系統的に偏る。
- ・属性による差異を、実態とは異なるステレオタイプで誇張する。
- ・単純な多数派固定モデルにすら、精度で劣る場合がある。
// Approach
検証者は、実データとの乖離を定量的に測るため、内閣府の公開データをベンチマークとした検証を行った。
- ・内閣府「国民生活に関する世論調査」の回答分布を正解データとして採用。
- ・500体のAIペルソナを生成し、属性のみの条件と詳細な背景を与えるリッチ条件を比較。
- ・回答分布の差を示す指標として「総変動距離(TVD)」を使用。
- ・ランダム回答や多数派固定といったベースラインと比較し、LLMの優位性を検証。
// Result
検証の結果、合成リサーチは統計的な分布の再現や本音の把握においては、単純なベースラインにすら勝てないことが判明した。
- ・「割合の推定」や「セグメント差の予測」には不適。
- ・「具体的な生活場面」に関する設問では、リッチな指示により精度が改善。
- ・調査票の事前チェックや、仮説の幅出しといった探索的用途には限定的な有用性がある。
- ・今後の課題として、Temperature設定による分散消失の影響を検証予定。
Senior Engineer Insight
> 合成リサーチを「安価な代替手段」と捉えるのは極めて危険だ。LLMは統計的な「平均値」を生成する性質があり、実社会の多様性やノイズを削ぎ落としてしまう。エンジニアリングの観点からは、意思決定の根拠とするのではなく、プロンプトエンジニアリングによる「思考の壁打ち」や、テストデータの生成といった、決定論的ではない補助的なフェーズに留めるべきである。