Talk like caveman

> Source: Hacker_News

LLMの回答に含まれる丁寧な挨拶や冗長な説明といった「フィラー」が、トークン消費の増大、APIコストの上昇、レスポンスの遅延、および情報の視認性低下を招いている。

技術用語やコードブロックの正確性は保持しつつ、冠詞、丁寧語、ヘッジング（断定を避ける表現）などの非本質的な言語要素を徹底的に排除する出力制御手法を採用する。

技術的精度を維持したまま、平均65%（最大87%）のトークン削減を達成。レスポンス速度の向上とAPIコストの劇的な低減を実現した。

> 推論プロセスを維持しつつ出力の冗長性を削ぎ落とす手法は、エージェント運用のコスト効率と開発者の認知負荷を同時に最適化する合理的な戦略である。