【要約】Finding leaked passwords with AI: How we built Copilot secret scanning [GitHub_Blog] | Summary by TechDistill

> Source: GitHub_Blog

従来の正規表現を用いたシークレット検出は、形式が固定されたものには有効だが、構造が多様な汎用パスワードでは誤検知（ノイズ）が多発する課題があった。また、LLM導入初期には未知のファイル形式への対応や、スキャン規模拡大に伴う計算リソースの管理が困難であった。

LLMのプロンプト最適化やGPT-4を用いた検証モデルの導入により精度を向上させた。スケーラビリティに関しては、スキャン対象の選別や最新モデルの採用に加え、ワークロードに応じたリソース配分を行う「ワークロード認識型リクエスト管理システム」を構築した。

ミラーテストの結果、再現率を維持したまま、組織によっては誤検知を最大94%削減することに成功した。現在はGitHub Secret Protectionを利用するリポジトリの約35%で本機能が稼働しており、実用的なセキュリティ対策として定着している。

> 単なるモデル性能に頼らず、評価フレームワークの構築、プロンプトエンジニアリング、リソース管理アルゴリズムの最適化という多角的なアプローチが、実用レベルのAIシステム構築には不可欠であることを示している。

TechDistill.dev