Finding leaked passwords with AI: How we built Copilot secret scanning
> Source: GitHub_Blog
Execute Primary Source
// Problem
従来の正規表現を用いたシークレット検出は、形式が固定されたものには有効だが、構造が多様な汎用パスワードでは誤検知(ノイズ)が多発する課題があった。また、LLM導入初期には未知のファイル形式への対応や、スキャン規模拡大に伴う計算リソースの管理が困難であった。
// Approach
LLMのプロンプト最適化やGPT-4を用いた検証モデルの導入により精度を向上させた。スケーラビリティに関しては、スキャン対象の選別や最新モデルの採用に加え、ワークロードに応じたリソース配分を行う「ワークロード認識型リクエスト管理システム」を構築した。
// Result
ミラーテストの結果、再現率を維持したまま、組織によっては誤検知を最大94%削減することに成功した。現在はGitHub Secret Protectionを利用するリポジトリの約35%で本機能が稼働しており、実用的なセキュリティ対策として定着している。
Senior Engineer Insight
> 単なるモデル性能に頼らず、評価フレームワークの構築、プロンプトエンジニアリング、リソース管理アルゴリズムの最適化という多角的なアプローチが、実用レベルのAIシステム構築には不可欠であることを示している。