【要約】非エンジニアがGeminiをOCRツールとして活用してみる~名刺情報編 [Qiita_Trend] | Summary by TechDistill
> Source: Qiita_Trend
Execute Primary Source
// Problem
Qiitaのビジネス部門担当者が、営業活動で蓄積される名刺情報の管理において、以下の課題に直面した。
- ・名刺管理専用のSaaS導入に伴うコスト負担。
- ・SFA(営業支援システム)への手動入力作業による工数増大。
- ・OCRツール単体では、データの整形や表記揺れの修正が困難である点。
// Approach
Geminiのマルチモーダル機能を活用し、プロンプトエンジニアリングで構造化データを得る手法を採用した。
- ・Geminiへ名刺画像と指示文を同時に送信する。
- ・出力形式を「マークダウン形式の表」に指定し、Excelへの貼り付けを容易にする。
- ・「姓名の間にスペースを入れる」等のルールを明示し、データクレンジングを自動化する。
- ・セキュリティ確保のため、学習に利用されないエンタープライズ環境での利用を前提とする。
// Result
非エンジニアがプロンプトを工夫することで、以下の成果を得られることを示した。
- ・名刺画像から、会社名、氏名、メールアドレス等の項目を正確に抽出。
- ・ExcelやGoogleスプレッドシートへ、即座にインポート可能な形式で出力。
- ・後続のデータ修正作業を最小限に抑える、整形済みのリスト生成。
Senior Engineer Insight
> 本手法は、非エンジニアが業務課題をAIで解決する「市民開発」の好例である。プロンプトによるデータ整形は、小規模なタスクには極めて有効だ。しかし、大量の名刺を処理する場合、手動のアップロードはスケーラビリティに欠ける。実戦投入には、Gemini APIを用いた自動化パイプラインの構築が望ましい。また、個人情報の取り扱いに関するガバナンス遵守が、運用上の絶対条件となる。