【要約】mdx MaaSのAPIでLLM-jp-4を使う 第2回:文章の要約と情報の抽出 [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
// Problem
研究者や開発者は、日本語に特化した高性能なLLMを安全かつ効率的に利用したいと考えている。しかし、実務においては以下の技術的課題に直面する。
- ・英語中心のLLMでは、日本語の文化的背景や知識の欠如が懸念される。
- ・PDF形式の文書は階層構造を保持しにくく、LLMへの入力に適した形式への変換が困難である。
- ・API利用時の認証情報の適切な管理や、モデルのトークン制限への対応が必要となる。
// Approach
mdx MaaSが提供するAPIと、各種ライブラリを組み合わせた処理パイプラインを構築する。具体的な手法は以下の通りである。
- ・MarkItDownライブラリを用い、PDFをLLMが理解しやすいMarkdown形式に変換する。
- ・OpenAI SDKを利用して、mdx MaaSのAPIエンドポイントへリクエストを送信する。
- ・システムプロンプトでモデルの役割を指定し、ユーザープロンプトで具体的な指示を与える。
- ・再現性を高めるため、temperatureパラメータを0に設定して実行する。
// Result
LLM-jp-4を用いて、論文等の複雑な文書から正確な要約と情報の抽出が可能となった。得られた成果は以下の通りである。
- ・背景や目的、組織体制を含む、構造化された要約の生成に成功した。
- ・プロンプトの工夫により、Function Callingを使わずとも著者名と所属の抽出を実現した。
- ・PDFからテキストデータを取り出し、LLMへ渡す一連の自動化プロセスを確立した。
Senior Engineer Insight
> 応答に5〜10分を要する点は、実運用における最大の制約である。本構成は、リアルタイムな対話には向かない。非同期のバッチ処理や、研究用途での利用が現実的である。また、16,384トークンの制限は、長文処理においてチャンク分割の設計を必須とする。MarkItDownによる構造化の精度向上も、実用化への重要な課題といえる。