[STATUS: ONLINE] 当サイトは要約付きのエンジニア向けFeedです。

TechDistill.dev

[DISCLAIMER] 当サイトの要約は正確性を保証しません。気になる記事は必ず原文を確認してください。
cd ..

【要約】Bedrockのクオーターからrequests-per-minute (RPM)がなくなったらしい [Qiita_Trend] | Summary by TechDistill

> Source: Qiita_Trend
Execute Primary Source

// Problem

従来のAmazon Bedrockのクォータ管理では、リクエストの回数(RPM)が制限の指標であった。しかし、LLMの計算負荷はリクエスト回数よりも、処理するトークン量に強く依存する。この乖離が、リソース管理上の課題となっていた。


  • リクエスト回数のみでは、実際の計算負荷を正確に制御できない。
  • 短文リクエストの大量送信と、長文リクエストの少回数送信で負荷が異なる。
  • インフラの負荷予測とクォータ設定の整合性が取りにくい。

// Approach

AWSは、リソース消費量に直結するトークン量による制御へと管理手法を移行させた。具体的には、主要なエンドポイントにおいて以下の変更を実施している。


  • bedrock-runtimeエンドポイント:RPMクォータを廃止し、トークンベースの管理へ移行。
  • bedrock-mantleエンドポイント:RPMクォータを適用せず、入力・出力トークン量のみで管理。
  • 管理指標の集約:スロットリング制御をトークン量に一本化する方針。

// Result

最新のモデルでは、RPM制限がなくなりTPM(Tokens Per Minute)のみの管理となる見通しである。筆者の検証により、モデルによって移行状況が異なることが判明した。


  • Claude Sonnet 4.6:依然としてRPMクォータが存在する。
  • Opus系の最新モデル(4.7等):RPMがなくなり、TPMのみの管理となる傾向がある。
  • 今後の展望:新規モデルはTPM管理が標準化される可能性が高い。

Senior Engineer Insight

> LLMアプリケーションの設計思想を、リクエスト回数からトークン消費量へ転換すべきである。リクエスト頻度の設計は容易になるが、ペイロードのサイズに依存するスロットリングのリスクが高まる。特に長文生成を行う場合、TPM制限への抵触を予測したバッファリングや、リトライ戦略の高度化が不可欠となる。スケーラビリティの観点では、トークン消費の予測精度がシステムの安定性を左右する。モデルごとに制限の性質が異なる点にも注意が必要だ。

[ RELATED_KERNELS_DETECTED ]

cd ..

> System.About()

TechDistillは、膨大な技術記事から情報の真髄(Kernel)のみを抽出・提示します。