【要約】Bedrockのクオーターからrequests-per-minute (RPM)がなくなったらしい [Qiita_Trend] | Summary by TechDistill

> Source: Qiita_Trend

Execute Primary Source

// Problem

従来のAmazon Bedrockのクォータ管理では、リクエストの回数（RPM）が制限の指標であった。しかし、LLMの計算負荷はリクエスト回数よりも、処理するトークン量に強く依存する。この乖離が、リソース管理上の課題となっていた。

・リクエスト回数のみでは、実際の計算負荷を正確に制御できない。
・短文リクエストの大量送信と、長文リクエストの少回数送信で負荷が異なる。
・インフラの負荷予測とクォータ設定の整合性が取りにくい。

// Approach

AWSは、リソース消費量に直結するトークン量による制御へと管理手法を移行させた。具体的には、主要なエンドポイントにおいて以下の変更を実施している。

・bedrock-runtimeエンドポイント：RPMクォータを廃止し、トークンベースの管理へ移行。
・bedrock-mantleエンドポイント：RPMクォータを適用せず、入力・出力トークン量のみで管理。
・管理指標の集約：スロットリング制御をトークン量に一本化する方針。

// Result

最新のモデルでは、RPM制限がなくなりTPM（Tokens Per Minute）のみの管理となる見通しである。筆者の検証により、モデルによって移行状況が異なることが判明した。

・Claude Sonnet 4.6：依然としてRPMクォータが存在する。
・Opus系の最新モデル（4.7等）：RPMがなくなり、TPMのみの管理となる傾向がある。
・今後の展望：新規モデルはTPM管理が標準化される可能性が高い。

Senior Engineer Insight

> LLMアプリケーションの設計思想を、リクエスト回数からトークン消費量へ転換すべきである。リクエスト頻度の設計は容易になるが、ペイロードのサイズに依存するスロットリングのリスクが高まる。特に長文生成を行う場合、TPM制限への抵触を予測したバッファリングや、リトライ戦略の高度化が不可欠となる。スケーラビリティの観点では、トークン消費の予測精度がシステムの安定性を左右する。モデルごとに制限の性質が異なる点にも注意が必要だ。

TechDistill.dev

【要約】Bedrockのクオーターからrequests-per-minute (RPM)がなくなったらしい [Qiita_Trend] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

Dagster Code Location Serverの監視システムの構築

AIエージェントの記憶引き継ぎ台帳を最小実装する

I trained a 113M-parameter earthquake LLM from absolute scratch

Flash-MSA: Accelerating Million-Token Training with Sparse Attention Kernels