Nanocode: The best Claude Code that $200 can buy in pure JAX on TPUs

> Source: Hacker_News

// Problem

単なる次トークン予測器ではなく、指示に従い、ツールを使いこなし、特定の性格を維持しながらコーディングを行う「エージェント」としての振る舞いを、限られた計算リソースで実現すること。

// Approach

JAXによる高速な学習基盤を構築。Constitutional AIに基づき、モデルの指針となる「SOUL」を定義。生成モデルと批判モデルによる反復的な合成データ生成（SFT）と、DPO（Direct Preference Optimization）による好みの最適化を組み合わせる。

// Result

1.3Bパラメータのモデルを約200ドル、9時間程度の計算コストで学習可能。コードのトークン化効率を向上させ、ツール呼び出しや特定のキャラクター性を備えたエージェントとしての動作を実現した。

Senior Engineer Insight

> 本プロジェクトの肝は、計算効率の極大化と、小規模モデルにおける「振る舞いの模倣」の戦略にある。JAX/XLAの活用によりTPUの性能を最大限に引き出しつつ、Constitutional AIの「生成→批判→修正」ループを用いることで、大規模モデルのような高度な指示追従性を小規模モデルに注入している。また、データ混合比率の調整（The Stack-V2の導入）が、汎用性能を一部犠牲にしつつもコーディング特化型モデルとしての実用性を高めている点は、ドメイン特化型LLM開発における重要な示唆である。小規模モデルであっても、適切なデータエンジニアリングと最適化手法を選択すれば、特定のタスクにおいて極めて高い費用対効果を発揮できることを証明している。