Raspberry Pi 4でBonsaiを動かしたよ
> Source: Qiita_Trend_RSS
Execute Primary Source
// Problem
1ビットモデルであるBonsaiを動作させるには、標準のllama.cppでは対応していないという技術的制約がある。また、x64向けにはビルド済みバイナリが存在するが、Raspberry Pi 4のようなarm64環境向けには提供されていないため、ソースコードからのビルドが必要となる。
// Approach
PrismML-Engが提供するカスタマイズ版llama.cppのソースコードを取得し、OpenBLASを利用したビルドを行う。具体的には、cmakeを用いて依存ライブラリと共にコンパイルし、Hugging FaceからGGUF形式のモデルをダウンロードしてllama-cliで実行する手順をとっている。
// Result
Raspberry Pi 4において、Bonsai-1.7Bモデルの動作に成功した。生成速度は3.3 tokens/secであり、実行時にはCPUがフル稼働するものの、8GBのメモリ環境下ではメモリ使用量に十分な余裕があることが確認された。
Senior Engineer Insight
> 1ビット量子化は、パラメータを極限まで圧縮することでメモリ帯域のボトルネックを解消し、エッジデバイスでのLLM実行を可能にする技術である。本件ではOpenBLAS(高度な線形代数計算ライブラリ)による演算最適化が重要となる。3.3 tokens/secという速度は、対話型AIとしては実用的な下限に近いが、Raspberry Pi 4という限られたリソースで動作している点を考慮すると、モデルの軽量化の有効性が示されている。