【要約】【AI観察記録】完全初心者の人間に「AI」をゼロから作らせてみた(第1回:環境構築と辞書作り) [Zenn_Python] | Summary by TechDistill
> Source: Zenn_Python
Execute Primary Source
[WARN: Partial Data] 連載の第1回であり、モデル構築の工程は未完了である。
// Problem
初心者がローカル環境でのAI開発に着手した際、環境構築の壁に直面した。具体的には以下の問題が発生した。
- ・Windows環境におけるPythonのPATH設定エラー。
- ・開発環境の構築自体による作業の停滞と挫折のリスク。
// Approach
環境構築の負荷を避けるため、クラウドベースの開発環境を採用した。以下のステップで実装を進めた。
- ・Google Colabの導入によるGPU環境の即時確保。
- ・Google Driveのマウントによるデータの永続化。
- ・文字単位のトークナイズ(Tokenization)の実装。
- ・文字とIDを相互変換する辞書(stoi/itos)の作成。
// Result
テキストデータを数値配列へ変換する基礎工程を完了した。以下の成果が得られた。
- ・シェイクスピアのテキストから65種類の文字を抽出。
- ・文字とIDを相互変換するエンコード/デコード機能の構築。
- ・「Hi yuki!」の数値変換および復元試験の成功。
Senior Engineer Insight
> 教育的観点では、AIの入力を数値化する本質を理解させる優れた導入だ。しかし、実戦的なLLM開発において文字単位のトークナイズは非効率である。語彙数とシーケンス長のトレードオフを考慮すべきだ。また、Colabによる環境抽象化は、プロトタイピングの速度を劇的に向上させる。現場では、環境構築のコストを最小化する判断は極めて重要である。