【要約】「正規表現が0.002ミリ秒遅かった」という理由だけで、全角/半角判定をすべて『ビット演算』で実装した話 [Qiita_Trend] | Summary by TechDistill

> Source: Qiita_Trend

Execute Primary Source

// Problem

開発者が、数GB規模のテキストログをパースする自作ツールを開発した際、正規表現の実行コストが課題となった。大量の文字列をループ内で処理する際、正規表現エンジンの呼び出しが累積的な遅延を招いたためである。具体的には以下の問題に直面した。

・正規表現エンジンによるコンテキストスイッチの発生。
・秒間数百万回規模の判定処理における実行時間の増大。
・既存の正規表現（\xA1-\xDF）が半角カタカナを誤判定するUnicode範囲の誤解。

// Approach

開発者は、正規表現エンジンを介さず、文字コードを直接操作するビット演算による判定手法を採用した。文字のバイト値を直接参照することで、判定処理を極限まで軽量化することを目指した。具体的な手法は以下の通りである。

・charCodeAt() で取得した数値に対し、ビットマスクを適用。
・ASCII領域（0x0020-0x7E）をビット演算で即座に判定。
・半角カタカナ領域（0xFF61-0xFF9F）をビットシフトとマスクで絞り込み。

// Result

開発者は、ビット演算による実装が正規表現より約3.1倍高速であることをベンチマークで示した。しかし、単純な数値比較との差はほぼないことも判明した。計測結果は以下の通りである。

・正規表現（修正版）の実行時間：約222 ms。
・ビット演算実装の実行時間：約71 ms。
・単純な数値比較（>=/<=）の実行時間：約70 ms。
・ビット演算と数値比較の速度差は無視できるレベルであり、可読性では数値比較が優位である。

Senior Engineer Insight

> 本件は極端な最適化の事例だが、実務における重要な教訓を含んでいる。まず、正規表現のUnicode範囲指定ミスは、実務で致命的なバグを招く。次に、現代のJIT環境では、ビット演算の優位性は数値比較に対して限定的である。したがって、マイクロ最適化に多大な工数を投じる前に、コードの可読性と保守性を優先すべきである。技術的な探求心は重要だが、投資対効果（ROI）の観点から、適切な抽象化レベルを選択する判断力が求められる。

TechDistill.dev

【要約】「正規表現が0.002ミリ秒遅かった」という理由だけで、全角/半角判定をすべて『ビット演算』で実装した話 [Qiita_Trend] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

Pythonの\dは全角数字にもマッチする——気づかず事故る正規表現のUnicode既定

Show HN: Mojibake – a low-level Unicode library written in C

The footgun of right-to-left decorative characters

正規表現完全ガイド：Pythonで文字列処理を自動化する実践パターン30選