【要約】MaxPooling vs AveragePooling（中間層）CIFAR-10で比較したらMNISTと逆の結果になった【Keras実験】 [Zenn_Python] | Summary by TechDistill

> Source: Zenn_Python

Execute Primary Source

// Problem

CNNの設計において、多くの開発者が中間層のPooling手法を「なんとなく」で選択している。データセットの特性を無視した手法選択は、モデルの性能を著しく低下させるリスクがある。具体的には以下の課題が挙げられる。

・Pooling手法の選択基準が、経験則や直感に依存している。
・MNIST（線画）とCIFAR-10（自然画像）で、最適な手法が逆転する現象への理解不足。
・精度向上と計算コスト（学習時間）のトレードオフに関する定量的根拠の欠如。

// Approach

筆者はKerasを用い、CIFAR-10データセットを対象に中間層のPooling構成を3パターン変えて比較実験を行った。パラメータ数を同一条件に固定し、ダウンサンプリングの性質のみが精度に与える影響を抽出している。

・パターンA（Max+Max）: MaxPoolingを2層連続で使用。
・パターンB（Avg+Avg）: AveragePoolingを2層連続で使用。
・パターンC（Mix）: 前段にMaxPooling、後段にAveragePoolingを使用。
・比較指標として、テスト精度、学習時間、パラメータ数を用いた。

// Result

CIFAR-10を用いた実験の結果、データの性質に応じたPoolingの使い分けが重要であることが判明した。精度と速度のトレードオフが明確な数値として示されている。

・精度面: Max+Max構成が67.47%を記録し、Avg+Avg構成（63.30%）を4.2ポイント上回った。
・速度面: Avg+Avg構成は、Max+Max構成よりも学習時間を約25秒短縮した。
・結論: 自然画像では強い特徴を保持するMaxPoolingが、線画ではノイズを抑制するAveragePoolingが有利である。

Senior Engineer Insight

> Poolingの選択は、単なる精度の問題ではなく、計算リソースの配分戦略に関わる。自然画像のようにテクスチャが重要なタスクでは、MaxPoolingによる特徴保持が不可欠だ。一方で、精度を一定範囲に抑えてでも推論・学習速度を優先すべきエッジ環境等では、AveragePoolingの採用は合理的な選択となる。設計者は「なんとなく」の適用を避け、入力データの統計的性質に基づいた判断を下すべきである。

TechDistill.dev

【要約】MaxPooling vs AveragePooling（中間層）CIFAR-10で比較したらMNISTと逆の結果になった【Keras実験】 [Zenn_Python] | Summary by TechDistill

// Problem

// Approach

// Result

Senior Engineer Insight

[ RELATED_KERNELS_DETECTED ]

Multi-Head Attentionを実装を通じて理解する

【技術解説】クオンツ分析ライブラリ設定で未来を予測！LSTMによる時系列予測Python実装ガイド

FashionMNISTでacc95%を達成するまで

CNNの全結合層をSAMACTに置き換えてみた ― Kerasで実装するハイブリッド画像分類モデル