読んだメモ:「データ前処理の極意」

データ前処理の極意

1. AI、IoTが日本で進まない本当の理由

2. なぜデータの前処理が必要なのか?

  • IoT時代に用いるフィールドデータに対しては、従来の"前処理"以上に高度な処理が必要
    • ”データクレンジング"はいわゆる従来の前処理を指す
      • 名寄せ、形式合わせ、欠損値処理など
    • IoT時代はさらに、
      • 特徴量生成なども
  • データの"バリューアップ"
    • データ把握(異常値の把握、可視化)
    • データ加工(状態分離、移動平均など)

3. AI、IoTにおけるデータ活用プロセス

  • CRISP-DM(CRoss Inductry Standart Process for Data Mining):データ活用の標準プロセス
  • 「経験から得た現場ノウハウ」コラムがリアルで面白い
    • エクエルデータが全部図
    • 夜間自動実行でサーバリソース食いつぶす

4. 実践ステップ1「ビジネスの理解」、2「データの理解」

  • 基本的な統計用語、可視化手法の説明
  • 意味もなく分析しまくってもダメ
  • 高度な機械学習とかしなくても、可視化だけで十分わかることはある

5. 実践ステップ3「データの準備」

  • データの取捨選択
  • 欠損値処理
    • 欠損値の意味を考えて
  • その他、よくある前処理について
  • データがエクセルで投げられたりしてしんどかった

6. 実践ステップ4「モデリング

7. 実践ステップ5「評価」、実践ステップ6「展開」

  • 評価・改善を繰り返す

8. 実践ステップ7「データのバリューアップ」

  • 業務知識・関連する知識をフルに活用し、形式的な前処理にとどまらないバリューアップを行う