taqqun blog

読んだメモ：「データ前処理の極意」

データ前処理の極意

1. AI、IoTが日本で進まない本当の理由

2. なぜデータの前処理が必要なのか？

IoT時代に用いるフィールドデータに対しては、従来の"前処理"以上に高度な処理が必要
- ”データクレンジング"はいわゆる従来の前処理を指す
  - 名寄せ、形式合わせ、欠損値処理など
- IoT時代はさらに、
  - 特徴量生成なども
データの"バリューアップ"
- データ把握（異常値の把握、可視化）
- データ加工（状態分離、移動平均など）

3. AI、IoTにおけるデータ活用プロセス

CRISP-DM（CRoss Inductry Standart Process for Data Mining）：データ活用の標準プロセス
「経験から得た現場ノウハウ」コラムがリアルで面白い
- エクエルデータが全部図
- 夜間自動実行でサーバリソース食いつぶす

4. 実践ステップ1「ビジネスの理解」、2「データの理解」

基本的な統計用語、可視化手法の説明
意味もなく分析しまくってもダメ
高度な機械学習とかしなくても、可視化だけで十分わかることはある

5. 実践ステップ3「データの準備」

データの取捨選択
欠損値処理
- 欠損値の意味を考えて
その他、よくある前処理について
データがエクセルで投げられたりしてしんどかった

6. 実践ステップ4「モデリング」

「ディープラーニングは4層以上のニューラルネットワークのこと」
- そうなんだ……
プロファイリング：クラスタリングの結果を見て、意味を分析する
「ジニ係数」は場面によって定義が変わるので注意

7. 実践ステップ5「評価」、実践ステップ6「展開」

評価・改善を繰り返す

8. 実践ステップ7「データのバリューアップ」

業務知識・関連する知識をフルに活用し、形式的な前処理にとどまらないバリューアップを行う