読んだメモ:「データ前処理の極意」
データ前処理の極意
1. AI、IoTが日本で進まない本当の理由
2. なぜデータの前処理が必要なのか?
- IoT時代に用いるフィールドデータに対しては、従来の"前処理"以上に高度な処理が必要
- ”データクレンジング"はいわゆる従来の前処理を指す
- 名寄せ、形式合わせ、欠損値処理など
- IoT時代はさらに、
- 特徴量生成なども
- ”データクレンジング"はいわゆる従来の前処理を指す
- データの"バリューアップ"
- データ把握(異常値の把握、可視化)
- データ加工(状態分離、移動平均など)
3. AI、IoTにおけるデータ活用プロセス
- CRISP-DM(CRoss Inductry Standart Process for Data Mining):データ活用の標準プロセス
- 「経験から得た現場ノウハウ」コラムがリアルで面白い
- エクエルデータが全部図
- 夜間自動実行でサーバリソース食いつぶす
4. 実践ステップ1「ビジネスの理解」、2「データの理解」
- 基本的な統計用語、可視化手法の説明
- 意味もなく分析しまくってもダメ
- 高度な機械学習とかしなくても、可視化だけで十分わかることはある
5. 実践ステップ3「データの準備」
- データの取捨選択
- 欠損値処理
- 欠損値の意味を考えて
- その他、よくある前処理について
- データがエクセルで投げられたりしてしんどかった
6. 実践ステップ4「モデリング」
- 「ディープラーニングは4層以上のニューラルネットワークのこと」
- そうなんだ……
- プロファイリング:クラスタリングの結果を見て、意味を分析する
- 「ジニ係数」は場面によって定義が変わるので注意
7. 実践ステップ5「評価」、実践ステップ6「展開」
- 評価・改善を繰り返す
8. 実践ステップ7「データのバリューアップ」
- 業務知識・関連する知識をフルに活用し、形式的な前処理にとどまらないバリューアップを行う