こんにちは!インストラクターのフクロウです。
PandasのDataFrameを使うと、データ解析の際に欠損値の対応を行う操作は豊富に提供されています。
この記事では、欠損値を別の値で置き換えるdf.fillnaメソッドを紹介します。
fillnaメソッドを使うと
- 欠損値を特定の値で置き換える
- 欠損値を列ごとに代表値で置き換える
などの操作が簡単にできますよ!
欠損値を削除するdf.dropnaと合わせて、df.fillnaの使い方を覚えてしまいましょう!
欠損値
欠損値とは
PandasのDataFrameにおける欠損値とはNaN(Non a Number)で表される要素を言います。
NaNが入っているとNumPyの(ほとんどの)関数で通常の計算ができないので、ニューラルネットワークの学習中にこの値が紛れ込むと悲劇です。
すぐにNaNがすべての要素がNaNに汚染されてしまいます。
なのでNaNが入ったデータがあったら、これを削除したり、別の値で置き換える必要があります。
PandasにおけるNaN扱いになる要素
以下がPandasでNaN扱いになります。
- None
- np.nan
- math.nan
- 要素数が足りないところ
実際にNaNが入ったDataFrameを作ってみましょう。
# ライブラリのインポート
import numpy as np
import pandas as pd
import math
# データの作成
data = [
[1 ,2, np.nan, np.nan], # 4要素
[math.nan, 1, 2, ], # 3要素
[None, None, None, None], # 4要素
]
# データフレームの作成
df = pd.DataFrame(data)
# データフレームの表示
df
# サンプルデータ2を作成
data2 = np.arange(12).reshape((3,4))
df2 = pd.DataFrame(data2)
# 欠損値を埋め込む
df2.at[1,2] = None
df2
NaNの判別
NaNの判別方法はいくつかありますが、DataFrameを表示して見てNaNとなったものがそれである、というのが一番簡単です。
他には以下の関数でそれぞれの要素がNaNかどうかが判別できます。
- pd.isnull
- np.isnan
- math.isnan
# 要素単体に対してNaNか判別
pd.isnull(df.at[1,0]) # NaNならTrue
# DataFrame全体に対してNaNか判別
pd.isnull(df) # NaNならTrue, それ以外ならFalse
df.fillnaでNaNを置換
PandasのDataFrameで、欠損値(NaN)を別の値で置換するメソッドとしてfillnaがあります。
すべての値を同じ値に置換する
例えば全ての値を何かの値で置き換える、というそう探したいときは
df.fillna(置き換えたい値)
と書きます。
では例えば0で置き換えてみましょう。
df.fillna(0)
列ごとに代表値を計算して置換する
よくやる操作として、列ごとに平均や中央値を使ってNaNを置き換える、というものがあります。こういうときは
df.fillna(df.メソッド())
と書きます。
では中央値(median)で置き換えてみましょう。
df.fillna(df.median())
df2.fillna(df.median())
列のすべての要素がNaNの場合、平均もNaNなので値は変わりません。
ですが一部でもNaN以外の値を持っている場合は置換が効きます。
平均値や中央値を使う場合は、DataFrameがある程度大きいときにやると安心感があります。
特定の要素で特定の値に置換する
DataFrameが小さい場合や、置換するといい値がわかっている場合は置き換える値を決め打ちできます。こういうときは
df.fillna({"列の名前": 特定の値})
と書きます。
ではやってみましょう。
df.fillna(
{0:100,
1:200,
2:300
}
)
特定要素で置き換えるとき、すべての列に対して置き換えパターンを書く必要はありません。
必要な分だけ辞書型で置き換えパターンを書いておけば、それでOKです!
最初に特定要素での置換を行ってから、次に代表値での置換を行うとミスがなくていいと思います。
まとめ
この記事では、DataFrameの欠損値を置換するdf.fillna関数を紹介しました。
fillnaという名前は他のライブラリで見かけない名前ですが、その効果は絶大です。
この関数とdropnaを使いこなすことで、Pandasを使ったデータ解析の前処理プロセスが簡単に行なえますよ!