DataFrame や Series の重複データをチェック・削除-python

DataFrame や Series の重複データチェックは duplicated メソッドと any メソッドの組み合わせで実行できます。データを削除したければ drop_duplicates メソッドを使います。

DataFrameの場合

重複チェック

結果は True、つまり重複ありです。

ちなみに、duplicated 単独だと boolean のシリーズが返ってきます。

この出力結果に True が含まれているかどうかを調べるのが any です。

重複をなくすと

もちろん False です。

部分的な重複チェック

行全体ではなく、部分的な重複を調べることもできます。

重複データを削除

重複データは drop_duplicates メソッドで削除できます。

デフォルトでは前のデータが残り、後ろのデータが削除されます。

後のデータを残したければ、オプションで keep=’last’ を指定します。

Seriesの場合

Series も同じように重複を処理できます。

コメントはお気軽に