YutaKaのPython教室

Python の文法やライブラリ、API、環境構築について画像・動画・ソースコード付きで徹底解説!

pandas|head(), tail()でデータ先頭, 末尾を抽出!

pandasDataFrameSeriesの処理や加工中に、先頭や末尾の数行をさっと確認したい場合には、

  • head()メソッド:先頭の数行を確認
  • tail()メソッド:末尾の数行を確認

を使用します。

引数で表示する行数を指定することもできますので、その使用方法を解説していきます。

 

サンプルデータ

次の簡単なデータフレームを例に、head()tail()の使用方法を確認してみましょう。

from pprint import pprint
import pandas as pd
my_dict = {"A":0, "B":1, "C":2, "D":3, "E":4, "F":5, "G":6, "H":7, "I":8, "J":9}
df = pd.DataFrame.from_dict(my_dict, orient='index', columns=['value'])
pprint(df)
 
#   value
# A      0
# B      1
# C      2
# D      3
# E      4
# F      5
# G      6
# H      7
# I      8
# J      9

head()メソッド:先頭の数行を確認

デフォルトでは、先頭の5行を返します。

pprint(df.head())
 
#   value
# A      0
# B      1
# C      2
# D      3
# E      4

引数で正の整数を与えると、先頭からその行までを返します。

pprint(df.head(3))
 
#   value
# A      0
# B      1
# C      2

引数で負の整数を与えることもできます。

引数で指定した行数分だけ末尾から取り除いたデータを返します。

pprint(df.head(-2))
 
#   value
# A      0
# B      1
# C      2
# D      3
# E      4
# F      5
# G      6
# H      7

末尾から2行分取り除かれたデータが返されました。

tail()メソッド:末尾の数行を確認

デフォルトでは、末尾の5行を返します。

pprint(df.tail())
 
#   value
# F      5
# G      6
# H      7
# I      8
# J      9

引数で正の整数を与えると、末尾からその行数を返します。

pprint(df.head(3))
 
#   value
# H      7
# I      8
# J      9

引数で負の整数を与えることもできます。

引数で指定した行数分だけ先頭から取り除いたデータを返します。

pprint(df.head(-6))
 
#   value
# G      6
# H      7
# I      8
# J      9

先頭から6行取り除かれたデータが返されました。

おわりに

今回は、pandasDataFrameSeriesで先頭、末尾の行を確認するためのメソッド

  • head()メソッド:先頭の数行を確認
  • tail()メソッド:末尾の数行を確認

を紹介しました。

データの処理、加工をする際には、head()tail()でデータの一部を取り出して確認することがよくありますね。

こういったノウハウは、実際に手を動かしながら演習すると自然と身につくと思います。

Pythonの入門書を終えて、実践的内容に手を付けたい方には次の著書がおススメです。

Python実践データ分析100本ノック

Python実践データ分析100本ノック

 

こういった本で演習しながら、データ分析のノウハウを学んでいくのがおススメです。

Twitter@YutaKaでは、ほぼ毎日pythonに関する情報を発信しています。

気楽にツイートしているので、気軽にフォローしてください!