pandasで重複しないユニークなデータを取り出す

2020年8月20日2020年12月21日

pandasで重複しないユニークなデータを取り出す

ユニークなデータは下のコードで取り出すことが出来ます。


pd.unique(df.[カラム名])

pd.unique

データで見てみます。


#データフレーム化
df = pd.DataFrame(fruits)
# print(df)
# item  price  stock  country    date
# 0    apple    200     20    japan  202001
# 1   orange    300     30    japan  202001
# 2   banana    150     40    japan  202001
# 3    apple    200     20    japan  202002
# 4   orange    400     28    japan  202002
# 5   banana    100     45    japan  202002
# 6    apple    200     20    japan  202003
# 7   orange    500     22    japan  202003
# 8   banana     50     60    japan  202003
# 9    apple    400     20  america  202001
# 10  orange    600     30  america  202001
# 11  banana    300     40  america  202001
# 12   apple    400     20  america  202002
# 13  orange    800     28  america  202002
# 14  banana    200     45  america  202002
# 15   apple    400     20  america  202003
# 16  orange   1000     22  america  202003
# 17  banana    100     60  america  202003

#ユニーク取得
items = pd.unique(df.item)
print(items)
#['apple' 'orange' 'banana']

countries = pd.unique(df.country)
print(countries)
#['japan' 'america']


#ユニークデータ件数取得
count_items = len(pd.unique(df.item))
print(count_items)
#['apple' 'orange' 'banana']

count_countries = len(pd.unique(df.country))
print(count_countries)
#['japan' 'america']

配列で返ってくるので「len」を使用することで「件数」を取得することが出来ました。