使用熊猫时,如果缺少数据点,熊猫将自动使用NULL或NAN填充该缺失点。
首先让我们使用Numpy和Pandas定义一个dataFrame。
import numpy as np
import pandas as pd
d = {'A':[1,2,np.nan],'B':[3,np.nan,np.nan],'C':[4,5,6]}
df = pd.DataFrame(d)
print(df)输出结果
A B C 0 1.0 3.0 4 1 2.0 NaN 5 2 NaN NaN 6
熊猫提供以下选项来处理丢失的数据,
# 删除具有null或NAN值的行 print(df.dropna()) ''' A B C 0 1.0 3.0 4 '''
# 删除具有null或NAN值的列 print(df.dropna(axis=1)) ''' C 0 4 1 5 2 6 '''
指定一个阈值,以不丢弃任何数量的非NA值。
# 不删除第二行,因为, # 它具有小于2的NAN值。 print(df.dropna(thresh=2)) ''' A B C 0 1.0 3.0 4 1 2.0 NaN 5 '''
print(df.fillna('empty'))
'''
A B C
0 1 3 4
1 2 empty 5
2 empty empty 6
'''