一起学习,一起成长!
前言
在数据分析中,汇总统计是使用频率较高且应用范围最广的一种能力。计算统计的过程中,可以按照不同维度进行,比如可以按列计算,也可以按行计算。并且,在进行计算统计时,缺失值的处理又是极为重要且关键的。接下来,小编带领大家一起,学习如何使用python进行汇总统计,以及期间如何处理缺失值。
基础
Pandas对象拥有一组常用的数学和统计方法。跟对应的numpy数组方法相比,它们都是基于没有缺失数据的假设而构建的。
In [16]: df=DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=[‘a’,’b’,’c’,’d’],columns=[‘one’,’two’])
In [17]: df
Out[17]:
one two
a 1.40 NaN
b 7.10 -4.5
c NaN NaN
d 0.75 -1.3
按列计算
汇总统计可以按照列进行计算,在python中默认axis=0,即按列计算,所以,一般情况,按列计算不需要特殊说明,具体内容如下:
In [18]: df.sum() #默认axis=0
Out[18]:
one 9.25
two -5.80
dtype: float64
按行计算
汇总统计可以按照行进行计算,在python中默认axis=1,即按行计算,具体内容如下:
In [19]: df.sum(axis=1)
Out[19]:
a 1.40
b 2.60
c 0.00
d -0.55
dtype: float64
NA值(skipna选项)
NA值会自动被排除,除非整个切片(这里指的是行或列)都是NA。通过skipna选项可以禁用该功能:
In [20]: df.mean(axis=1,skipna=False)
Out[20]:
a NaN
b 1.300
c NaN
d -0.275
dtype: float64
总的来说,缺失值在汇总统计中有着重要的意义,如何处理,可以按照所使用的方式进行处理。什么情况下使用按列计算,什么情况下按行计算,需要根据实际数据分析场景进行甄别!希望本文对大家有助益!
「亲,如果笔记对您有帮助,收藏的同时,记得给点个赞、加个关注哦!感谢!」
「文中代码均亲测过,若有错误之处,欢迎批评指正,一起学习,一起成长!」