2022年 11月 3日

python如何统计数据_python如何进行汇总统计?

一起学习,一起成长!

前言

在数据分析中,汇总统计是使用频率较高且应用范围最广的一种能力。计算统计的过程中,可以按照不同维度进行,比如可以按列计算,也可以按行计算。并且,在进行计算统计时,缺失值的处理又是极为重要且关键的。接下来,小编带领大家一起,学习如何使用python进行汇总统计,以及期间如何处理缺失值。

基础

Pandas对象拥有一组常用的数学和统计方法。跟对应的numpy数组方法相比,它们都是基于没有缺失数据的假设而构建的。

In [16]: df=DataFrame([[1.4,np.nan],[7.1,-4.5],[np.nan,np.nan],[0.75,-1.3]],index=[‘a’,’b’,’c’,’d’],columns=[‘one’,’two’])

In [17]: df

Out[17]:

one two

a 1.40 NaN

b 7.10 -4.5

c NaN NaN

d 0.75 -1.3

按列计算

汇总统计可以按照列进行计算,在python中默认axis=0,即按列计算,所以,一般情况,按列计算不需要特殊说明,具体内容如下:

In [18]: df.sum() #默认axis=0

Out[18]:

one 9.25

two -5.80

dtype: float64

按行计算

汇总统计可以按照行进行计算,在python中默认axis=1,即按行计算,具体内容如下:

In [19]: df.sum(axis=1)

Out[19]:

a 1.40

b 2.60

c 0.00

d -0.55

dtype: float64

NA值(skipna选项)

NA值会自动被排除,除非整个切片(这里指的是行或列)都是NA。通过skipna选项可以禁用该功能:

In [20]: df.mean(axis=1,skipna=False)

Out[20]:

a NaN

b 1.300

c NaN

d -0.275

dtype: float64

总的来说,缺失值在汇总统计中有着重要的意义,如何处理,可以按照所使用的方式进行处理。什么情况下使用按列计算,什么情况下按行计算,需要根据实际数据分析场景进行甄别!希望本文对大家有助益!

「亲,如果笔记对您有帮助,收藏的同时,记得给点个赞、加个关注哦!感谢!」

「文中代码均亲测过,若有错误之处,欢迎批评指正,一起学习,一起成长!」