pandas输出基本信息,df.info()和df.describe()函数详解
一、基本统计量
1、df.info()函数
info()函数展示数据表基本信息:
- index
- 列名
- 每列不是空值的计数
- 每列数据类型
- 占用内存
接下来通过代码进行展示,先生成一份数据,便于展示。
import pandas as pd
data = {
"name":['张三',"李四","王二","周六"],
"age":[20,19,23,22],
"hometown":["Anhui","Jiangsu","Zhejiang","Hunan"],
}
df = pd.DataFrame(data)
df.info()
输出结果如下:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 name 4 non-null object
1 age 4 non-null int64
2 hometown 4 non-null object
dtypes: int64(1), object(2)
memory usage: 228.0+ bytes
DataFrame.info(verbose=None, buf=None, max_cols=None, memory_usage=None, show_counts=None)
info函数一共有6个函数。
verbose
默认为Ture
,控制函数是否展示表格详细的信息。- buf:如果提供可写入对象,输出将被写入这个对象而不是打印到标准输出。这对于捕获输出到字符串或文件中很有用。
max_cols
:指定要显示的列的最大数量。如果DataFrame的列数超过这个值,则只显示前max_cols
列的信息,其余列的信息将被省略,并在输出中注明。默认为None
显示所有信息。memory_usage
- 控制是否显示内存使用情况以及显示的详细程度。
True
或'deep'
:显示DataFrame元素占用的内存(可能较慢,因为需要深入检查每个元素)。False
或'shallow'
:仅显示对象本身的内存占用(不包括元素)。- 默认为
'deep'
。
show_counts
- 当设置为
True
时,显示每列的非空值数量。 - 当设置为
False
时,不显示每列的非空值数量。
- 当设置为
2、df.describe()
展示数据统计量
函数主要展示计数、平均值、标准差、最小值、四分之一分位点、二分之分位点、四分之三分位点、最大值。
df.describe() #统计信息
结果如下:
|age|
|---|
|count|4.000000|
|mean|21.000000|
|std|1.825742|
|min|19.000000|
|25%|19.750000|
|50%|21.000000|
|75%|22.250000|
|max|23.000000|
percentiles
:指定要包括的其他百分位数,例如percentiles
=[.25, .5, .75]将返回第一、第二和第三四分位数。include
:指定要包括的数据类型,默认为'all',可以设置为'all', 'nums', 或 'object'。exclude
:指定要排除的数据类型。
比如输出一个混乱的分位数[.45,.65,.87,.96,.99]f
df.describe(percentiles=[.45,.65,.87,.96,.99])
输出结果:
|age|
|---|
|count|4.000000|
|mean|21.000000|
|std|1.825742|
|min|19.000000|
|45%|20.700000|
|50%|21.000000|
|65%|21.900000|
|87%|22.610000|
|96%|22.880000|
|99%|22.970000|
|max|23.000000|
3、其他函数
pandas还拥有众多展示基本信息的函数,这里展示一部分:
df.sum
求和df.median
中位数df.mean
平均值df.min
最小值df.max
最大值df.idxmin
返回最小值列名和index,参数axisdf.idxmax
返回最大值列名和index,参数axisdf.corr
相关系数df.cov
协方差df['column'].unique()
找出唯一值df['column'].nunique()
找出唯一值的数量df.sort_index
按照index排序df.sort_values
按照值排序,参数key可以使用函数
pandas输出基本信息,df.info()和df.describe()函数详解pandas输出基本信息,df.info()和df.describe()函数详解pandas输出基本信息,df.info()和df.describe()函数详解pandas输出基本信息,df.info()和df.describe()函数详解pandas输出基本信息,df.info()和df.describe()函数详解pandas输出基本信息,df.info()和df.describe()函数详解pandas输出基本信息,df.info()和df.describe()函数详解pandas输出基本信息,df.info()和df.describe()函数详解pandas输出基本信息,df.info()和df.describe()函数详解