分享在数据分析过程中最常使用的Python函数和方法

来源：千锋教育

发布人：xqq

时间： 2023-11-05 18:12:11

我们知道Pandas是Python中最广泛使用的数据分析和操作库。它提供了许多功能和方法，可以快速解决数据分析中数据处理问题。

为了更好的掌握Python函数的使用方法，我以客户流失数据集为例，分享在数据分析过程中最常使用的函数和方法。

数据如下所示：

importnumpyasnp

importpandasaspd

df=pd.read_csv("Churn_Modelling.csv")

print(df.shape)

df.columns

结果输出：

(10000,14)

Index(['RowNumber','CustomerId','Surname','CreditScore','Geography','Gender','Age','Tenure','Balance','NumOfProducts','HasCrCard','IsActiveMember','EstimatedSalary','Exited'],dtype='object')

1.删除列

df.drop(['RowNumber','CustomerId','Surname','CreditScore'],axis=1,inplace=True)

print(df[:2])

print(df.shape)

结果输出：

说明：「axis」参数设置为1以放置列，0设置为行。「inplace=True」参数设置为True以保存更改。我们减了4列，因此列数从14个减少到10列。

GeographyGenderAgeTenureBalanceNumOfProductsHasCrCard\

0FranceFemale4220.011

IsActiveMemberEstimatedSalaryExited

01101348.881

(10000,10)

2.选择特定列

我们从csv文件中读取部分列数据。可以使用usecols参数。

df_spec=pd.read_csv("Churn_Modelling.csv",usecols=['Gender','Age','Tenure','Balance'])

df_spec.head()

3.nrows

可以使用nrows参数，创建了一个包含csv文件前5000行的数据帧。还可以使用skiprows参数从文件末尾选择行。Skiprows=5000表示我们将在读取csv文件时跳过前5000行。

df_partial=pd.read_csv("Churn_Modelling.csv",nrows=5000)

print(df_partial.shape)

4.样品

创建数据框后，我们可能需要一个小样本来测试数据。我们可以使用n或frac参数来确定样本大小。

df=pd.read_csv("Churn_Modelling.csv",usecols=['Gender','Age','Tenure','Balance'])

df_sample=df.sample(n=1000)

df_sample2=df.sample(frac=0.1)

5.检查缺失值

isna函数确定数据帧中缺失的值。通过将isna与sum函数一起使用，我们可以看到每列中缺失值的数量。

df.isna().sum()

6.使用loc和iloc添加缺失值

使用loc和iloc添加缺失值，两者区别如下：

·loc：选择带标签

·iloc：选择索引

我们首先创建20个随机索引进行选择：

missing_index=np.random.randint(10000,size=20)

我们将使用loc将某些值更改为np.nan(缺失值)。

df.loc[missing_index,['Balance','Geography']]=np.nan

"Balance"和"Geography"列中缺少20个值。让我们用iloc做另一个示例。

df.iloc[missing_index,-1]=np.nan

7.填充缺失值

fillna函数用于填充缺失的值。它提供了许多选项。我们可以使用特定值、聚合函数(例如均值)或上一个或下一个值。

avg=df['Balance'].mean()

df['Balance'].fillna(value=avg,inplace=True)

fillna函数的方法参数可用于根据列中的上一个或下一个值(例如方法="ffill")填充缺失值。它可以对顺序数据(例如时间序列)非常有用。

8.删除缺失值

处理缺失值的另一个方法是删除它们。以下代码将删除具有任何缺失值的行。

df.dropna(axis=0,how='any',inplace=True)

9.根据条件选择行

在某些情况下，我们需要适合某些条件的观测值(即行)。

france_churn=df[(df.Geography=='France')&(df.Exited==1)]

france_churn.Geography.value_counts()

10.用查询描述条件

查询函数提供了一种更灵活的传递条件的方法。我们可以用字符串来描述它们。

df2=df.query('80000

11.用isin描述条件

条件可能有多个值。在这种情况下，最好使用isin方法，而不是单独编写值。

df[df['Tenure'].isin([4,6,9,10])][:3]

12.Groupby函数

PandasGroupby函数是一个多功能且易于使用的功能，可帮助获取数据概述。它使浏览数据集和揭示变量之间的基本关系更加容易。

我们将做几个组比函数的示例。让我们从简单的开始。以下代码将基于Geography、Gender组合对行进行分组，然后给出每个组的平均流。

df[['Geography','Gender','Exited']].groupby(['Geography','Gender']).mean()

13.Groupby与聚合函数结合

agg函数允许在组上应用多个聚合函数，函数的列表作为参数传递。

df[['Geography','Gender','Exited']].groupby(['Geography','Gender']).agg(['mean','count'])

以上内容为大家介绍了数据分析过程中最常使用的Python函数和方法，希望对大家有所帮助，如果想要了解更多Python相关知识，请关注 IT培训机构:千锋教育。http://www.mobiletrain.org/

声明：本站稿件版权均属千锋教育所有，未经许可不得擅自转载。

linux命令大全换页？

Python 3.0 的修改

猜你喜欢LIKE

行业资讯 更多>>

成都嵌入式哪个培训机构靠谱

成都如何选择合适的嵌入式培训机...

成都嵌入式培训哪家机构比较好

成都学习嵌入式开发如何选择培训...

技术干货

python中的filter函数功能是什么?

python delattr函数如何使用?

热

python delattr函数如何使用?

python strftime和strptime的不同分析

热

python strftime和strptime的不同分析

热

python time.strptime的格式化

热

python time.strptime的格式化

热

技术问答 在线提问>>

张同学在线提问

linux系统如何远程桌面连接

Linux系统上的远程桌面连接可以通过多种方式...详情

刘同学在线提问

unity状态机具体怎么调出来

确保你的游戏对象上有一个Animator组件。如果...详情

师资团队 更多>>

陆神

原去哪儿网高级架构师

北京大学计算机系毕业

HTML5学科教研总监

千锋威哥

OCP认证专家

15年以上开发经验

Java学科首席技术官

宋宋

原阿里后端架构师

北京邮电大学硕士

Python学科首席技术官

卢老师

北京大学博士后

北京科技大学博士

人工智能学科总监

索尔

原阿里后端架构师

浙工大计算机系毕业

Java学科高级讲师

jackfrued

曾任职华为成都研究所

计算机应用技术博士

Python学科教学主管

快速通道 更多>>

课程介绍
点击获取大纲
就业前景
查看就业薪资
学习费用
了解课程价格
优惠活动
领取优惠券
学习资源
领3000G教程
师资团队
了解师资团队
实战项目
获取项目源码
开班地区
查看来校路线

网友热搜更多>>

IT行业年龄有限制吗女生学IT Java薪资待遇零基础Web培训 Python就业如何学UI设计大数据学习路线 java培训学费软件测试培训转行学Linux 网络安全基础知识网络营销培训 unity培训 30岁还能学it吗大数据技术学什么 python培训费