使用 PandasGUI 彻底改变数据分析

2023年06月06日 由 daydream 发表 69902 0
在当今数据驱动的世界中,有效的数据分析对于企业至关重要,而 Pandas 是一款用于操作和清理数据的 Python 库,已经成为一项不可或缺的资产。虽然对于初学者或喜欢更视觉化学习方式的人来说并不容易学习。但是 PandasGUI 提供了一个非常好的解决方案:一个具有图形用户界面的库,能够简化数据操作和可视化功能。本文将介绍如何安装 PandasGUI 并展示其出色的功能,以提高数据分析能力。


PandasGUI 入门


要开始使用PandasGUI,第一步是下载其软件包。你可以通过在命令行中运行以下命令来执行此操作:



现在,你可以使用以下命令加载和导入它:



如果你使用的是Windows以外的其他操作系统,则由于缺少环境变量APPDATA,你可能会遇到一些问题。如果你使用的是Mac OS或Linux并尝试导入PandasGUI,则会收到类似的错误:



 

为了解决这个问题,一个简单的解决方法是将空字符串赋值给导致错误的环境变量。这样做可以避免任何错误,让你的代码继续运行,而不会中断——这是一种高效的解决方法,可以快速缓解问题。



现在,你可以毫无错误地导入它。你可能会收到一条警告消息,这是正常的。出现此警告的原因是 Mac OS 中缺少某些推荐接口的实现,因此系统会发出此警告。



最后一步是加载一个数据集,用于演示该库的功能。你可以加载自己选择的结构化数据集,也可以使用PandasGUI可用的数据集。在本文中,我们将使用PandasGUI库附带的Titanic数据集。



现在,我们已经准备好启动 PandasGUI。只需像下面的代码所示调用 show() 函数即可:



执行这些命令后,将打开一个新窗口以显示你上传的数据框。


PandasGUI功能


用户界面非常简单。它由以下组件组成。我将在后面的小节中介绍它们。

  • 查看和排序数据帧

  • 重塑数据帧

  • 数据帧筛选

  • 汇总统计

  • 交互式绘图


查看和排序数据帧

PandasGPU 的第一个功能是按升序和降序查看和排序数据帧。这是数据探索的重要步骤,可以轻松完成,如下图所示:



重塑数据帧

PandasGUI提供了两种重塑数据帧的方法,即pivot和melt。Pivot通过将值从一列转移到多列来转换数据帧。当你试图通过围绕特定列进行数据重组时,可以使用它。通过为数据透视操作指定索引和列,你可以更轻松地重塑数据帧。

另一方面,melt方法使你能够取消数据帧,将多个列合并为一个列,同时将其他列作为变量进行维护。当从宽格式转换为长格式或规范数据集时,此功能特别有用。

在下图中,我们将使用pivot方法来重塑Titanic数据帧:



数据帧筛选

在许多情况下,你希望根据某些条件过滤数据集,以进一步理解数据或从数据集中提取特定部分。要首先使用PandasGUI在数据上应用过滤器,你将转到过滤器部分并编写每个过滤器,然后应用它。假设我们希望只接收以下乘客:


  • 属于 Pclass 3

  • 在海难中幸存下来

  • 年龄在30至40岁之间


因此,以下是我们将应用于数据集的四个过滤器:

  • 性别 == “男性”

  • Pclass == '3'

  • 幸存下来==1

  • 30 < 年龄 < 40 岁


下面图是将这四个过滤器应用于 Titanic 数据集的指南:



汇总统计

你还可以使用 PandasGUI 为数据帧提供详细的统计概述。这将包括数据集每列的平均值、标准、最小值和最大值。



交互式绘图

最后,PandasGUI为你的数据集提供了强大的交互式绘图选项,其中包括:

  • 直方图

  • 散点图

  • 线图

  • 条形图

  • 框图

  • 小提琴绘图

  • 3D 散点图

  • 热图

  • 等值线图

  • 饼图

  • 斯普洛姆图

  • 词云




在下图中,我们将为数据集创建三个交互式:饼图、条形图和单词云。



本文重点介绍PandasGUI的功能,这是一个功能强大的库,它为广泛使用的Pandas库添加了图形用户界面。我们首先演示了它的安装,加载了一个示例数据集,并探索了过滤、排序和统计分析等功能。

 

来源:https://www.kdnuggets.com/2023/06/revolutionizing-data-analysis-pandasgui.html
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消