2023年五个自动化EDA库推荐-大数据–飞度网络科技 - 专业的全球云服务器、服务器租用托管、云安全服务、全球域名注册提供商

2023年五个自动化EDA库推荐

来源:互联网日期:2023/12/7 14:34:00 阅读量:(0)

EDA或探索性数据分析是一项耗时的工作，但是由于EDA是不可避免的，所以Python出现了很多自动化库来减少执行分析所需的时间。EDA的主要目标不是制作花哨的图形或创建彩色的图形，而是获得对数据集的理解，并获得对变量之间的分布和相关性的初步见解。我们在以前也介绍过EDA自动化的库，但是现在已经过了1年的时间了，我们看看现在有什么新的变化。

为了测试这些库的功能，本文使用了两个不同的数据集，只是为了更好地理解这些库如何处理不同类型的数据。

YData-Profiling

以前被称为Pandas Profiling，在今年改了名字。如果你搜索任何与EDA自动化相关的内容时，它都会作为第一个结果出现，这也是有充分理由的。

这个库最有用和最常用的是ProfileReport()命令。它生成整个数据集的详细摘要，报告对于获得数据的概览非常有用，特别是如果你不知道从哪里或如何开始分析(通常是这种情况)。这对于那些想要节省时间的新手或有经验的分析师来说非常有用。该报告提供单变量分布，突出数据质量问题，并创建相关性。让我们看一下患者风险概况数据的报告:

patient_data = pd.read_csv('/kaggle/input/patient-risk-profiles/patient_risk_profiles.csv')
 zomato_data=pd.read_csv('/kaggle/input/zomato-data-40k-restaurants-of-indias-100-cities/zomato_dataset.csv')
 
 from ydata_profiling import ProfileReport
 patient_report=ProfileReport(patient_data)
 patient_report
 
 zomato_report=ProfileReport(zomato_data)
 zomato_report

关键字：

声明：我公司网站部分信息和资讯来自于网络，若涉及版权相关问题请致电（63937922）或在线提交留言告知，我们会第一时间屏蔽删除。

有价值

0% (0)

无价值

0% (10)

上一篇：确定数据分布正态性的11种基本方法

下一篇：经营分析，如何诊断业务问题

分享转发：

发表评论请先登录后发表评论。愿您的每句评论，都能给大家的生活添色彩，带来共鸣，带来思索，带来快乐。