您当前位置:资讯中心 >大数据 >浏览文章

Python Pandas数据预处理:你知道数据标准化吗?

来源:互联网 日期:2023/11/27 13:58:00 阅读量:(0)


数据预处理包括以下几个方面:

  • 缺失值处理
  • 数据格式化
  • 数据规范化
  • 数据标准化
  • 数据分箱(分组)

标准化经常容易与规范化混淆,但它们指的是不同的东西。规范化涉及将不同比例的度量值调整到一个共同的比例,而标准化则是将特征值转换为均值为零,标准差为1的分布。标准化也是通过 z-score 转换来实现的,其中新值是用当前值与平均值之间的差,除以标准差计算得来的。

Z-score 是一种统计度量值,用于确定单个数据点与数据集其余部分的距离,它可以用来检测数据集中的异常值。

在本教程中,我们将考虑两种类型的标准化:

  • z 得分(z-score)
  • z 映射(z-map)

一、数据准备(Data Preparation)

本教程的示例数据集还是继续沿用上一个教程(Part 3)中的新冠肺炎数据集,获取方式见上一个教程的文末。

首先,我们需要导入 Python pandas 库,并通过 read_csv() 函数读取数据集。然后我们可以删除所有具有 NaN 值的列,通过 dropna() 函数来实现的。

import pandas  as pd


df = pd.read_csv('datasets/dpc-covid19-ita-regioni.csv')
df.dropna(axis=1, inplace=True)
df.tail(10)
关键字:
声明:我公司网站部分信息和资讯来自于网络,若涉及版权相关问题请致电(63937922)或在线提交留言告知,我们会第一时间屏蔽删除。
有价值
0% (0)
无价值
0% (10)

分享转发:

发表评论请先登录后发表评论。愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。