合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
如果你对数据科学感兴趣,那么数据清洗可能对你来说是一个熟悉的术语。如果不熟悉,那么本文先来解释一下。我们的数据通常来自多个资源,而且并不干净。它可能包含缺失值、重复值、错误或不需要的格式等。在这种混乱的数据上运行实验会导致错误的结果。因此,在将数据输入模型之前,有必要对数据进行准备。这种通过识别和解决潜在的错误、不准确性和不一致性来准备数据的做法被称为数据清洗。
在本教程中将向你介绍使用Pandas进行数据清洗的过程。
本文将使用著名的鸢尾花数据集进行操作。鸢尾花数据集包含三个品种的鸢尾花的四个特征测量值:萼片长度、萼片宽度、花瓣长度和花瓣宽度。本文将使用以下库:
使用Pandas的read_csv()函数加载鸢尾花数据集:
column_names = ['id', 'sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'species']
iris_data = pd.read_csv('data/Iris.csv', names= column_names, header=0)
iris_data.head()
TOP