您当前位置:资讯中心 >大数据 >浏览文章

严把数据质量关,用Pandas轻松进行七项基本数据检查

来源:互联网 日期:2023/11/28 18:15:42 阅读量:(0)

一、简介

作为一名数据工程师,面对糟糕的数据质量,该如何进行必要的数据质量检查呢?可以使用Pandas执行快捷的数据质量检查。

本文使用scikit-learn提供的California Housing数据集。

【数据集】:https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html

二、California Housing数据集概述

本文使用Scikit-learn数据集模块中的California Housing数据集。该数据集包含20000多条记录,涵盖了八个数值特征和一个目标房价中值。

【数据集模块】:https://scikit-learn.org/stable/datasets/real_world.html#real-world-datasets

接下来,将数据集读取到一个名为df的Pandas数据帧中:

from sklearn.datasets import fetch_california_housing
import pandas as pd

# 获取California Housing数据集
data = fetch_california_housing()

# 将数据集转换为Pandas DataFrame
df = pd.DataFrame(data.data, columns=data.feature_names)

# 添加目标列
df['MedHouseVal'] = data.target
关键字:
声明:我公司网站部分信息和资讯来自于网络,若涉及版权相关问题请致电(63937922)或在线提交留言告知,我们会第一时间屏蔽删除。
有价值
0% (0)
无价值
0% (10)

分享转发:

发表评论请先登录后发表评论。愿您的每句评论,都能给大家的生活添色彩,带来共鸣,带来思索,带来快乐。