合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
作为一名数据工程师,面对糟糕的数据质量,该如何进行必要的数据质量检查呢?可以使用Pandas执行快捷的数据质量检查。
本文使用scikit-learn提供的California Housing数据集。
【数据集】:https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html
本文使用Scikit-learn数据集模块中的California Housing数据集。该数据集包含20000多条记录,涵盖了八个数值特征和一个目标房价中值。
【数据集模块】:https://scikit-learn.org/stable/datasets/real_world.html#real-world-datasets
接下来,将数据集读取到一个名为df的Pandas数据帧中:
from sklearn.datasets import fetch_california_housing
import pandas as pd
# 获取California Housing数据集
data = fetch_california_housing()
# 将数据集转换为Pandas DataFrame
df = pd.DataFrame(data.data, columns=data.feature_names)
# 添加目标列
df['MedHouseVal'] = data.target
TOP