合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
城市管理、智慧社区、工业智能化、智慧金融、智慧医疗等社会千行百业的数字化和智能化发展,离不开以大数据和AI为基础的技术体系。我们的社会(或者我们关注的领域)每天都在产生大量的数据,这些数据有的是生产数据,有的是行为数据,如何利用好这些数据,让数据产生价值就需要对数据的产生、收集、管理、应用等方面进行数据治理。数据质量是大数据领域的一个重要特征,低质量的数据不仅浪费资源,更影响数据计算结果,数据质量的高低对大数据应用价值有着很大影响。因此,数据质量管理是数据治理的一个重要模块。
数据质量管理旨在评估和改善数据质量,提供了识别、测量、监控和提高数据资产整体质量的功能。然而,大数据平台建设初期,数据质量往往是一个容易被忽视的领域,随着数据架构的不断成熟以及开源数据质量工具的发展,数据质量管理逐步得到重视和改善。
目前,开源社区出现了许多数据质量工具,可选择的项目越来越多,下面是2023年比较热门的6个开源数据质量管理工具。
GITHUB:https://github.com/awslabs/deequ
随着Spark的应用越来越多,Deequ是一款非常适合用于Spark的质量检测工具,非常适合测试大批量数据,Spark DataFrame的任何东西都可以使用Deequ进行测试。并将结果输出到任何关系数据库、CSV文件或者日志等。Spark的作业主要使用Scala或Python语言编写,对于原生Scala,Deequ可以直接使用,但对于Python,就需要一个名为PyDeequ的包装器。
pip install pydeequ
TOP