五分钟技术趣谈 | Apache Paimon浅析及在威胁情报中的应用-大数据–飞度网络科技 - 专业的全球云服务器、服务器租用托管、云安全服务、全球域名注册提供商

五分钟技术趣谈 | Apache Paimon浅析及在威胁情报中的应用

来源:互联网日期:2023/9/3 19:21:07 阅读量:(0)

Part 01

Apache Paimon是什么？

Apache Paimon是一种多功能的流数据湖平台，支持高速数据摄取、变更数据跟踪和实时分析，它为读/写操作提供灵活的架构，并与各种计算引擎（如Apache Flink、Apache Hive、Apache Spark和Trino）集成。Paimon利用列式文件存储和LSM树结构进行高效的数据更新和查询。它提供连接器，用于消息队列、OLAP系统和批量存储的统一存储。Paimon的表抽象可以无缝的批处理和流处理执行模式，用于数据处理。

图1 Apache Paimon架构图

Part 02

Apache Paimon的特点

Apache Paimon作为一个数据湖平台，目前具有以下几个主要特点：（1）大规模实时更新；（2）数据表局部更新；（3）流批一体读写。

- 大规模实时更新

Paimon 是一种新颖的数据存储系统，它结合了湖存储、LSM 和列式格式（如ORC、Parquet）等多种技术，为湖存储带来了大规模实时更新能力。其中，LSM 数据结构的追加写能力是 Paimon 实现高性能的关键。Paimon 的设计使得它可以在大规模的数据输入场景中提供出色的性能表现，同时支持快速的查询和分析操作。其特点如下：

高容错性：LSM 的多版本存储机制，保障数据可靠性和恢复能力
高可扩展性：LSM 的水平扩展能力非常强，可以支持 PB 级别的数据规模
高灵活性：Paimon 支持多种列式格式，可以根据不同的业务需求选择最适合的格式
高可定制性：Paimon 提供了丰富的配置选项，可以根据不同的场景进行优化和定制。

- 数据表局部更新

在数据仓库的业务场景中，宽表数据模型是非常常见的。它是指将业务主体相关的指标、维表和属性关联在一起的模型表，也可以泛指将多个事实表和多个维度表相关联到一起形成的宽表。这种模型能够帮助我们更好地理解业务数据，提高数据分析的效率。Paimon开发了一个 Partial-Update 合并引擎。它可以根据相同的主键实时合并多条流，形成 Paimon 的一张大宽表。而且，借助它里面的LSM 树的延迟 Compaction 机制，我们可以用较低的成本完成合并，从而提高了数据处理的效率。举例来说：当收到主键为1的以下三条数据后，它最终会合并成合并的一条数据。

## 输入
?<1, 23.0, 10, NULL>
?<1, NULL, NULL, 'This is a book'>
?<1, 25.2, NULL, NULL>
## 输出
<1, 25.2, 10, 'This is a book'>

关键字：

声明：我公司网站部分信息和资讯来自于网络，若涉及版权相关问题请致电（63937922）或在线提交留言告知，我们会第一时间屏蔽删除。

有价值

0% (0)

无价值

0% (10)

上一篇：星云零售信贷基于 Doris 的 OLAP 演进之路

下一篇：15个基本且常用Pandas代码片段

分享转发：

发表评论请先登录后发表评论。愿您的每句评论，都能给大家的生活添色彩，带来共鸣，带来思索，带来快乐。

ICP/IP地址/域名信息备案管理系统全国互联网安全管理服务平台中国互联网络信息中心国家IPv6发展监测平台

合作机构：阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计

资讯热度排行榜

推荐阅读

五分钟技术趣谈 | Apache Paimon浅析及在威胁情报中的应用

Part 01

Apache Paimon是什么？

Part 02

Apache Paimon的特点

现在，就发送您的需求

Copyright © 2005 - 2026 飞度网络科技有限公司. All Rights Reserved.

关于飞度网络科技

飞度网络科技产品

服务与支持

快速通道