一起学 Elasticsearch 系列-聚合查询-大数据–飞度网络科技 - 专业的全球云服务器、服务器租用托管、云安全服务、全球域名注册提供商

一起学 Elasticsearch 系列-聚合查询

来源:互联网日期:2023/11/30 15:23:07 阅读量:(0)

聚合查询是 Elasticsearch 中一种强大的数据分析工具，用于从索引中提取和计算有关数据的统计信息。聚合查询可以执行各种聚合操作，如计数、求和、平均值、最小值、最大值、分组等，以便进行数据汇总和分析。

下面是一些常见的聚合查询类型：

Metric Aggregations（指标聚合）：这些聚合操作返回基于字段值的度量结果，如求和、平均值、最小值、最大值等。常见的指标聚合包括 Sum、Avg、Min、Max、Stats 等。
Bucket Aggregations（桶聚合）：类比SQL中的group by，主要用于统计不同类型数据的数量，这些聚合操作将文档划分为不同的桶（buckets），并对每个桶中的文档进行聚合计算。常见的桶聚合包括 Terms（按字段值分组）、Date Histogram（按时间间隔分组）、Range（按范围分组）等。
Pipeline Aggregations（管道聚合）：这些聚合操作通过在其他聚合结果上执行额外的计算来产生新的聚合结果。例如，使用 Moving Average 聚合可以计算出移动平均值。

聚合查询通常与查询语句结合使用，可以在查询结果的基础上进行进一步的数据分析和统计。聚合查询语法使用 JSON 格式，可以通过 Elasticsearch 的 REST API 或各种客户端库进行发送和解析。

聚合查询支持嵌套，即一个聚合内部可以包含别的子聚合，从而实现非常复杂的数据挖掘和统计需求。

在ES中，用于进行聚合的字段可以是exact value也可以是分词字段，对于分词字段，可以使用特定的聚合操作来进行分组聚合，例如Terms Aggregation、Date Histogram Aggregation等。

对于text字段的聚合，可以通过开启fielddata来实现，但通常不建议这样做，因为fielddata会将聚合使用的数据结构从磁盘（doc_values）转换为堆内存（field_data），在处理大量数据时容易导致内存溢出（OOM）问题。

如果需要在text字段上执行聚合，可以考虑在该字段上添加.keyword子字段，并使用该子字段进行聚合操作，以获得更准确的结果。

doc_values & fielddata

在 Elasticsearch 中，聚合操作主要依赖于 doc_values 或 fielddata 来进行。

Doc Values（文档值）：Doc Values 是一种以列式存储格式保存字段值的数据结构，它用于支持快速的聚合、排序和统计操作。Doc Values 在磁盘上存储，并被加载到 JVM 堆内存中进行计算。它们适用于精确值（如 keyword 类型）和数字类型的字段，在大多数情况下是默认启用的。
Fielddata（字段数据）：Fielddata 是一种将字段值加载到堆内存中的数据结构，它用于支持复杂的文本分析和聚合操作。Fielddata 适用于文本类型的字段，例如 text 类型，因为它们需要进行分词和分析。但是，由于 Fielddata 需要大量的堆内存资源，特别是在处理大数据集时，容易导致内存溢出（OOM）的问题，因此不建议随意启用。

在设计索引时，需要根据字段类型和使用场景的不同，合理选择是否启用 Doc Values 或 Fielddata，以平衡性能和资源消耗的需求。

当执行聚合操作时，Elasticsearch 需要访问所有匹配文档的字段值。对于非文本字段，默认情况下Elasticsearch 使用 doc values 来实现。对于文本字段，必须首先启用 fielddata。然而，由于 fielddata 占用大量内存，Elasticsearch 默认禁用了它。

如果你确实需要对一个文本字段启用 fielddata（虽然大多数场景下不推荐这么做，因为可能导致内存消耗过大），你可以通过更新映射（mapping）来实现。

以下是如何在 my_field 字段上启用 fielddata 的示例：

PUT my_index/_mapping

{
  "properties": {
    "my_field": { 
      "type":     "text",
      "fielddata": true
    }
  }
}

关键字：

声明：我公司网站部分信息和资讯来自于网络，若涉及版权相关问题请致电（63937922）或在线提交留言告知，我们会第一时间屏蔽删除。

有价值

0% (0)

无价值

0% (10)

上一篇：数据湖和中央数据仓库的设计

下一篇：探索性数据分析（EDA）之数据可视化案例：附数据集和源码

分享转发：

发表评论请先登录后发表评论。愿您的每句评论，都能给大家的生活添色彩，带来共鸣，带来思索，带来快乐。

ICP/IP地址/域名信息备案管理系统全国互联网安全管理服务平台中国互联网络信息中心国家IPv6发展监测平台

合作机构：阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计

资讯热度排行榜

推荐阅读

一起学 Elasticsearch 系列-聚合查询

doc_values & fielddata

现在，就发送您的需求

Copyright © 2005 - 2026 飞度网络科技有限公司. All Rights Reserved.

关于飞度网络科技

飞度网络科技产品

服务与支持

快速通道