合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
大数据正在推动组织处理、存储和分析数据的方式发生变化。这些好处正在刺激更多的创新。以下是四大趋势。
大数据正在向各行各业各种类型和规模的组织证明其价值。充分利用它的企业正在实现切实的商业利益,从提高运营效率、提高对快速变化的业务环境的可见性,到为客户优化产品和服务。
结果是,随着组织发现这些典型的大型数据存储的用途,大数据技术、实践和方法正在不断发展。用于收集、处理、管理和分析的新型大数据架构和技术整个组织的各种数据不断涌现。
处理大数据不仅仅是处理大量存储的信息。数据量只是组织需要解决的众多大数据问题之一。通常还存在各种各样的数据——从分布在整个组织的数据库中的结构化信息,到存储在文件、图像、视频、传感器、系统日志、文本和文档(包括等待数字化的纸质数据)中的大量非结构化和半结构化数据。此外,这些信息通常以很快的速度创建和更改,并且数据质量水平参差不齐(准确性),这给数据管理、处理和分析带来了进一步的挑战。
大数据的四大趋势正在帮助组织应对这些挑战,并获得其所寻求的好处。以下是行业专家确定的四大大数据趋势,以及它们对投资大数据部署的组织的意义。
随着大量数据的生成,传统的分析方法受到了挑战,因为它们不容易实现大规模数据分析的自动化。分布式处理技术,尤其是Hadoop和Spark等开源平台推广的技术,使组织能够快速处理PB级信息。然后,企业使用大数据分析技术来优化其商业智能和分析计划,从依赖于数据仓库技术的缓慢报告工具转向更智能、响应更快的应用,从而更好地了解客户行为、业务流程和整体运营。
大数据分析的发展继续以机器学习和人工智能系统为中心。各种规模的组织越来越多地使用人工智能来优化和改进其业务流程。在Enterprise Strategy Group的支出意向调查中,熟悉组织内人工智能和机器学习计划的193名受访者中有63%表示,预计2023年将在这些工具上投入更多资金。
机器学习使组织能够更轻松地识别数据模式,检测大型数据集中的异常情况,并支持预测分析和其他高级数据分析功能。其中的一些示例包括:
事实上,在人工智能和机器学习的帮助下,企业正在利用其大数据环境,通过智能聊天机器人和更个性化的交互来提供更深入的客户支持,而无需大幅增加客户支持人员。这些支持人工智能的系统能够收集和分析有关客户和用户的大量信息,特别是当与数据湖策略相结合时,可以聚合来自许多来源的广泛信息。
企业也看到了数据可视化领域的创新。当数据以可视化的形式呈现时,比如图表、图形和图表,人们能更好地理解数据的含义。新兴的数据可视化形式正在将人工智能分析的力量交到普通商业用户手中。这有助于组织发现可以改进决策的关键见解。先进形式的可视化和分析工具甚至允许用户用自然语言提出问题,系统会自动确定正确的查询,并以背景相关的方式显示结果。
生成式人工智能和大型语言模型(LLM)可以在整个数据管道中带来好处,进一步改善组织的数据运营。生成式人工智能可以帮助自动化数据可观测性监控功能,通过主动警报和修复已识别的问题来提高质量和效率,甚至编写代码行。它可以扫描大量数据以查找错误或不一致,或者识别模式并为数据团队生成最重要细节的报告或可视化。LLM为组织提供新的数据民主化能力。随着生成式人工智能融入数据管理流程,数据编目、集成、隐私、治理和共享都在兴起。
生成式AI和LLM的威力取决于用于训练模型的数据质量。随着所有行业对生成式人工智能的兴趣和使用不断增加,数据质量比以往任何时候都更加重要。数据团队必须仔细监控所有人工智能生成的数据操作的结果。不正确或误导的数据可能会导致错误的决策和代价高昂的结果。
数据生成的速度持续加快。这些数据大部分不是由数据库中发生的业务交易生成的,而是来自其他来源,包括云系统、网络应用、视频流以及智能手机和语音助手等智能设备。这些数据很大程度上是非结构化的,在过去,这些数据大多未被组织处理和使用,从而变成了所谓的暗数据。
这让我们看到了大数据的最大趋势:非数据库来源将继续成为数据的主要生成者,进而迫使组织重新审视其数据处理需求。尤其是语音助手和物联网设备正在推动零售、医疗保健、金融、保险、制造业和能源以及广泛的公共部门市场。数据多样性的爆炸式增长,迫使组织思考超越传统数据仓库,作为处理所有这些信息的手段。
此外,处理所生成数据的需求正在转移到设备本身,因为处理能力方面的行业突破导致了越来越先进的设备的开发,这些设备能够收集数据并自行存储数据,而不会对网络、存储和计算基础设施造成负担。例如,移动银行应用程序可以处理远程支票存款和处理的许多任务,而无需将图像来回发送到中央银行系统进行处理。
使用设备进行分布式处理体现在边缘计算的概念中,它将处理负载先转移到设备本身,数据被发送到服务器。边缘计算通过减少数据流经网络的需求来优化性能和存储。这降低了计算和处理成本,特别是云存储、带宽和处理费用。边缘计算还有助于加快数据分析速度,并为用户提供更快的响应。
为了应对不断增长的数据生成,组织正在花费更多的资源将这些数据存储在一系列基于云和混合云的系统中,这些系统针对大数据的所有V进行了优化。在过去的几十年里,组织管理自己的存储基础设施,导致企业必须管理、保护和运营庞大的数据中心。云计算的发展改变了这种动态。通过将责任转移给云基础设施提供商,如AWS、Google、Microsoft、Oracle和IBM,组织可以处理几乎无限量的新数据,并按需支付存储和计算能力的费用,而无需维护自己的大型复杂数据中心。
由于监管或技术限制,一些行业在使用云基础设施方面面临挑战。例如,医疗保健、金融服务和政府等受到严格监管的行业都有限制,无法使用公共云基础设施。因此,在过去的十年中,云提供商开发了多种方法来提供更加适合监管的基础设施,以及将第三方云系统的各个方面与本地计算和存储相结合的混合方法,以满足关键基础设施的需求。随着组织寻求云计算的经济和技术优势,公共云和混合云基础设施的发展无疑将取得进展。
除了云存储和处理方面的创新之外,企业还在转向新的数据架构方法,以应对大数据的多样性、准确性和容量挑战。企业不再试图将数据存储集中在需要复杂且耗时的提取、转换和加载过程的数据仓库中,而是正在发展数据湖的概念。数据湖以其本机格式存储结构化、半结构化和非结构化数据集。这种方法将数据转换和准备的责任转移给具有不同数据需求的终端用户。数据湖还可以提供数据分析和处理的共享服务。
大数据处理、存储和管理的许多方面将在未来几年持续发展。这种创新很大程度上是由技术需求驱动的,但也有部分是由我们思考数据和与数据相关的方式的变化驱动的。
一个创新领域是DataOps的出现,这是一种专注于敏捷迭代方法的方法和实践,用于处理在组织中流动的数据的完整生命周期。DataOps的流程和框架解决了从生成到存档整个数据生命周期的组织需求,而不是以零碎的方式考虑数据,由不同的人来处理数据的生成、存储、传输、处理和管理。
同样,组织越来越多地处理数据治理、隐私和安全问题,大数据环境加剧了这种情况。过去,企业对数据隐私和治理的担忧往往有些松懈,但新的法规使其对系统中个人信息的发生负有更大的责任。生成式人工智能增加了组织需要考虑的另一层隐私和道德问题。
由于普遍存在的安全漏洞,侵蚀了客户对企业数据共享实践的信任,以及在整个数据生命周期中管理数据的挑战,组织越来越关注数据管理,并更加努力地保护和管理数据,特别是当数据跨越国际边界时。新的工具正在出现,以确保数据留在需要的地方,在静态和动态中得到保护,并在其生命周期中得到适当的跟踪。
总之,这些大数据趋势将继续塑造2024年的大数据形态。
TOP