合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
随着企业挖掘数据以获取有关客户、供应商和运营的见解,大数据应用程序正在增长。但随着容量的增长和数据变得更加敏感,底层存储仍然是一个重要的考虑因素。
以下一些技巧可以说明数据存储专业人员如何能够在应对存储系统的大数据洪流。
IBM公司存储业务首席技术策略师Clodoaldo Barrera表示,闪存技术的引入和包括压缩和重复数据删除在内的新存储系统设计已经成为大数据世界中必不可少的必要条件。
Barrera说,“随着企业开始依赖大数据洞察力,大数据应用程序变得至关重要。备份、归档和灾难恢复也必须添加到操作要求中。”
每当出现新的工作负载时,很容易将其视为一种新型计算,因此需要新的存储基础设施。通常的论点是“型存储更适合这种新的工作负载”,通常引用更低的成本或更好的性能。Barrera表示,这种方法的问题在于它为每种应用程序类型创建了单独的存储和数据孤岛。每个孤岛都必须有自己的管理、安全、业务连续性、升级路径等,需要自己的规划和运营管理。更糟糕的是,独立的孤岛抑制了工作负载之间的数据移动性;事务处理、实时分析和大数据应用程序需要针对共同的数据基础进行操作。
Barrera说,“在准备大数据环境时,要考虑整体存储基础设施的需求和成本,并仔细考虑真正需要多少不同的数据和存储环境。”
说到孤岛,对许多人来说至关重要的第一步是整合他们的大数据存储环境,从而消除组织中存在的各种数据孤岛。这一点很重要,原因有二:首先,很难跨不同的数据池有效地应用大数据工具。其次,整合的数据存储环境通常更高效且更易于管理。要采用这种方法,IT基础设施需要能够在单个存储平台上支持广泛的应用程序和工作负载。
DellMC公司非结构化数据存储产品营销高级总监VarunChhabra表示:“数据整合可以帮助企业降低成本、简化IT管理并为高效使用非结构化数据分析工具以从数据资产中提取更多价值奠定基础。由于许多企业使用广泛的应用程序和工作负载来支持他们的业务,因此选择具有多协议支持功能的存储基础架构非常重要,可以提供显著的运营灵活性。
如今有很多大数据存储工具,但并没有一个可以适合每种应用。企业需要仔细选择以匹配自己的应用程序和环境。
StorageIO集团分析师Greg Schulz说:“不要仅仅因为解决方案提供了大数据和分析支持,就认为它会适用于自己的应用程序。如果正在进行Hadoop,需要获得针对该操作的优化内容,或视频处理,那么获取针对该操作优化的内容。并查看流行语复选框之外的内容。”
IDC公司声称,到2020年,42%的数据将符合“机器生成”的标准。这些数据以应用程序日志、传感器数据、业务流程日志和消息队列等形式几乎不断地大量生成,它为首席信息官和业务领导者提供了一个潜在的金矿。为了跟上数据增长并利用其机会获利,企业需要合适的人员和合适的工具。但释放机器学习的潜力需要关联和数学分析海量数据集。因此,对底层存储架构进行仔细规划是必不可少的。
ClearSkyData公司首席技术官Laz Vekiarides说,“如今的大数据计划涉及大量数据和大量基础设施,因此需要做好准备。”
Vekiarides补充说,大多数大数据项目从一开始就在性能和容量方面都很小。对大数据可能有多大的初步估计通常在一两年内是可笑的。这主要是因为这些项目对组织的价值被低估了。因此,成长计划从一开始就是一个要求。
Vekiarides说。,“寻找基于消费的模型,让其可以按需增长,而无需为未使用的容量、软件和基础设施付费,当数据规模快速增长并需要快速访问时,弹性最重要,这在大数据和分析中都是如此。”
一旦创建了PB级数据集,事后很难进行全面保护。有时会发生笨重的数据集是跨多个平台创建的,而没有真正考虑如何保护数据。但随后意识到,一个单一的严重事故可能导致无法估量的宝贵数据的丢失。或者,当分析数据的工具位于其他公共云或内部部署位置时,数据可能会滞留在公共云中。
Vekiarides说,“提前考虑灾难恢复和安全性,因为这些数据很快就会成为战略资产,了解希望在多大程度上使用它,以及如何确保它的安全和保护。”
并非所有非结构化数据都具有相同的价值,而且其价值经常随着时间而变化。在需要高性能基础设施的应用程序和工作负载中使用的数据将需要高性能存储资源(例如全闪存)。其他数据(例如较旧的和很少使用的数据)可能会被存档,并且不需要高性能。对所有数据使用相同类型的存储系统通常会导致性能水平不足。使用具有基于策略的自动化分层功能的存储系统可以确保以正确的性能级别支持数据。
Chhabra说,“这种方法将优化存储资源投资并消除成本高昂的人工移动数据。”
TOP