从大数据中挖掘业务价值

Version 4


    运行在英特尔® 架构上的 Apache Hadoop* 有助于实现快速、可扩展的 ETL


    无论是在公共领域还是私有领域,组织机构和企业都在收集和分析“大数据”,以便更准确地预测市场动向,制定更加明智的决策以确保成功。他们对来自各种渠道的大量数据进行分类,包括天气预报、经济报告、论坛、新闻站点、社交网络、wiki、tweet 和博客等,然后对相关数据进一步分析,以便从全新的角度去了解其客户、运营状况和竞争对手。一些企业甚至运用预测性分析方法来确定未来一个月、一年甚至五年内可能遇到的机遇和风险。

     

    然而,大数据带来的不仅仅全是机遇,而且还包括挑战。传统的商业智能(BI)基础架构无法处理当前数量庞大、种类多样且增长迅速的数据流。运行在英特尔® 架构上的 Apache Hadoop* 可提供一款价格经济、功能强大且具备大规模扩展能力的基础架构,它能够导入和存储大数据并将其用于分析。这款解决方案为您实现目标价值奠定了坚实的基础,并且能够在基本不受限制的情况下进行扩展以满足增长需求。

     

    打破传统 ETL 的限制

     

    今天的商业智能系统可使用多种成熟的技术将原始数据转化为有用的商业信息,如联机在线分析处理(OLAP)、数据采掘、流程采掘、复杂事件处理、企业绩效管理、预测性分析和指定分析。但是,在分析大数据之前,您必须先从外部资源中对其进行提取并转换以符合操作需求,然后将其加载到适当的分析环境中—这一套流程被称为“提取、转换和加载(ETL)”。

     

    大数据一般会使传统的 ETL 基础架构不堪重负。入站数据流太大且增长速度太快,无法在可接受的时间段内进行处理。此外,数据的种类多样也是一个挑战。大数据来自各种不同的渠道,如文本文档、图片、音频、视频、运行日志和传感器。这些非结构化数据类型不太适合传统的关系型数据库。

     

    Apache Hadoop 可为应对 ETL 挑战提供一种解决方案。谷歌针对其广受欢迎的搜索引擎开发了相应的技术,借助这项技术,该款开源软件可在配置商用存储设备的可扩展工业标准服务器集群上运行。通过分布式存储和大规模并行处理,Apache Hadoop 集群具备出色的扩展能力,能够处理数 PB 的聚合结构化 数据。


    合理规划 ETL 基础架构以获得更高的效率


    ETL 工作负载不断变化,因此精心设计的 Apache Hadoop 集群对于以最经济的方式实现性能目标至关重要。英特尔架构可提供多种选择,助您实施最适合的解决方案。

     

    • 为主流 ETL 工作负载提供经济的高性能。从成本效益角度而言,基于英特尔® 至强™ 处理器 E5 家族的双插槽服务器是大部分Apache Hadoop 工作负载的最佳选择。这些服务器可提供更高的性能,且相比大规模的多处理器平台能够为分布式计算环境带来更高的效率。此外,相比更小的单插槽服务器,它们能够提供更高效的负载平衡和并行吞吐率。

     

    • 针对轻型 ETL 工作负载的更好的成本模式。一些 ETL 工作负载(简单数据分类)无法充分利用英特尔至强处理器的处理能力。一般情况下,您可以在基于最新英特尔® 凌动™ 处理器的微服务器上更高效地运行这种轻型工作负载。这些服务器级别的处理器的功耗仅为 6 瓦,可为处理需求较低的应用提供高效的新数据中心效率。

     

    英特尔至强处理器和英特尔凌动处理器均支持 ECC 内存,因而能够自动检测和纠正内存错误。内存错误是数据中心中出现数据损坏和服务器停机的主要原因之一,而精心设计的 Apache Hadoop 集群拥有大量内存(一般每台服务器上有 64 GB 或更大的内存),这会增加出现错误的风险,因此 ECC 内存便成为不可或缺的功能。

     

    在一个 Apache Hadoop 集群中,存储性能与处理能力一样重要。标准机械硬盘只有在数量足够多的情况下才能够满足大量工作负载的处理需求。英特尔® 固态盘(英特尔® SSD)可在更短的延迟下提供更高的吞吐率。英特尔测试显示,使用英特尔 SSD 替换机械硬盘最高能够将集群性能提高 80%。

     

    此外,网络性能对于确保大型数据集的高效导入、处理和导出也十分关键。英特尔可提供经济的高带宽万兆以太网(10 GbE)服务器适配器,助您轻松进行扩展,为集群增长提供支持。随着集群继续扩展,您可以将多台 10 GbE 交换机和上行链路连接至更快的网络基础架构。


    降低您的运营成本

     

    据 Gartner 于 2007、2010 和 2013 年进行的 CIO 调查,超过 70% 的CIO 认为不断增长的功耗和散热要求是其面临的最大的数据中心挑战。2 英特尔至强处理器、英特尔凌动处理器和英特尔 SSD 的卓越能有助于降低数据中心的负载和预算。此外,英特尔可提供先进的功耗和散热管理应用,即英特尔® 数据中心管理器(英特尔®DCM)。英特尔 DCM 可使用英特尔® 处理器中内建的实用工具。您可以用它来监控个各个层面(从单独的服务器到整个设施)的功耗,从而最大限度地降低功耗而不影响性能。


    降低您的风险

     

    开源 Apache Hadoop 软件可从 Apache 软件基金会免费获取。此外,增强型软件发行版也可从英特尔等增值分销商处免费获取。这些增强型发行版可提供额外的功能、服务和支持包,有助于简化实施并降低风险。

     

    Apache Hadoop 软件英特尔® 发行版是一款包括 Apache Hadoop 及其他组件,以及英特尔提供的增强和修复功能的开源产品(请见www.intel.com/hadoop)。该软件针对最新的英特尔至强处理器、英特尔 SSD 存储设备和英特尔® 10 GbE 网络适配器进行了高度优化。测试显示,联合平台的性能比运行在优化程度较低的硬件平台上的通用 Apache Hadoop 软件高 30 倍。

     

    英特尔发行版可针对主要的企业要求提供集成支持,包括:

     

    • 数据保密性。硬件加速的加密和精细的控制支持您安全集成敏感数据类型,而不影响安全性、合规性或性能。

     

    • 可扩展性和可用性。多站点扩展性和自适应数据复制可简化集成,且可确保您能够随时访问关键数据并获得洞察力。

     

    • 高级分析。Intel® Graph Builder 以及对 R(可用于执行静态分析的开源应用)的集成支持可帮助数据分析人员和开发人员从大数据中获得更高的价值。

     

    • 服务、支持和培训。英特尔可提供大量在线培训资源,并可提供专业的支持服务,以便对基于英特尔发行版的 Apache Hadoop部署进行规划、实施和维护。

     

    结论

     

    大数据为各个行业带来全新的业务机遇和挑战。数据集成(将社交媒体和其他松散的数据集成到传统的商业智能环境中)的挑战是 CIO 和 IT 管理人员所面临最紧迫的问题。Apache Hadoop 可提供经济且可大规模扩展的平台,以便轻松导入大数据并将其用于分析。使用 Hadoop 卸载传统 ETL 流程可将分析时间减少数小时甚至数日。

     

    高效运行 Hadoop 集群需要选择最佳的服务器、存储、网络和软件基础架构。英特尔可提供软件和硬件平台组件,帮助您设计和部署针对大数据 ETL 优化的高效的、高性能 Hadoop 集群。此外,英特尔提供了丰富的参考架构、培训、专业服务和技术支持,可帮助您加速部署并降低风险。


    下载文档:从大数据中挖掘业务价值