英特尔提供的Hadoop发行版包含Hadoop分布式文件系统HDFS、分布式数据库HBase、分布式计算框架MapReduce、数据仓库Hive、数据处理Pig、机器学习Mahout商业套件。
其中,Hadoop 分布式文件系统(HDFS)是运行在通用硬件上的分布式文件系统。HDFS提供了一个高度容错性和高吞吐量的海量数据存储解决方案。它具备高吞吐量访问、无缝容量扩充、高度容错的特点。
HBase是一个面向列的实时分布式数据库。HBase不是一个关系型数据库,其设计目标是用来解决关系型数据库在处理海量数据时的理论和实现上的局限性。HBase从一开始就是为Terabyte到Petabyte级别的海量数据存储和高速读写而设计,这些数据要求能够被分布在数千台普通服务器上,并且能够被大量并发用户高速访问。
MapReduce是一个高性能的批处理分布式计算框架,用于对海量数据进行并行分析和处理。MapReduce适合处理各种类型的数据,包括结构化、半结构化和非结构化数据。
Hive是一种建立在Hadoop之上的数据仓库架构。它采用HDFS进行数据存储并利用MapReduce 框架进行数据操作。所以从本质上来说,Hive就是个编译器,它把用户的操作(查询或者ETL)变换成MapReduce任务,利用MapReduce框架执行这些任务以对HDFS上的海量数据进行处理。它具备针对海量数据的高性能查询和分析系统和类SQL的查询语言HiveQL。
Pig是一个基于Hadoop并运用MapReduce和HDFS 实现大规模数据分析的平台。它为海量数据的并行处理提供了操作以及编程实现的接口。
Mahout是一套具有可扩充能力的机器学习类库。它提供机器学习框架的同时,还实现了一些可扩展的机器学习领域经典算法的实现,可以帮助开发人员更加方便快捷地创建智能应用程序。通过和Apache Hadoop分布式框架相结合,Mahout可以有效地使用分布式系统来实现高性能计算。