线性回归 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

MATLAB与Spark/Hadoop相集成：实现大数据的处理和价值挖

▪ 使用方式等同于MATLAB 数组(array) – 支持数据类型包括数值型、字符串、时间类型、表等… – 支持众多基本的数学函数、统计函数、索引函数等. – 支持机器学习算法包括分类、聚类和回归 7 tall array Single Machine Memory tall arrays ▪ 自动将数据分解成适合内存的小 “块”(chunk) ▪ 计算过程中，一次处理一个“块”(chunk)

0 码力 | 17 页 | 1.64 MB | 1 年前
3
大数据集成与Hadoop - IBM

度的可扩展性 • 线性数据可扩展性：硬件和软件系统通过线性增加硬件资源来线性提高处理吞吐量。例如，如果在50个处理器上运行4小时可以处理200GB数据，在100个处理器上运行4小时可以处理400GB数据，以此类推，则说明应用程序可以实现线性数据可扩展性。 • 应用程序纵向扩展：衡量软件在一个对称多处理器 (SMP) 系统中的多个处理器间实现线性数据可扩展性的有效程度。有效程度。 • 应用程序横向扩展：确定软件在非共享架构的多个 SMP 节点间实现线性数据可扩展性的有效程度。图1. 海量数据可扩展性是一项大数据集成的强制要求。在大数据时代，企业必须支持MPP群集系统才能实现扩展。支持海量数据可扩展性的需求并非只与Hadoop基础架构的出现有关。多年来，领先的数据仓库供应商（如IBM和Teradata）和领先的数据集成平台（如IBM ® InfoSphere 软件数据流通过简化在一个或多个节点实施和执行数据管道和数据分区的过程，从而充分利用非共享架构。软件数据流还可以将构建和优化多位用户运行的并行应用程序的复杂问题隐藏起来。利用数据分区实现线性数据可扩展性大数据集分散在多个独立节点间，单个作业对所有分区数据执行相同的应用程序逻辑。形成设计隔离的环境设计一个数据处理作业，并且无需重新设计和重新调整作业，即可在任何硬件配置中使用它。

0 码力 | 16 页 | 1.23 MB | 1 年前
3

共 2 条前往

页

MATLAB Spark Hadoop 集成实现数据处理价值大数 IBM

分类

语言

格式

MATLAB与Spark/Hadoop相集成：实现大数据的处理和价值挖

大数据集成与Hadoop - IBM