• 阿里云河南授权服务中心--[ 阿里云精英级合作伙伴 ]
  • 阿里云河南授权服务中心电话 :0371-56982772

关于大数据计算服务你还有哪些不了解
发布时间:2016-11-11 14:12

大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。



大数据计算服务ODPS主要功能

批量、历史数据通道

Tunnel是MaxCompute向用户提供的数据传输服务。该服务水平可扩展,支持每天TB/PB级别的数据导入导出。特别适合于全量数据或历史数据的批量导入。Tunnel提供了Java SDK,并且在MaxCompute的客户端工具中,有对应的命令实现本地文件与服务数据的互通。

实时、增量数据通道

另一方面,针对实时数据上传的场景,我们提供了另一套名为DataHub的服务。该服务具有延迟低、使用方便的特点,特别适用于增量数据的导入。Datahub还支持多种数据传输插件,例如:Flume, Fluentd, Sqoop等


以二维表格式存储数据

所有数据均以表格式存储,不暴露文件系统。并采用列压缩存储格式,极高的数据压缩比极大节省了用户成本。通常情况下,MaxCompute存储具备5倍压缩的能力。


SQL

MaxCompute SQL采用标准的SQL语法。更高效的计算框架支持SQL计算模型,执行效率比普通的MapReduce模型更高。需要注意的是,MaxCompute SQL不支持事务、索引及Update/Delete等操作。

MapReduce

MaxCompute提供的Java MapReduce编程模型。值得注意的是,由于MaxCompute并没有开放文件接口,用户只能通过它所提供的Table读写数据,因此MaxCompute的MapReduce模型与开源社区中通用的MapReduce模型在使用上有一定的区别。我们相信,这样的改动虽然失去一定的灵活性,例如:不能够自定义排序及哈希算法,但却能够简化开发流程,免除很多琐碎的工作。更为重要的是,MaxCompute还提供了基于MapReduce的扩展计算模型, 即MR2。在该模型下,一个Map函数后,可以接入连续多个Reduce函数。

Graph

对于某些复杂的迭代计算场景,例如:K-Means,PageRank等,如果仍然使用MapReduce来完成这些计算任务将是非常耗时的。MaxCompute提供的Graph模型能够非常好的完成这一类计算任务。


MaxCompute是一个多租户的计算平台。默认情况下,各租户间数据不共享,彼此隔离,但用户可以通过MaxCompute提供的授权机制将数据共享给其他人。

大数据计算服务的优势

超大规模计算及存储:适用于100GB以上规模的存储及计算需求,最大可达EB级别。

多种计算模型与一身:支持丰富的计算模型。支持比MapReduce更高级的有向无环图计算逻辑,计算更高效。目前支持的计算功能包括:SQL,MapReduce,Graph以及MPI迭代类的算法。

高稳定性:在阿里巴巴集团内稳定运行达三年以上,支撑阿里巴巴集团几乎全部离线分析业务。每天支持10万以上的计算任务,处理上百PB的数据。

极大降低企业使用成本:与企业自建私有云相比,成本更低。更高效的计算及存储能力能够降低企业20%~30%的采购成本。

安全可靠:多层沙箱防护及监控系统有效保障用户数据安全。功能强大的授权功能使企业内部数据分享更加便利。

主要应用场景

智能商业分析:

通常情况下,MaxCompute可以与ECS,ADS/RDS以及其他BI报表工具等配合使用,完成用户BI分析的需求。 
场景说明: 
首先,应用开发者将应用或网站服务器搭建在Aliyun ECS中,终端用户向APP或网站发起访问。网站日志可以通过部署在ECS上的Fluentd数据导入工 具,被上传到DataHub中。 
随后,MaxCompute的DataHub服务会将获取到的日志数据实时同步到MaxCompute的离线数据中。APP数据开发工程师 通过MaxCompute SDK或客户端工具向服务提交SQL 分析脚本。 
最后,将统计后的数据导入到与BI报表系统连接的在线数据库(可以是ADS/RDS/Mongo DB等)。运营人员通过BI报表系统来查看用户统计结果。
广告个性化推荐:

通过MaxCompute还可以完成更为复杂的机器学习、数据挖掘等分析,帮助用户实现个性化推荐等广告推广场景。具体可以使用阿里云数加提供的机器学习产品、推荐引擎进行个性化推荐、规则引擎进行定向营销等业务实现。

ETL开发:

初始数据被导入MaxCompute后,开发者可以通过MaxCompute进行抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程。您可以使用MaxComputer命令行工具进行数据开发,也可以使用阿里云数加提供的图形化界面的DataIDE进行数据开发、运维工作。

关于大数据计算服务的产品使用、如何更好的与企业进行结合解决现存问题和优化问题,更多问题打开阿里云河南授权服务中心www.aliyunhn.com

咨询客服:0371-56982939

技术支持:0371-56982786

相关资讯

售前咨询:

0371-56982772