• 阿里云河南授权服务中心--[ 阿里云精英级合作伙伴 ]
  • 阿里云河南授权服务中心电话 :0371-56982772

MaxCompute助力OSS支持EB级计算力
发布时间:2018-05-14 11:32

  一、 MaxCompute是什么?

  你的OSS数据是否作堆积在一旁沉睡已久,存储成本变为企业负担?你是否想唤醒沉睡的数据,驱动你的业务前行?MaxCompute可以帮助你高效且低成本的解决这些问题,通过对海量数据进行分析和计算来实现勾勒用户画像、提升营销转化、挖掘产品优化方向、预测业务发展等丰富的业务场景。

  MaxCompute是一项提供快速、完全托管的EB级数据仓库解决方案的大数据计算服务,可以高效并经济的分析处理海量数据。作为阿里云大数据旗舰产品,MaxCompute的EB级别性能处理达到了全球领先性,被Forrester评为全球云端数据仓库领导者。同时,MaxCompute也是阿里巴巴内部大数据旗舰平台,阿里巴巴近99%的数据存储以及95%的计算能力都在这个平台上产生。

  最近MaxCompute重磅推出了一项重要特性:OSS外表查询功能。该功能可以帮助您直接对OSS中的海量文件进行查询,而不必将数据加载到MaxCompute 表中,既节约了数据搬迁的时间和人力,也节省了多地存储的成本。除此之外,MaxCompute外表查询功能还拥有如下的优势:

  1、MaxCompute是一个无服务器的分布式计算架构,无需用户再额外维护和管理服务器基础设施,能方便及时的为OSS用户提供临时按需的查询服务,从而大大帮助企业节省成本。目前该功能处于公测阶段,免费使用;

  2、支持处理OSS上开源格式的结构化文件,包括:Avro、CSV、ORC、Parquet、RCFile、RegexSerDe、SequenceFile和TextFile,同时支持gzip压缩格式;

  3、提供灵活的用户自定义代码的处理框架,用来支持处理OSS上非结构化文件,用户可以自行编写代码直接对OSS上的数据进行处理和计算。比如对OSS上的视频,图像,音频,基因,气象等数据进行特征提取和分析,可以支持丰富的第三方音视频处理库;

  二、 客户案例

  1、华大基因

  基因技术从实验室逐渐进入生活场景,数据体量爆发式增长,远超出传统计算能力所能支持的范围。基于这样的背景,华大选择了MaxCompute。在百万人基因组项目中,对人群结构的分析,oss存放了大量的fastq文件,传统计算方式需3-5天,且需要将数据同步到数据仓库,现在通过外表功能,MaxCompute可使整个分析在1小时内完成,极大加速了数据吞吐和交付生产效率。

  2、天弘基金

  天弘基金旗下的余额宝,是中国规模最大的货币基金。除理财功能外,余额宝还是移动互联网时代的现金管理工具。余额宝每天有大量的金融数据交换文件存放在oss上,需要进行超大文本文件的结构化分析,之前是把oss文件先下载到本地,然后再上传到MaxCompute,链路长且效率不高。现在oss上的大文件可以直接用外部表的方式加载到MaxCompute做分析,整个链路的效率得到了大幅提升。

  三、 如何使用MaxCompute?

  下面我们通过两个简单的示例,介绍如何通过MaxCompute外表功能实现对OSS数据的分析和处理。

  场景一:物联网采集数据分析

  Step1:准备工作

  1、开通OSS 、MaxCompute服务

  您可以通过官网分别开通OSS、MaxCompute服务,并创建OSS bucket、MaxCompute Project

  2、采集数据到OSS

  您可以使用任何数据集来执行测试,以验证我们在这篇文章中概述的最佳实践。

  本文准备一批 CSV 数据存在 OSS 上,endpoint 为oss-cn-beijing-internal.aliyuncs.com,bucket 为oss-odps-test,数据文件的存放路径为/demo/vehicle.csv。

  3、授权MaxCompute访问OSS

  MaxCompute需要直接访问OSS的数据,前提需要将OSS的数据相关权限赋给MaxCompute的访问账号,可以直接登录阿里云账号后。

  Step2:通过MaxCompute创建外部表

  创建外部表,语句如下:

 
  Step3:通过MaxCompute查询外部表

  外部表创建成功后,便可如同普通表一样使用这个外部表。假设/demo/vehicle.csv数据如下:

  

  执行如下 SQL 语句:

  

  输出结果如下:

  

  场景二:阿里云产品消费账单分析

  Step1:准备工作

  完成案例1中准备工作1、3步骤。

  Step2:通过费用中心同步账单数据到OSS

  打开费用中心->消费记录->存储到OSS,输入oss bucket,此示例为oms-yl

  ,服务开通后,每天会将增量的实例消费明细数据生成文件同步存储到您的OSS指定的bucket中。

  Step3:通过MaxCompute注册账单处理类

  1、点击下载,odps-udf-example-0.30.0-SNAPSHOT-jar-with-dependencies.jar

  2、将自定义代码编译打包,并上传到 MaxCompute。

  add jar odps-udf-example-0.30.0-SNAPSHOT-jar-with-dependencies.jar

  Step4:通过MaxCompute创建外部表

  示例:创建5月4日的账单消费表

 






  Step5:通过MaxCompute查询外部表

  查询示例:查询MaxCompute按量存储消费账单

  

  输出结果如下:

  

相关资讯

售前咨询:

0371-56982772