阿里云大数据平台-ODPS数据集成方案,主要的使用工具和使用方法有哪些?在本地和云环境下是如何处理的呢?
一、本地数据库
1.1 公网环境同步数据库中数据到ODPS
使用工具:大数据开发集成环境(Data IDE)
使用方法:
第一步:开通数据开发服务
第二步:创建项目
第三步:新建数据源
第四步:创建数据同步工作流节点
第五步:配置同步任务
第六步:执行或者发布进行数据同步
1.2 非公网环境实现同步数据库中数据到ODPS
使用工具:DataX
使用方法:
第一步:下载DataX并解压
第二步:根据模板和将要同步的源端和目的端配置同步json
第三步: 运行DataX执行同步
二、本地文件
2.1 公网环境实现同步本地文件、Hadoop中数据到ODPS
使用工具:大数据开发集成环境(Data IDE)
使用方法:
第一步:开通数据开发服务
第二步:创建项目
第三步:新建数据源
第四步:创建数据同步工作流节点
第五步:配置同步任务
第六步:执行或者发布进行数据同步
2.2 非公网实现同步本地文件、Hadoop中数据到ODPS
使用工具:DataX
使用方法:
第一步:下载DataX并解压
第二步:根据模板和将要同步的源端和目的端配置同步json
第三步: 运行DataX执行同步
2.3 实现同步日志文件中数据到ODPS
使用工具:Apache Flume ODPS插件、Fluentd ODPS插件 使用方法:
第一步:在本地部署Flume 或者Fluentd
第二步:在部署的Flume 或者Fluentd中安装相应的ODPS插件
第三步:配置Flume 或者Fluentd源头为日志文件,目的端为ODPS的同步任务。
三、云环境数据库
3.1 实现一次性同步RDS、OSS、OTS、ADS、DRDS中数据到ODPS
使用工具:大数据开发集成环境(Data IDE)
使用方法:
第一步:开通数据开发服务
第二步:创建项目
第三步:新建数据源
第四步:创建数据同步工作流节点
第五步:配置同步任务
第六步:执行或者发布进行数据同步
四、云环境文件
3.1 实现一次性同步ECS日志文件中数据到ODPS
使用工具:日志服务(Log Service)、Apache Flume ODPS插件、Fluentd ODPS插件
使用方法:
第一步:在ODPS中授予ODPS数据投递权限
第二步:创建日志创建投递配置Flume和Fluentd步骤
第一步:在本地部署Flume 或者Fluentd
第二步:在部署的Flume 或者Fluentd中安装相应的ODPS插件
第三步:配置Flume 或者Fluentd源头为日志文件,目的端为ODPS的同步任务。
©2024 aliyunhn.com. All Rights Reserved 中科九洲科技股份有限公司-阿里云河南授权服务中心 豫B2-20080032-14 统计