ossimport支持将任意地域的本地存储数据、第三方存储数据、对象存储OSS数据迁移至任意地域的OSS中。本文介绍如何使用ossimport将数据从第三方存储迁移到OSS。
背景信息
某用户的数据存储于腾讯云COS广州(华南)区域,数据大小约500TB。现希望将这些数据,通过ossimport工具,于一周内迁移至OSS华东1(杭州)区域。在迁移的同时,需保证自身业务的正常进行。
- 对于小于30TB的小规模数据迁移,单机模式即可完成。
- 对于大规模的数据迁移,请使用分布式模式。
此需求需要使用ossimport分布式配置进行数据迁移。
准备工作
- 开通OSS,并创建华东1(杭州)地域的存储空间(Bucket)
- 配置RAM子账号,并授予访问OSS的权限
在RAM控制台创建子帐号,并授权该子账号访问OSS的权限,并保存AccessKeyID和AccessKeySecret。详情请参见创建RAM账号并授予相关权限。
- (可选)购买ECS
购买OSS同区域华东1(杭州)的ECS,一般普通的2核4G机型即可,如果迁移后ECS需释放,建议按需购买ECS。说明 若分布式部署所需的计算机数量较少时,您可以直接在本地部署;若所需计算机数量较多时,建议在ECS实例上部署。本示例以ECS实例进行迁移任务。
ECS所需数量的计算公式为:X/Y/(Z/100)台。其中X为需要迁移的数据量、Y为要求迁移完成的时间(天)、Z为单台ECS迁移速度Z Mbps(每天迁移约Z/100 TB数据)。假设单台ECS迁移速度达到200Mbps(即每天约迁移2TB数据),则上述示例中需购买ECS 36台(即500/7/2)。
- 配置ossimport
结合本示例中的大规模迁移需求,您需要在ECS上搭建ossimport分布式模式。有关分布式部署的配置定义信息,如
conf/job.cfg
、conf/sys.properties
、并发控制等配置,请参见说明及配置。有关分布式部署的相关操作,如ossimport下载、配置过程的常见错误及排除等,请参见分布式部署。
迁移方案
使用分布式模式将第三方存储迁移至OSS的过程如下:
迁移过程涉及到的成本包含:源和目的存储空间访问费用、源存储空间的流出流量费用、ECS实例费用、数据存储费用、时间成本。如果数据超过TB级别,存储成本和迁移时间成正比。相对流量、存储费用,ECS费用较小,增加ECS数量,会减少迁移时间。
迁移实施
参考文档
有关ossimport的相关说明,请参见以下文档: