jar 包文件名 | 说明 | 下载地址 |
cos-distcp-1.12-3.1.0.jar | COSDistCp 相关包,拷贝数据到 COSN | 可参见 COSDistCp 工具 |
chdfs_hadoop_plugin_network-2.8.jar | OFS 插件 |
jar 包文件名 | 说明 | 下载地址 |
cos-distcp-1.12-3.1.0.jar | COSDistCp 相关包,拷贝数据到 COSN | 可参见 COSDistCp 工具 |
chdfs_hadoop_plugin_network-2.8.jar | OFS 插件 | |
Hadoop-COS | Version >= 8.1.5 | 可参见 Hadoop-COS 工具 |
cos_api-bundle | 版本需与 Hadoop-COS 对应 |
cosn://bucketname-appid/
方式访问元数据加速桶;core-site.xml
,修改完成后下发配置到所有的节点上。如果只是迁移数据,则不用重启大数据组件。key | value | 配置文件 | 说明 |
fs.cosn.trsf.fs.ofs.impl | com.qcloud.chdfs.fs.CHDFSHadoopFileSystemAdapter | core-site.xml | COSN 实现类,必填 |
fs.cosn.trsf.fs.AbstractFileSystem.ofs.impl | com.qcloud.chdfs.fs.CHDFSDelegateFSAdapter | core-site.xml | COSN 实现类,必填 |
fs.cosn.trsf.fs.ofs.tmp.cache.dir | 格式形如 /data/emr/hdfs/tmp/ | core-site.xml | 临时目录,必填。MRS 各节点均会创建,需保证有足够的空间和权限 |
fs.cosn.trsf.fs.ofs.user.appid | 客户 COS bucket 对应得 appid | core-site.xml | 必填 |
fs.cosn.trsf.fs.ofs.ranger.enable.flag | false | core-site.xml | 必填,确认是否为 false |
fs.cosn.trsf.fs.ofs.bucket.region | bucket 对应 region | core-site.xml | 必填,可选值:eu-frankfurt(法兰克福)、ap-chengdu(成都)、ap-singapore(新加坡) |
hdfs:///data/user/target
迁移到 cosn://{bucketname-appid}/data/user/target
。hdfs dfsadmin -disallowSnapshot hdfs:///data/user/hdfs dfsadmin -allowSnapshot hdfs:///data/user/targethdfs dfs -deleteSnapshot hdfs:///data/user/target {当前日期}hdfs dfs -createSnapshot hdfs:///data/user/target {当前日期}
hadoop fs -libjars /data01/jars/chdfs_hadoop_plugin_network-2.8.jar -mkdir cosn://bucket-appid/distcp-tmp
nohup hadoop jar /data01/jars/cos-distcp-1.10-2.8.5.jar -libjars /data01/jars/chdfs_hadoop_plugin_network-2.8.jar --src=hdfs:///data/user/target/.snapshot/{当前日期} --dest=cosn://{bucket-appid}/data/user/target --temp=cosn://bucket-appid/distcp-tmp/ --preserveStatus=ugpt --skipMode=length-checksum --checkMode=length-checksum --cosChecksumType=CRC32C --taskNumber 6 --workerNumber 32 --bandWidth 200 >> ./distcp.log &
CosDistCp CountersBYTES_EXPECTED=10198247BYTES_SKIPPED=10196880FILES_COPIED=1FILES_EXPECTED=7FILES_FAILED=1FILES_SKIPPED=5
统计项 | 说明 |
BYTES_EXPECTED | 根据源目录统计的需拷贝的文件总大小,单位:字节 |
FILES_EXPECTED | 根据源目录统计的需拷贝文件数,包含目录文件 |
BYTES_SKIPPED | 长度或校验和值相等,不拷贝的文件总大小,单位:字节 |
FILES_SKIPPED | 长度或校验和值相等,不拷贝的源文件数 |
FILES_COPIED | 拷贝成功的源文件数 |
FILES_FAILED | 拷贝失败的源文件数 |
FOLDERS_COPIED | 拷贝成功的目录数 |
FOLDERS_SKIPPED | 跳过的目录数 |
--delete
参数支持 HDFS 和 COS 数据的完全一致。--delete
参数时,需要携带 --deleteOutput=/xxx(自定义)
参数,但不可以携带 --diffMode
参数。nohup hadoop jar /data01/jars/cos-distcp-1.10-2.8.5.jar -libjars /data01/jars/chdfs_hadoop_plugin_network-2.8.jar --src=--src=hdfs:///data/user/target/.snapshot/{当前日期} --dest=cosn://{bucket-appid}/data/user/target --temp=cosn://bucket-appid/distcp-tmp/ --preserveStatus=ugpt --skipMode=length-checksum --checkMode=length-checksum --cosChecksumType=CRC32C --taskNumber 6 --workerNumber 32 --bandWidth 200 --delete --deleteOutput=/dele-xx >> ./distcp.log &
trash
目录下,并且在 /xxx/failed
目录下生成移动文件清单。删除 trash
目录下的数据可以采用 hadoop fs -rm URL
或者hadoop fs -rmr URL
。
本页内容是否解决了您的问题?