hadoop jar cos-distcp-${version}.jar \\-libjars cos_api-bundle-${version}.jar,hadoop-cos-${version}.jar \\-Dfs.cosn.credentials.provider=org.apache.hadoop.fs.auth.SimpleCredentialProvider \\-Dfs.cosn.userinfo.secretId=COS_SECRETID \\-Dfs.cosn.userinfo.secretKey=COS_SECRETKEY \\-Dfs.cosn.bucket.region=ap-guangzhou \\-Dfs.cosn.impl=org.apache.hadoop.fs.CosFileSystem \\-Dfs.AbstractFileSystem.cosn.impl=org.apache.hadoop.fs.CosN \\--src /data/warehouse \\--dest cosn://examplebucket-1250000000/warehouse
hadoop jar cos-distcp-${version}.jar --help
명령어를 사용해 COSDistCp가 지원하는 매개변수 옵션을 조회할 수 있으며, 여기서 ${version}
은 버전 넘버입니다. 다음은 현재 버전 COSDistCp의 매개변수 설명입니다.속성 키 | 설명 | 기본값 | 필수 여부 |
--help | COSDistCp가 지원하는 매개변수를 출력합니다
예: --help | None | No |
--src=LOCATION | 복사할 데이터의 위치입니다. 이는 HDFS 또는 COS 위치일 수 있습니다.
예: --src=hdfs://user/logs/ | None | Yes |
--dest=LOCATION | 데이터의 대상입니다. 이는 HDFS 또는 COS 위치일 수 있습니다.
예: --dest=cosn://examplebucket-1250000000/user/logs | None | Yes |
--srcPattern=PATTERN | 소스 위치에서 파일을 필터링하는 정규식입니다.
예: --srcPattern='.*\\.log$'
참고: 별표(*)가 shell에서 구문 분석되는 경우 매개 변수를 작은따옴표로 묶습니다 | None | No |
--taskNumber=VALUE | 복사 스레드 수. 예: --taskNumber=10 | 10 | No |
--workerNumber=VALUE | 복사 스레드 수입니다. COSDistCp는 이 값 세트를 기반으로 각 복사 프로세스에 대해 복사 스레드 풀을 생성합니다.
예: --workerNumber=4 | 4 | No |
--filesPerMapper=VALUE | 각 Mapper에 입력되는 파일 수입니다.
예: --filesPerMapper=10000 | 500000 | No |
--groupBy=PATTERN | 정규식과 일치하는 텍스트 파일을 연결하는 정규식입니다
예: --groupBy='.*group-input/(\\d+)-(\\d+).*' | None | No |
--targetSize=VALUE | 생성할 파일의 크기(MB)입니다. 이 매개변수는 --groupBy와 함께 사용됩니다.
예: --targetSize=10 | None | No |
--outputCodec=VALUE | 출력 파일의 압축 방법. 유효한 값: gzip, lzo, snappy, none, keep. 여기:
1. keep: 원본 파일의 압축 방식을 유지함을 나타냅니다
2. none: 파일 확장자를 기준으로 파일의 압축을 푼다는 것을 나타냅니다
예: --outputCodec=gzip
참고: /dir/test.gzip 및 /dir/test.gz 파일이 있는 경우, 출력 형식을 lzo로 지정하면 /dir/test.lzo만 유지됩니다 | keep | No |
--deleteOnSuccess | 소스 파일이 대상 디렉터리에 성공적으로 복사된 직후 소스 파일을 삭제합니다.
예: --deleteOnSuccess,
참고: v1.7 이상에서는 더 이상 이 매개변수를 제공하지 않습니다. 데이터를 성공적으로 마이그레이션하고 확인을 위해 --diffMode를 사용한 후 소스 파일 시스템에서 데이터를 삭제하는 것이 좋습니다. | false | No |
--multipartUploadChunkSize=VALUE | Hadoop-COS 플러그인을 사용하여 COS로 전송된 멀티파트 업로드 부분의 크기(MB)입니다. COS는 최대 10000개의 파트를 지원합니다. 파일 크기에 따라 값을 설정할 수 있습니다.
예: --multipartUploadChunkSize=20 | 8MB | No |
--cosServerSideEncryption | COS 서버 측 암호화에 SSE-COS를 사용할지 여부를 지정합니다
예: --cosServerSideEncryption | false | No |
--outputManifest=VALUE | 대상 위치에 복사된 모든 파일 목록이 포함된 파일(Gzip 압축)을 생성합니다
예: --outputManifest=manifest.gz | None | No |
--requirePreviousManifest | 이 매개변수가 true로 설정되면 증분 복사에 --previousManifest=VALUE를 지정해야 합니다
예: --requirePreviousManifest | false | No |
--previousManifest=LOCATION | 이전 복사 작업 중에 생성된 매니페스트 파일입니다
예: --previousManifest=cosn://examplebucket-1250000000/big-data/manifest.gz | None | No |
--copyFromManifest | --previousManifest에 지정된 파일을 대상 파일 시스템에 복사합니다. 이것은 previousManifest=LOCATION과 함께 사용됩니다
예: --copyFromManifest | false | No |
--storageClass=VALUE | 사용할 스토리지 유형입니다. 유효한 값은 STANDARD, STANDARD_IA, ARCHIVE, DEEP_ARCHIVE, INTELLIGENT_TIERING입니다. 자세한 내용은 스토리지 유형 개요를 참고하십시오. | None | No |
--srcPrefixesFile=LOCATION | 한 줄에 하나의 디렉터리씩 소스 디렉터리 목록을 포함하는 로컬 파일입니다.
예: --srcPrefixesFile=file:///data/migrate-folders.txt | None | No |
--skipMode=MODE | 파일 복사 전 원본 파일과 대상 파일이 동일한지 확인합니다. 동일하면 파일을 건너뜁니다. 유효한 값은 none(확인 안 함), length (길이), checksum(CRC 값), length-mtime(길이+mtime 값) 및 length-checksum(길이 + CRC 값)입니다.
예: --skipMode=length | length-checksum | No |
--checkMode=MODE | 복사가 완료되면 원본 파일과 대상 파일이 동일한지 확인합니다. 유효한 값은 none(확인 안 함), length (길이), checksum(CRC 값), length-mtime(길이+mtime 값) 및 length-checksum(길이 + CRC 값)입니다.
예: --checkMode=length-checksum | length-checksum | No |
--diffMode=MODE | 소스 및 대상 디렉터리에서 다른 파일 목록을 얻기 위한 규칙을 지정합니다. 유효한 값은 length (길이), checksum(CRC 값), length-mtime(길이+mtime 값) 및 length-checksum(길이 + CRC 값)입니다.
예: --diffMode=length-checksum | None | No |
--diffOutput=LOCATION | diffMode에서 HDFS 출력 디렉터리를 지정합니다. 이 디렉터리는 비어 있어야 합니다.
예: --diffOutput=/diff-output | None | No |
--cosChecksumType=TYPE | Hadoop-COS 플러그인에서 사용하는 CRC 알고리즘을 지정합니다. 유효한 값은 CRC32C 및 CRC64입니다.
예: --cosChecksumType=CRC32C | CRC32C | No |
--preserveStatus=VALUE | 원본 파일의 user, group, permission, xattr, timestamps 메타데이터를 대상 파일에 복사할지 여부를 지정합니다. 유효한 값은 문자 ugpxt(각각 user, group, permission, xattr, timestamps의 영어 이니셜)의 조합입니다.
예: --preserveStatus=ugpt | None | No |
--ignoreSrcMiss | 매니페스트 파일에 존재하지만 복사 중에 찾을 수 없는 파일을 무시합니다. | false | No |
--promGatewayAddress=VALUE | MapReduce 작업의 Counter 데이터를 푸시하기 위한 Prometheus PushGateway 주소 및 포트를 지정합니다. | None | No |
--promGatewayDeleteOnFinish=VALUE | 지정된 작업이 완료되면 Prometheus PushGateway에서 JobName 메트릭을 삭제할지 여부입니다
예: --promGatewayDeleteOnFinish=true | true | No |
--promGatewayJobName=VALUE | Prometheus PushGateway에 보고할 JobName 입니다
예: v --promGatewayJobName=cos-distcp-hive-backup | None | No |
--promCollectInterval=VALUE | MapReduce 작업 Counter 정보를 수집하는 간격(ms)입니다
예: --promCollectInterval=5000 | 5000 | No |
--promPort=VALUE | Prometheus 메트릭을 노출하는 Server 포트입니다
예: --promPort=9028 | None | No |
--enableDynamicStrategy | 동적 작업 할당 정책을 활성화하여 더 빠른 마이그레이션으로 더 많은 파일을 마이그레이션하는 작업을 수행합니다.
참고: 이 모드에는 특정 제한이 있습니다. 예를 들어 프로세스가 예외적인 경우 작업 카운터가 부정확할 수 있습니다. 따라서 --diffMode를 사용하여 마이그레이션 후 데이터를 확인하십시오.
예: --enableDynamicStrategy | false | No |
--splitRatio=VALUE | Dynamic Strategy의 분할 비율입니다. splitRatio가 높을수록 작업 세분성이 작음을 나타냅니다.
예: --splitRatio=8 | 8 | No |
--localTemp=VALUE | Dynamic Strategy에 의해 생성된 작업 파일을 저장할 로컬 폴더입니다
예: --localTemp=/tmp | /tmp | No |
--taskFilesCopyThreadNum=VALUE | Dynamic Strategy에 의해 생성된 작업 파일을 HDFS에 복사하기 위한 동시성 수 입니다
예: --taskFilesCopyThreadNum=32 | 32 | No |
--statsRange=VALUE | 통계 범위입니다
예: ---statsRange=0,1mb,10mb,100mb,1gb,10gb,inf | 0,1mb,10mb,100mb,1gb,10gb,inf | No |
--printStatsOnly | 데이터를 복사하지 않고 파일 크기 분포에 대한 통계만 수집합니다
예: --printStatsOnly | None | No |
--bandWidth | 마이그레이션된 각 파일을 읽기 위한 최대 대역폭(MB/s)입니다. 기본값: -1, 읽기 대역폭에 제한이 없음을 나타냅니다.
예: --bandWidth=10 | None | No |
--jobName | 마이그레이션 작업 이름입니다
예: --jobName=cosdistcp-to-warehouse | None | No |
--compareWithCompatibleSuffix | --skipMode 및 --diffMode 매개변수를 사용할 때 소스 파일 확장자 gzip을 gz로, lzop을 lzo로 변경할지 여부입니다.
예: --compareWithCompatibleSuffix | None | No |
--delete | 원본 디렉터리에는 있지만 대상 디렉터리에는 없는 파일을 별도의 trash 디렉터리로 옮기고 원본 디렉터리와 대상 디렉터리 간의 파일 일관성을 보장하기 위해 파일 목록을 생성합니다.
참고: 이 매개변수는 --diffMode와 함께 사용할 수 없습니다 | None | No |
--deleteOutput | delete에 대한 HDFS 출력 디렉터리를 지정합니다. 이 디렉터리는 비어 있어야 합니다.
예: --deleteOutput=/dele-output | None | No |
--help
로 명령어를 실행해 COSDistCp에서 지원하는 매개변수를 조회합니다. 예시는 다음과 같습니다.hadoop jar cos-distcp-${version}.jar --help
${version}
은 COSDistCp의 버전 넘버입니다. 예를 들어 1.0 버전의 COSDistCp jar 패키지 이름은 cos-distcp-1.0.jar입니다.--printStatsOnly
및 --statsRange=VALUE
로 명령어를 실행하여 마이그레이션할 파일의 크기 분포 정보를 출력합니다.hadoop jar cos-distcp-${version}.jar --src /wookie/data --dest cosn://examplebucket-1250000000/wookie/data --printStatsOnly --statsRange=0,1mb,10mb,100mb,1gb,10gb,infCopy File Distribution Statistics:Total File Count: 4Total File Size: 1190133760| SizeRange | TotalCount | TotalSize || 0MB ~ 1MB | 0(0.00%) | 0(0.00%) || 1MB ~ 10MB | 1(25.00%) | 1048576(0.09%) || 10MB ~ 100MB | 1(25.00%) | 10485760(0.88%) || 100MB ~ 1024MB | 1(25.00%) | 104857600(8.81%) || 1024MB ~ 10240MB | 1(25.00%) | 1073741824(90.22%) || 10240MB ~ LONG_MAX| 0(0.00%) | 0(0.00%) |
--src
와 --dest
로 명령어를 실행하며, 예시는 다음과 같습니다.hadoop jar cos-distcp-${version}.jar --src /data/warehouse --dest cosn://examplebucket-1250000000/data/warehouse
yarn logs -applicationId application_1610615435237_0021 > application_1610615435237_0021.log
CosDistCp CountersBYTES_EXPECTED=10198247BYTES_SKIPPED=10196880FILES_COPIED=1FILES_EXPECTED=7FILES_FAILED=1FILES_SKIPPED=5
통계 항목 | 설명 |
BYTES_EXPECTED | 원본 디렉터리 통계에 따라 복사할 파일의 총 크기, 단위: 바이트 |
FILES_EXPECTED | 원본 디렉터리 통계에 따라 복사할 파일 수. 디렉터리 파일 포함 |
BYTES_SKIPPED | 길이 또는 검사합이 동일하여 복사하지 않은 파일의 총 크기, 단위: 바이트 |
FILES_SKIPPED | 길이 또는 검사합이 동일하여 복사하지 않은 원본 파일 수 |
FILES_COPIED | 복사 완료한 원본 파일 수 |
FILES_FAILED | 복사 실패한 원본 파일 수 |
FOLDERS_COPIED | 복사 완료한 디렉터리 수 |
FOLDERS_SKIPPED | 건너뛴 디렉터리 수 |
--taskNumber
및 --workersNumber
로 명령어를 실행합니다. COSDistCp는 멀티 프로세스+멀티 스레드의 복사 구조를 사용하며, 다음 작업이 가능합니다.--taskNumber
를 통해 복사 프로세스 수 지정--workerNumber
를 통해 각 복사 프로세스 내의 복사 스레드 수 지정hadoop jar cos-distcp-${version}.jar --src /data/warehouse/ --dest cosn://examplebucket-1250000000/data/warehouse --taskNumber=10 --workerNumber=5
hadoop jar cos-distcp-${version}.jar --src /data/warehouse --dest cosn://examplebucket-1250000000/data/warehouse --skipMode=length-checksum
--skipMode
옵션은 파일 복사 전에 원본 파일과 대상 파일의 일치 여부를 검사하는 데 사용하며, 일치할 경우 건너뜁니다. none(검사 안 함), length(길이), checksum(CRC 값), length-checksum(길이 + CRC 값)을 선택할 수 있습니다.hadoop fs -Ddfs.checksum.combine.mode=COMPOSITE_CRC -checksum /data/test.txt/data/test.txt COMPOSITE-CRC32C 6a732798
--diffMode
및 --diffOutput
으로 명령어를 실행합니다.--diffMode
의 옵션 값은 length와 length-checksum이 있습니다.--diffMode=length
는 파일 크기 동일 여부에 따라 변경 파일 리스트를 획득합니다.--diffMode=length-checksum
은 파일 크기 및 CRC 검사 동일 여부에 따라 변경 파일 리스트를 획득합니다.--diffOutput
은 diff 작업의 출력 디렉터리를 지정합니다.
대상 파일 시스템이 COS이고 원본 파일 시스템의 CRC 알고리즘이 다른 경우, COSDistCp는 원본 파일을 가져와 대상 파일 시스템의 CRC를 계산하여 동일한 CRC 알고리즘 값을 비교합니다. 다음 예시에서는 마이그레이션이 완료된 후 --diffMode 매개변수를 사용하여 파일 크기 및 CRC 값에 따라 원본 파일과 대상 파일이 동일한지 검사합니다.hadoop jar cos-distcp-${version}.jar --src /data/warehouse --dest cosn://examplebucket-1250000000/data/warehouse/ --diffMode=length-checksum --diffOutput=/tmp/diff-output
/tmp/diff-output/failed
디렉터리에(1.0.5 및 이전 버전은 /tmp/diff-output임) 변경 파일 리스트를 생성합니다. 다음 명령어를 사용하여 SRC_MISS 이외의 변경 파일 리스트를 가져올 수 있습니다.hadoop fs -getmerge /tmp/diff-output/failed diff-manifestgrep -v '"comment":"SRC_MISS"' diff-manifest |gzip > diff-manifest.gz
hadoop jar cos-distcp-${version}.jar --taskNumber=20 --src /data/warehouse --dest cosn://examplebucket-1250000000/data/warehouse/ --previousManifest=file:///usr/local/service/hadoop/diff-manifest.gz --copyFromManifest
--checkMode
매개변수로 명령어를 실행하고 파일 복사가 완료되면 원본 파일과 대상 파일의 길이와 검사합이 동일한지 검사합니다. 기본값은 length-checksum입니다.hadoop jar cos-distcp-${version}.jar --src /data/warehouse --dest cosn://examplebucket-1250000000/data/warehouse --checkMode=length-checksum
--bandWidth
으로 명령을 실행합니다. 값 단위는 MB이며, 각 마이그레이션 파일의 읽기 대역폭 10MB/s로 제한합니다. 예시는 다음과 같습니다.hadoop jar cos-distcp-${version}.jar --src /data/warehouse --dest cosn://examplebucket-1250000000/data/warehouse --bandWidth=10
cat srcPrefixes.txt/data/warehouse/20181121//data/warehouse/20181122/
--srcPrefixesFile
매개변수를 사용하여 해당 파일을 지정하고 마이그레이션 명령어를 실행합니다.hadoop jar cos-distcp-${version}.jar --src /data/warehouse --srcPrefixesFile file:///usr/local/service/hadoop/srcPrefixes.txt --dest cosn://examplebucket-1250000000/data/warehouse/ --taskNumber=20
--srcPattern
으로 명령어를 실행합니다. /data/warehouse/
디렉터리의 확장자가 .log인 로그 파일만 동기화합니다. 예시는 다음과 같습니다.hadoop jar cos-distcp-${version}.jar --src /data/warehouse/ --dest cosn://examplebucket-1250000000/data/warehouse --srcPattern='.*\\.log$'
hadoop jar cos-distcp-${version}.jar --src /data/warehouse/ --dest cosn://examplebucket-1250000000/data/warehouse/ --srcPattern='.*(?<!\\.temp|\\.tmp)$'
--cosChecksumType
으로 명령어를 실행합니다. 기본 값은 CRC32C이며, CRC32C와 CRC64를 선택할 수 있습니다.hadoop jar cos-distcp-${version}.jar --src /data/warehouse --dest cosn://examplebucket-1250000000/data/warehouse --cosChecksumType=CRC32C
--storageClass
로 명령어를 실행합니다. 예시는 다음과 같습니다.hadoop jar cos-distcp-${version}.jar --src /data/warehouse --dest cosn://examplebucket-1250000000/data/warehouse/ --outputManifest=manifest-2020-01-10.gz --storageClass=STANDARD_IA
--outputCodec
으로 명령어를 실행합니다. 해당 매개변수를 통해 HDFS의 데이터를 실시간으로 압축해 COS에 백업할 수 있어 스토리지 비용을 절약할 수 있습니다. 매개변수 옵션 값은 keep, none, gzip, lzop, snappy가 있으며, none은 대상 파일을 압축하지 않은 상태로 저장하고, keep은 원본 파일의 압축 상태를 유지합니다. 예시는 다음과 같습니다.hadoop jar cos-distcp-${version}.jar --src /data/warehouse/logs --dest cosn://examplebucket-1250000000/data/warehouse/logs-gzip --outputCodec=gzip
--deleteOnSuccess
로 명령을 실행합니다. /data/warehouse
디렉터리의 파일을 HDFS에서 COS로 동기화한 후 즉시 원본 디렉터리에서 해당 파일을 삭제합니다.hadoop jar cos-distcp-${version}.jar --src /data/warehouse --dest cosn://examplebucket-1250000000/data/warehouse --deleteOnSuccess
--outputManifest
및 --previousManifest
로 명령어를 실행합니다.--outputManifest
해당 옵션은 먼저 로컬에 gzip으로 압축된 manifest.gz를 생성하고 마이그레이션 완료 시 --dest
에서 지정한 디렉터리로 이동됩니다.--previousManifest
로 바로 이전의 --outputManifest
출력 파일을 지정하여 COSDistCp가 동일한 길이 및 크기의 파일을 건너뜁니다.hadoop jar cos-distcp-${version}.jar --src /data/warehouse --dest cosn://examplebucket-1250000000/data/warehouse/ --outputManifest=manifest.gz --previousManifest= cosn://examplebucket-1250000000/data/warehouse/manifest-2020-01-10.gz
--enableDynamicStrategy
를 사용하여 작업 동적 할당 정책을 활성화하여 작업 속도가 빠른 작업에 더 많은 파일을 마이그레이션하여 작업 시간을 줄일 수 있습니다.hadoop jar cos-distcp-${version}.jar --src /data/warehouse --dest cosn://examplebucket-1250000000/data/warehouse --enableDynamicStrategy
hadoop jar cos-distcp-${version}.jar --src /data/warehouse --dest cosn://examplebucket-1250000000/data/warehouse/ --diffMode=length-checksum --diffOutput=/tmp/diff-output
--preserveStatus
로 명령을 실행합니다. 원본 파일 또는 원본 디렉터리의 user, group, permission, timestamps(modification time, access time)를 대상 파일 또는 대상 디렉터리에 복사합니다. 이 매개변수는 HDFS에서 CHDFS로 파일을 복사할 때 적용됩니다.
예시는 다음과 같습니다.hadoop jar cos-distcp-${version}.jar --src /data/warehouse --dest cosn://examplebucket-1250000000/data/warehouse/ --preserveStatus=ugpt
- job_name: 'cos-distcp-hive-backup'static_configs:- targets: ['172.16.16.139:9028']
--promPort=VALUE
매개변수로 명령어를 실행하여 현재 MapReduce 작업의 카운터를 외부에 노출합니다.hadoop jar cos-distcp-${version}.jar --src /data/warehouse --dest cosn://examplebucket-1250000000/data/warehouse --promPort=9028
--completionCallbackClass
로 콜백 클래스 경로를 지정해 명령어를 실행하면, COSDistCp가 복사 작업 완료 시 수집한 작업 정보를 매개변수로 하여 콜백 함수를 실행합니다. 사용자 정의한 콜백 함수는 다음과 같은 인터페이스를 구현해야 하며, 콜백 예시 코드 다운로드로 이동합니다.package com.qcloud.cos.distcp;import java.util.Map;public interface TaskCompletionCallback {/*** @description: When the task is completed, the callback function is executed* @param jobType Copy or Diff* @param jobStartTime the job start time* @param errorMsg the exception error msg* @param applicationId the MapReduce application id* @param: cosDistCpCounters the job*/void doTaskCompletionCallback(String jobType, long jobStartTime, String errorMsg, String applicationId, Map<String, Long> cosDistCpCounters);/*** @description: init callback config before execute*/void init() throws Exception;}
export alarmSecretId=SECRET-IDexport alarmSecretKey=SECRET-KEYexport alarmRegion=ap-guangzhouexport alarmModule=moduleexport alarmPolicyId=cm-xxxhadoop jar cos-distcp-1.4-2.8.5.jar \\-Dfs.cosn.credentials.provider=org.apache.hadoop.fs.auth.SimpleCredentialProvider \\-Dfs.cosn.userinfo.secretId=SECRET-ID \\-Dfs.cosn.userinfo.secretKey=SECRET-KEY \\-Dfs.cosn.bucket.region=ap-guangzhou \\-Dfs.cosn.impl=org.apache.hadoop.fs.CosFileSystem \\-Dfs.AbstractFileSystem.cosn.impl=org.apache.hadoop.fs.CosN \\--src /data/warehouse \\--dest cosn://examplebucket-1250000000/data/warehouse/ \\--checkMode=checksum \\--completionCallbackClass=com.qcloud.cos.distcp.DefaultTaskCompletionCallback
hadoop jar cos-distcp-${version}.jar --src /data/warehouse --dest cosn://examplebucket-1250000000/data/warehouse --taskNumber=20
hadoop jar cos-distcp-${version}.jar --src /data/warehouse --dest cosn://examplebucket-1250000000/data/warehouse/ --diffMode=length-checksum --diffOutput=/tmp/diff-output
hadoop jar cos-distcp-${version}.jar \\-Dfs.cosn.credentials.provider=org.apache.hadoop.fs.auth.SimpleCredentialProvider \\-Dfs.cosn.userinfo.secretId=COS_SECRETID \\-Dfs.cosn.userinfo.secretKey=COS_SECRETKEY \\-Dfs.cosn.bucket.region=ap-guangzhou \\-Dfs.cosn.impl=org.apache.hadoop.fs.CosFileSystem \\-Dfs.AbstractFileSystem.cosn.impl=org.apache.hadoop.fs.CosN \\--src /data/warehouse \\--dest cosn://examplebucket-1250000000/warehouse
/tmp/${randomUUID}/output/failed/
디렉터리에 입력합니다. 여기서 ${randomUUID}는 랜덤 문자열이며, 복사에 실패하는 주요 원인은 다음과 같습니다.hadoop fs -getmerge /tmp/${randomUUID}/output/failed/ failed-manifestgrep -v '"comment":"SRC_MISS"' failed-manifest |gzip > failed-manifest.gz
/tmp/${randomUUID}/output/logs/
디렉터리의 오류 로그 정보 및 풀링 애플리케이션 로그를 종합하여 원인을 진단할 수 있습니다. 예를 들어, yarn 애플리케이션의 로그를 풀링하는 경우 다음 명령어를 사용할 수 있습니다.yarn logs -applicationId application_1610615435237_0021 > application_1610615435237_0021.log
hadoop jar cos-distcp-${version}.jar -Dmapreduce.task.timeout=18000 -Dmapreduce.reduce.memory.mb=8192 --src /data/warehouse --dest cosn://examplebucket-1250000000/data/warehouse
문제 해결에 도움이 되었나요?