tencent cloud

文档反馈

SFTP 数据源

最后更新时间:2024-11-01 17:12:17

    SFTP 离线单表读取节点配置

    
    
    
    参数
    说明
    数据来源
    选择当前项目中可用的 SFTP 数据源。
    同步方式
    SFTP 支持两种同步方式:
    数据同步:解析结构化数据内容,按字段关系进行数据内容映射与同步。
    文件传输:不做内容解析传输整个文件,可应用于非结构化数据同步。
    文件路径
    SFTP 文件系统的路径和文件名信息,需要填写包含路径和文件后缀的完整文件路径和文件名。这里可以支持填写多个路径。
    当指定单个远程 SFTP 文件,SFTP 暂时只能使用单线程进行数据抽取。后期会在非压缩文件情况下针对单个 File 进行多线程并发读取。
    当指定多个远程 SFTP 文件,SFTP 支持使用多线程进行数据抽取。线程并发数通过通道数指定。
    当指定通配符,SFTP 尝试遍历出多个文件信息。例如,指定/代表读取/目录下所有的文件,指定 /bazhen/ 代表读取 bazhen目录下所有的文件。SFTP 目前仅支持星号(*)作为文件通配符,并支持使用调度参数配合调度,灵活配置文件名与文件路径。
    文件类型
    SFTP 支持四种文件类型:txt 、orc 、parquet 、csv。
    txt:表示 TextFile 文件格式。
    orc:表示 ORCFile 文件格式。
    parquet:表示普通 Parquet 文件格式。
    csv:表示普通 HDFS 文件格式(逻辑二维表)。
    字段分隔符
    读取的字段分隔符,SFTP 在读取数据时,需要指定字段分隔符,如果不指定会默认为(,),界面配置也会默认填写(,)。
    编码
    读取文件的编码配置。支持 utf8 和 gbk 两种编码。
    空值转换
    读取时,将指定字符串转为 null。
    文本压缩类型
    支持无压缩、zip、gzip、bzip2。
    跳过表头
    否:读取时,不跳过表头。
    是:读取时,跳过表头。
    高级设置(选填)
    可根据业务需求配置参数。

    SFTP 离线单表写入节点配置

    
    
    
    参数
    说明
    数据源
    选择当前项目中可用的 SFTP 数据源。
    文件路径
    文件系统的路径信息。路径支持使用‘*’作为通配符,指定通配符后将遍历多个文件信息。
    文件名称
    写入的文件名称,该文件名会添加随机的后缀作为实际写入名称。
    写入模式
    SFTP 支持三种写入模式:
    append:写入前不做任何处理,保证文件名不冲突 。
    nonConflict:文件名重复时报错 。
    overwrite:写入前清理以文件名为前缀的所有文件。
    字段分隔符
    写入的字段分隔符。SFTP 写入时的字段分隔符,需要您保证与创建的 SFTP 表的字段分隔符一致,否则无法在 SFTP 表中查到数据。可选:' \\t ' 、' \\u001 ' 、' | '、' 空格 ' 、 ' ;' ' , '。
    编码
    写入文件的编码配置。支持 utf8 和 gbk 两种编码。
    空值转换
    写入时,将 null 转为指定字符串。
    是否包含表头
    否:写入时,不跳过表头。
    是:写入时,跳过表头。
    高级设置(选填)
    可根据业务需求配置参数。

    数据类型转换支持

    SFTP 实现了读取和写入 SFTP 双向通道的功能,远程 SFTP 文件本身是无结构化数据存储,数据处理引擎在读取和写入时自动转换为 Bytes 类型。
    
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持