信息 | 描述 |
数据源类型 | 选择 Hive 类型。 |
数据源 | 选择 Hive 类型数据源。 |
数据库名 | 自定义 Hive 数据库名称。 |
描述 | 选填,自定义描述内容。 |
信息 | 描述 | |
基本信息配置 | 数据源类型 | 选择 DLC 类型。 |
| 数据源 | 选择 DLC 类型数据源。 |
| 数据库名 | 自定义 DLC 数据库名称。 |
| 描述 | 选填,自定义描述内容。 |
事件策略配置 | AddDataFiles | 设置增加的文件数量最大值,超过该值将触发小文件合并。 |
| AddPositionDeletes | 增加的 Position delete 最大数值,超过该值将触发小文件合并。 |
| AddEqualityDeletes | 增加的 Equality delete 最大数值,超过该值将触发小文件合并。 |
| AddDeleteFiles | 增加的 delete file 数量,过期快照的 AddDataFiles+AddDeleteFiles 的总和大于阈值 AddDataFiles+AddDeleteFiles 时,将从该快照处删除快照。 |
治理规则配置 | 小文件合并 | 启用后大量小于阈值的数据文件将被合并为更大的文件,减少文件数量,提升查询性能。 |
| 删除过期快照 | 启用后将自动清理过期的历史快照信息,减少元数据/数据文件数量,节约存储空间,提升查询速度。 |
| 删除孤立文件 | 启用后将自动定期清理无效的数据文件,节约存储空间。 |
| 元数据合并 | 启用后将自动合并元数据 manifests 文件,减少 manifests 文件数量,提高数据查询效率。 |
信息 | 描述 |
建表方式 | 向导模式 使用传统的手动添加字段,插入字段后自定义字段名、字段中文名、字段英文名、列类型、是否分区、描述。 DDL 模式 使用 SQL 建表语句创建数据表,新建表仅支持 CREATE TABLE 语句,编辑表仅支持 ALTER TABLE ADD / REPLACE COLUMNS 语句。例:
注意: DDL 建表过程中,需要保证建表语句的表名部分与新建数据表时输入的名称一致。 |
表权限 | 项目共享 将数据表权限归属于当前项目,项目内所有成员均会获得数据表权限,包括编辑、查询、删除等操作。 仅个人与管理员 将数据表权限归属于创建者个人与当前项目的管理员。 (说明:数据权限生效时间预计需要30秒左右) |
生命周期 | EMR-Hive 表不支持配置生命周期,当前配置不生效,请知晓(会在后续迭代中去掉该配置项)。 |
存储类型 | 支持选择四种类型的存储方式: TEXTFILE:是一种文本格式的存储类型,存储的是纯文本文件,每一行代表一个记录。 PARQUET:是一种列式存储格式,它将数据分成行和列,并按列存储到磁盘上。它在某些场景下比行式存储更快,而且支持基于列的压缩。 ORC:是一种优化的列存储格式,可用于存储和处理大规模数据。它使用更高级的压缩算法和索引技术,能够提高处理速度和查询效率。 CSV:是一种常见的文本格式,以逗号作为字段之间的分隔符,并在每个字段值周围用引号进行标记。 |
字段分隔符 | 将数据表中的每个字段分离,以便在程序或系统中进行读取和处理。支持五种字段分隔符类型:\\u0001(Hive 默认)、|(竖线)、(空格)、;(分号)、,(逗号)、\\t(制表符) |
字段配置 | 一个字段包含字段名、字段描述、列类型、是否分区等配置信息。 分区字段说明:字段不能全选为分区字段,至少要有一个非分区字段。分区字段不支持array、map、decimal类型。 |
信息 | 描述 | |
数据表格式 | 选择建表类型 | 可选择创建内部表或外部表。 |
| 数据表来源 | 创建内部表时指定创建空表或对象存储 COS。 |
| 存储路径 | 对象存储 COS 与外部表需要填写 location 全路径。 |
| 数据格式 | 数据格式包括:CSV、JSON、PARQUET、ORC、AVRO。 |
| 数据表版本 | 选择 V1 或 V2 的数据表版本。 |
| upsert | 选择 V2 的数据表版本时,可以选择是否使用 upsert 写入。 |
基本属性 | 中文名 | 自定义表中文名。 |
| 描述 | 自定义描述信息。 |
字段信息 | 字段名 | 设计表字段名称。 |
| 字段类型 | 支持 DLC 数据表字段类型。 |
| 描述 | 自定义字段描述信息。 |
| 是否使用分区 | 设计分区,包括分区字段、转换策略与策略参数。 |
| 事件策略配置 | AddDataFiles:设置增加的文件数量最大值,超过该值将触发小文件合并。 |
| | AddPositionDeletes:增加的 Position delete 最大数值,超过该值将触发小文件合并。 |
| | AddEqualityDeletes:增加的 Equality delete 最大数值,超过该值将触发小文件合并。 |
| | AddDeleteFiles:增加的 delete file 数量,过期快照的 AddDataFiles + AddDeleteFiles 的总和大于阈值 AddDataFiles + AddDeleteFiles 时,将从该快照处删除快照。 |
| 治理规则配置 | 支持开启数据表治理规则,治理规则配置项可以选择继承当前数据表创建时所选数据库的治理规则,或为数据表自定义治理规则。包括以下治理规则: 小文件合并:启用后大量小于阈值的数据文件将被合并为更大的文件,减少文件数量,提升查询性能。 删除过期快照:启用后将自动清理过期的历史快照信息,减少元数据/数据文件数量,节约存储空间,提升查询速度。 删除孤立文件:启用后将自动定期清理无效的数据文件,节约存储空间。 元数据合并:启用后将自动合并元数据 manifests 文件,减少 manifests 文件数量,提高数据查询效率。 |
属性设置 | 参数配置 | 支持自定义数据表参数配置,例如 format-version、write.upsert.enabled。 |
信息 | 描述 |
数据源类型 | 支持 Hive 类型数据源。 |
数据源 | 选择对应数据源类型下的 WeData 数据源。 |
数据库 | 显示当前项目绑定的 Hive 数据库,根据数据源类型联动。支持按照库名称进行搜索。 |
存储桶 | 用于临时存储上传文件的 COS 桶。 |
表名 | 默认自动带入去掉后缀名的上传文件名,可自定义名称。 |
上传资源 | 单击上传或拖拽上传,提供上传进度条。上传格式为:CSV 或 TSV 格式。 |
信息 | 描述 | |
基础属性 | 表权限 | 选择当前数据表创建后的权限归属,在项目内共享或仅个人与管理员可使用。 |
| 中文名 | 默认自动带入去掉后缀名的文件名,可自定义。 |
| 描述 | 自定义数据表描述信息。 |
文件属性 | 数据预览 | 文件解析后仅展示前500行数据,单击重新上传会弹出文件上传弹框用于重新上传建表文件。 |
| 文件格式 | 下拉选择,支持 CSV、TSV。 |
| 列分隔符 | 用户可以自定义输入,输入单个字符或者类似于 \\u0001 的 Unicode 转义序列。 CSV 默认使用:,(逗号) TSV 默认使用:\\t(制表符) |
| 列引号 | 默认双引号,用户可以切换单引号。 |
| 文件首行是字段名 | 默认否,可以切换为是。 |
| 文件编码方式 | 默认 UTF-8,用户可以选择 UTF-8、GBK、ISO-8859-1。 |
字段属性 | 字段名 | 根据文件首行是字段名属性解析字段名。当文件内数据首行非字段名的情况下,用 column_1、column_2、column_3......column_x 来顺序填充字段名。支持用户可自定义修改字段名。 |
| 字段中文名 | 自定义字段中文名。 |
| 字段英文名 | 自定义字段英文名。 |
| 列类型 | 根据数据源类型选择对应数据源支持的字段类型。 |
| 描述 | 自定义字段描述信息。 |
信息 | 描述 | |
基本信息 | 数据类型 | 数据表所属的存储和计算引擎类型。 |
| 数据库名 | 数据表所属的数据库的名称。 |
| 表名 | 数据表的标识名称。 |
| 责任人 | 数据表的责任人。 |
| 中文名 | 数据表的中文名称。 |
| 描述 | 用户自定义的描述信息。 |
存储信息 | 表大小 | 当前数据表中的数据已占用物理存储的空间大小。 |
| 生命周期 | 当前数据表的生命周期,用于控制其有效使用时间,提升数据治理过程中整体的安全性与节省存算资源。 |
| 创建时间 | 当前数据表的创建日期时间。 |
本页内容是否解决了您的问题?