简介
云原生数据湖存储服务可以帮助您快速在容器服务(Tencent Kubernetes Engine,TKE)上部署一套基于对象存储(Cloud Object Storage,COS)的数据湖存储服务。您可以通过云原生数据湖存储服务,快速在一个 TKE 或者 EKS 集群上部署各类业务所需的大数据服务应用和 AI 服务应用,同时通过数据加速器 GooseFS 对接海量分布式存储服务。
概念和术语
使用云原生数据湖存储服务,您可以阅读以下说明初步了解相关的概念和术语:
环境:用于维护云原生数据湖存储中计算集群和存储服务之间的映射关系,推荐您统一从这入口管理计算集群和存储服务。
注意
如果您需要删除计算集群,建议您先清除云原生数据湖存储环境,然后在容器服务控制台上删除计算集群。
计算集群:用于运行各类计算业务的容器集群,您可以创建 TKE 集群或者 EKS 集群。
存储服务:特指对象存储服务,用于存储各类用于计算业务的数据。
应用市场:用于运行各类计算业务的应用组件,例如 Flink、Spark 等,您可以在创建环境时按需选择所需的应用。
注意
当您的容器集群被销毁时,您部署的应用也会被销毁。请谨慎进行删除操作。
数据加速器 GooseFS:可用于纳管不同的底层存储桶,并将热点数据缓存在计算集群中,加速您的计算业务。
您还可以通过如下文档预先了解一些基础信息:
对象存储 COS 服务:您可以通过 快速入门 了解如何创建存储桶并在存储桶中上传和下载文件。 容器服务:您可以通过 快速入门了解如何创建一个 TKE 集群或者 EKS 集群。 应用市场:您可以通过容器服务提供的 应用市场 了解如何在集群中创建并部署应用。 数据加速器 GooseFS:该服务可用于统一纳管不同的底层存储桶,并加速您的业务访问。
前提条件
当前云原生数据湖存储服务属于白名单能力,如果您需要使用,请 联系我们 开白使用。 云原生数据湖存储服务依赖容器服务和对象存储服务,您在使用过程中需要确保拥有权限操作计算服务和存储服务。如果您使用子账号登录,请确保该子账号至少拥有如下权限:
对象存储服务的存储桶和文件操作权限:
容器集群的管理权限:
集群管理权限:TKE 提供了对接 Kubernetes RBAC 的授权模式,便于对子账号进行细粒度的访问权限控制,子账号操作时还需要参考TKE Kubernetes 对象级权限控制。
操作步骤
完整的操作步骤大致分为:创建环境、关联集群、部署计算应用、关联存储服务、管理环境等关键步骤,具体操作指引如下。
2. 在左侧边导航栏中,单击云原生数据湖存储,进入云原生数据湖存储服务界面。
3. 在云原生数据湖存储服务界面中,页面视图会展示能力介绍、部署指引两部分内容:
我们会默认为您显示部署指引,您可以单击右上方的收起指引关闭指引导航。
云原生数据湖存储环境列表展示页面支持搜索。对于已存在环境,您可以进行如下操作:
单击环境名称,进入环境详情页面管理环境。
单击关联集群,打开 TKE 控制台进入对应集群详情页面。
单击关联存储桶,进入存储桶页面查看桶里的文件信息。
4. 单击创建环境,进入环境创建流程。
创建环境需要先选择对应的容器计算集群,其需要配置如下参数:
环境名称:用于标记环境信息,最长支持63个字符,全局唯一。
地域:选择容器集群的地域信息。
集群类型:可选 TKE 集群和 EKS 集群,如果当前地域下无集群,您可以单击创建容器集群,前往容器服务控制台新建集群。
集群:在指定地域和指定集群类型的条件下,用于部署计算应用服务、运行计算作业的集群名称。
计算应用:运行计算作业所需的应用服务,当前默认支持了 Flink、big-data-suite、colocation、airflow、pytorch 和 spark-operator 等应用,您可以按需选择;如果您需要部署自定义应用,可以前往容器服务控制台上自行部署。应用支持多选。
5. 单击下一步,进入到存储桶配置页面视图。
您可以在该页面下为计算集群配置不同的存储桶,我们默认提供了数据加速器 GooseFS 服务,用于纳管不同存储桶并将数据缓存到计算集群的本地节点,用于加速计算作业。其需要配置如下参数:
地域信息:无法编辑,默认跟随计算集群所选地域。该地域下如果没有可选存储桶,您可以单击创建存储桶,新建一个存储桶用于计算任务使用。
存储桶:支持选择指定地域下的多个存储桶。支持只挂载存储桶中的某个文件目录。
注意
如果是挂载整个存储桶,那么无需输入第二个输入框;如果需要指定目录,可以通过输入目录名称来实现,格式形如prefix/*
。
启用 GooseFS:GooseFS 服务用于加速计算作业性能,默认启用,无法更改。不会产生额外的费用消耗。
6. 单击下一步,进入到 GooseFS 应用配置页面视图。
由于在数据湖环境下,所有的计算任务均需要通过 GooseFS 服务来访问 COS,因此需要为 GooseFS 配置有权限访问指定存储桶的 secretId 和 secretKey。
7. 单击下一步,确认信息。
8. 如果您需要修改配置项,可单击修改对配置信息进行更改。确认无误后,单击创建环境,即可完成创建环境操作。返回环境列表并刷新,即可看到新建的云原生数据湖存储环境。
如果您需要删除环境,可以在环境列表单击删除,并在弹窗中确认本次删除操作即可。
9. 单击列表环境名称,可以进入基本信息页面。
我们使用了三个卡片视图分别描述环境信息、计算集群信息、存储桶信息。
数据湖环境信息:用于展示环境的名称、地域、关联的计算集群、存储服务和创建时间等信息。
计算集群信息:用于展示计算集群的名称、节点数量、CPU、内存、GPU 用量等基础信息。如果需要了解计算集群详情,您可以单击查看详情,跳转到容器服务控制台查看。
存储桶信息:用于展示计算集群绑定的存储桶名称、文件路径和 GooseFS 使用状态。如果您需要查看存储服务详情,可以单击查看详情查看。
以上步骤全部完成后,您即可完成一个数据湖环境创建流程。
本页内容是否解决了您的问题?