tencent cloud

文档反馈

在 CVM 上通过 AVX512 加速人工智能应用

最后更新时间:2024-01-06 17:49:55

    操作场景

    腾讯云第六代实例 S6 和第五代实例 S5、M5、C4、IT5、D3 全面采用第二代智能英特尔®至强®可扩展处理器 Cascade Lake。提供了更多的指令集和特性,可用于加速人工智能的应用,同时集成的大量硬件增强技术,其中 AVX-512(高级矢量扩展)能够为 AI 推理过程提供强劲的并行计算能力,使用户获得更好的深度学习效果。
    本文以 S5、M5 实例为例,介绍如何在 CVM 上通过 AVX512 加速人工智能应用。

    选型推荐

    云服务器的多种实例规格可用于多种应用开发,其中 标准型 S6标准型 S5内存型 M5 适用于机器学习或深度学习。这些实例配备了第二代 Intel® Xeon® 处理器,适配 Intel® DL boost 学习能力。推荐配置如下表:
    平台类型
    实例规格
    深度学习训练平台
    84vCPU 的标准型 S5 实例或 48vCPU 的内存型 M5 实例。
    深度学习推理平台
    8/16/24/32/48vCPU 的标准型 S5 实例或内存型 M5 实例。
    机器学习训练或推理平台
    48vCPU 的标准型 S5 实例或 24vCPU 的内存型 M5 实例。

    具备优势

    使用 Intel® Xeon® 可扩展处理器运行机器学习或深度学习工作负载时,具备以下优势:
    适合处理大内存型工作负载、医学成像、GAN、地震分析、基因测序等场景中使用的 3D-CNN 拓扑。
    支持使用简单的 numactl 命令进行灵活的核心控制,也适用小批量的实时推理。
    强大的生态系统支持,可直接在大型集群上进行分布式训练,避免额外添加大容量存储和昂贵的缓存机制来进行规模化架构的训练。
    可在同一个集群中支持多种工作负载(例如 HPC、BigData、AI 等),获取更优的 TCO。
    通过 SIMD 加速,满足众多实际深度学习应用程序的计算要求。
    同一套基础架构可直接用于训练及推理。

    操作步骤

    创建实例

    创建云服务器实例,详情请参见 通过购买页创建实例。其中,实例规格需根据 选型推荐 及实际业务场景进行选择。如下图所示:
    
    
    说明:
    更多实例规格参数介绍,请参见 实例规格

    登录实例

    登录云服务器实例,详情请参见 使用标准方式登录 Linux 实例(推荐)

    部署示例

    您可根据实际业务场景,参考以下示例部署人工智能平台,进行机器学习或深度学习任务:
    
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持