行业动态

米乐M6官网·六大门派围攻云端 AI 芯片光明顶

发布时间:2024-11-17 05:25:06 来源:米乐m6米乐平台 作者:M6米乐最新下载地址

  就在上周五,国际权威人工智能(AI)性能基准测试 MLPerf 公布了最新的数据中心及边缘场景 AI 推理榜单结果,无论是参与评选的企业还是实际 AI 芯片表现,都比往届多了不少看头。

  打头阵的自然还是国际 AI 计算巨头英伟达。这是英伟达(NVIDIA)第一次让其今年刚发布的最新旗舰 AI 加速器 H100 Tensor Core GPU 提交成绩,AI 推理性能足足比上一代 GPU 高出 4.5 倍。

  高通则通过云端 AI 芯片 Cloud AI 100 的最新评测成绩,证明其在高能效方面依然很能打。

  国内 AI 芯片企业也不示弱,这次壁仞科技、墨芯人工智能均首次“参战”,并且战绩不俗,在部分模型的成绩甚至超过了英伟达旗舰 AI 芯片 A100 和 H100。

  还有韩国 SK 电讯在 2020 年 11 月推出的韩国首个 AI 芯片 Sapeon X220,这次也通过参与测试展现出超过英伟达入门级 AI 加速卡 A2 性能的表现。

  不过,在今年 6 月训练基准测试榜单中大秀高性能、高能效成绩的谷歌 TPU v4 芯片,并没有出现在此次推理榜单中。

  此外,英特尔、阿里也分别展示了仅基于其服务器 CPU 的系统在加速 AI 推理方面的性能表现。

  总的来说,英伟达 A100 依然是横扫各大测试成绩的全能选手,还未上市的 H100 此次只是初露锋芒,预计训练性能的提升会更加“夸张”。

  国产 AI 芯片虽然只参加了 ResNet、BERT 等部分 AI 模型的评测,但单点战绩已经能与英伟达旗舰计算产品比肩,展现出在跑特定模型时替代国际先进产品的能力。

  MLPerf 基准测试按部署方式分为数据中心、边缘、移动、物联网四类场景,覆盖六类最具代表性的主流 AI 模型 —— 图像分类(ResNet50)、自然语言处理(BERT)、语音识别(RNN-T)、目标物体检测(RetinaNet)、医学影像分割(3D-UNet)、智能推荐(DLRM)。

  其中,自然语言理解、医学影像分割和智能推荐 3 个任务设置了 99% 与 99.9% 两种精度要求,以考察提升 AI 推理精度要求对计算性能的影响。

  英伟达 A100 在最新 MLPerf AI 推理测试榜单中依然大杀四方,在多类模型榜单的性能表现均名列前茅。A100 的继任者 H100 首次在 MLPerf 亮相,连破多项世界记录,其性能比 A100 高出 4.5 倍。

  英伟达基于 H100 GPU 单芯片提交了两个系统,一个系统配备 AMD EPYC CPU 作为主机处理器,另一个系统配备英特尔至强 CPU。

  可以看到,虽然采用英伟达最新 Hopper 架构的 H100 GPU 这次只展示了单芯片的测试成绩,其性能已经在多个情况下超过有 2、4、8 颗 A100 芯片的系统的性能。

  特别是用在对更大规模、更高性能提出要求的自然语言处理 BERT-Large 模型上,H100 的性能比 A100 和壁仞科技 GPU 超出一大截,这主要归功于其 Transformer Engine。

  此外,在边缘计算方面,将英伟达 Ampere 架构和 Arm CPU 内核集成在一块芯片的英伟达 Orin,运行了所有 MLPerf 基准测试,是所有低功耗系统级芯片中赢得测试最多的芯片。

  值得一提的是,相比今年 4 月在 MLPerf 上首次亮相的成绩,英伟达 Orin 芯片的边缘 AI 推理能效进一步提高了 50%。

  从英伟达往届在 MLPerf 提交的测试结果,可以看出 AI 软件带来的性能提升越来越显著。自 2020 年 7 月在 MLPerf 上首次亮相以来,得益于 NVIDIA AI 软件的不断改进,A100 的性能已经提升 6 倍。

  目前,NVIDIA AI 是唯一能在数据中心和边缘计算中运行所有 MLPerf 推理工作负载和场景的平台。通过软硬协同优化,英伟达 GPU 在数据中心及边缘计算中实现 AI 推理加速的成绩更加突出。

  壁仞科技今年 8 月刚发布的通用 GPU 芯片 BR104,亦在 MLPerf 首次公开亮相。

  MLPerf 推理榜单分为 Closed(固定任务)和 Open(开放优化)两类,固定任务主要考察参测厂商的硬件系统和软件优化的能力,开放优化则着重考察参测厂商的 AI 技术创新力。

  此次壁仞科技参加的是数据中心场景的固定任务评测,参评机型是搭载 8 张壁砺 104-300W 板卡的浪潮 NF5468M6 服务器,壁砺 104 板卡内置 BR104 芯片。壁仞科技提交了 ResNet 和 BERT 99.9% 精度模型的评测,同时包括 Offline 模式和 Server 模式。

  Offline 模式对应数据在本地可用的情况,比如在 ResNet-50、BERT 模型中,Offline 模式更为重要;Server 模式的数据则来自即时数据,数据以突发和间歇的方式在线送达,比如在 DLRM 中,Server 模式更重要。

  据悉,壁仞科技这次只选择这两类模型参评,主要考虑到两者是目前壁仞科技的目标客户应用最广泛、最重要的模型,特别是 BERT 模型。

  ▲ 壁仞科技 BR104 在 BERT 模型评选中同时拿下离线和在线模式的整机性能领先(图源:壁仞科技)

  从测试结果来看,在 BERT 模型的评选中,相较于英伟达提交的基于 8 张 A100 的机型,基于 8 张壁仞科技 BR104 的机型,性能达到了前者的 1.58 倍。

  总体来看,壁仞科技 8 卡 PCle 解决方案的性能表现,估计会介乎英伟达 8 卡 A100 与 8 卡 H100 之间。

  除了壁仞科技自己提交的 8 卡机型外,知名服务器提供商浪潮信息还提交了一款搭载 4 张壁砺 104 板卡的服务器,这也是浪潮信息首次提交基于国产厂商芯片的服务器测试成绩。

  另一家中国云端 AI 芯片企业墨芯人工智能同样首次参评 MLPerf,而且在图像分类模型的推理任务上取得了超过英伟达 H100 的单卡算力表现。

  墨芯设计 AI 芯片英腾处理器(ANTOUM)时采用了自研双稀疏化技术来实现底层的芯片架构创新,从而兼顾数据中心对高性能和高能效比的需求。在今年的 GTIC 2022 全球 AI 芯片峰会上,墨芯人工智能首次向业内全面发布其首批面向数据中心 AI 推理应用的高稀疏率计算卡 S4、S10 和 S30,分别为单芯片卡、双芯片卡和三芯片卡。

  此次墨芯参加的是开放优化类的测试。根据最新 MLPerf 推理榜单,墨芯 S30 计算卡以 95784FPS 的单卡算力,夺得 ResNet-50 模型算力第一,是 H100 的 1.2 倍、A100 的 2 倍。

  值得一提的是,墨芯 S30 采用的是 12nm 制程,而英伟达 H100 采用的是更先进的 4nm 制程,能够在制程工艺存在代际差的情况下追平两大数据中心主流 AI 模型的性能表现,主要得益于墨芯自主研发的稀疏化算法及架构。

  MLPerf 的测试要求非常严格,不仅考验各产品算力,同时设置精度要求在 99% 以上,以考察 AI 推理精度的高要求对计算性能的影响,也就是说参赛厂商不能以牺牲精度的方式换取算力提升。这亦证明了墨芯能做到在实现稀疏化计算的同时兼顾精度无损。

  高通早在 2019 年就发布的首款云端 AI 芯片 Cloud AI 100,继续坚挺地参评 MLPerf,与一众新 AI 加速器同场竞技。

  从测试成绩来看,单论在图像处理上的高能效,采用 7nm 制程的高通 Cloud AI 100 芯片依然可以笑傲江湖。

  MLPerf 最新披露的评测结果中,富士康、创通联达(Thundercomm)、英业达(Inventec)、戴尔、HPE 和联想都提交了使用高通 Cloud AI 100 芯片的测试成绩。可以看出,高通的 AI 芯片已经在被亚洲云服务器市场接纳。

  高通 Cloud AI 100 有两个版本,专业版(400 TOPS)或标准版(300 TOPS),都具有高能效的优势。在图像处理方面,该芯片的每瓦性能比标准部件的 NVIDIA Jetson Orin 高 1 倍,在自然语言处理 BERT-99 模型方面的能效亦是略胜一筹。

  在保持高能效的同时,高通的 AI 芯片并没有以牺牲高性能为代价,一台 5 卡服务器功耗 75W,可实现的性能比 2 卡 A100 服务器高出近 50%。而单台 2 卡 A100 服务器的功耗高达 300W。

  面向边缘计算,高通 Cloud AI 100 在图形处理方面展现出的高能效已经非常有竞争力,不过大型数据中心对芯片的通用性会有更高要求,如果高通想要进一步打入云端市。


米乐M6官网
亮照