联系我们

AI性能暴涨7倍,AMD昨夜发布Instinct MI100新卡,英伟达也祭出百亿亿次超算时代神器

2020-11-17

AMD (超微半导体公司)昨夜正式推出其 AMD Instinct MI100 加速GPU芯片,这是一款新的图形处理器处理器(GPU) ,在科学研究计算方面起着专门的加速器作用。

这种7nm GPU加速器使用AMDCDNA结构来处理高性能计算(HPC)和人工智能任务,这样科学家们就可以从事重负荷的计算任务,比如冠状病毒研究。

 

AMD推出Instinct MI100芯片,AI性能暴涨7

AMD公司表示,MI100芯片是世界上最快的高性能计算处理器GPU,也是第一个性能超过10万亿次浮点运算的x86服务器GPU

该设备支持新的加速计算包括AMD的客户:戴尔,技嘉,惠普和超微。

AMD高级副总裁丹·麦克纳马拉在新闻发布会上说: “高性能计算机在分析感染冠状病毒、开发疫苗以及各种生命科学应用的可能性方面确实发挥了非常重要的作用”。

MI100与第二代AMD Epyc处理器和ROCm 4.0开放软件相结合,旨在帮助科学家取得科学突破。 

用于图形和企业的GPU

今年3月,AMD发布了其首个专门针对数据中心高性能计算而设计的CDNA架构,与其RadeonRDNA游戏架构分道扬镳。二者虽然还有一些共通点,但在设计、优化上已经在各自的领域里有了不同的特色。

Brad McCredie在新闻发布会上说,有充足的证据显示数据中心应用程序的CPU进度相对于GPU的进度已经放慢,而最近,通用的GPU也开始放慢它们的进度。

这就是为什么AMD将其设计工作分为消费者图形处理器和企业/服务器图形处理器,因为图形处理和人工智能处理的需求可能非常不同。这种独立的架构方法与英伟达仅使用一种架构的方法形成了鲜明的对比。 

AMD的内部人士也称,不同的任务处理实际上并不需要共存,没有必要用一个芯片去玩steam游戏的同时也可以进行高级分子模拟、抗震分析或天体物理模拟。

在命名方面,AMD也放弃了Radeon字样,不再叫做Radeon Instinct,而是简单改成Instinct

Instinct MI100 AMD史上性能最高的HPC GPUFP64双精度浮点性能达到了11.5 TFlops(也就是每秒1.15亿亿次),并在架构设计上专门加入了Matrix Core(矩阵核心),用于加速HPCAI运算。

AMD称其在混合精度和FP16半精度的AI负载上,性能提升接近7倍,为AI和机器学习工作负载提供FP32 Matrix 单精度矩阵计算为46.1TFlops(每秒4.61亿亿次)FP16 Matrix半精度矩阵计算为184.6TFlops(每秒18.46亿亿次)Bfloat16 浮点为92.3TFlops(每秒9.23亿亿次)的性能。

软件开放平台ROCm 4.0

AMDROCm开发者软件为百万兆等级的运算提供了基础,ROCm 4.0已经进行了优化,以便为基于MI100的系统提供大规模的性能。

2018AMD发布了ROCm2.0版本,到2019年又发布了专注于机器学习和深度学习的3.0版本,再到昨晚最新发布的4.0版本,ROCm已经打造成了完整的针对机器学习和高性能计算的开发方案,渐渐形成了一个完整的生态,用于各个领域的高性能计算。

既然AMD发布了MI100,那老对手自然也不会缺席。 

AMD这款芯片的竞争对手是80GB版本的Nvidia A100 GPU,该GPU也于今天发布。

 

英伟达A100 80GB新卡,与AMD新品正面刚 

该芯片基于英伟达的Ampere图形架构,旨在通过实现更好的实时数据分析,帮助企业和政府实验室更快地做出关键决策。

A100 80GB版本的内存是六个月前推出的上一代的两倍。 

Nvidia高管帕雷什•卡亚(Paresh Kharya)在新闻发布会上表示英伟达已经将这个系统的所有功能加倍,以便更有效地为客户服务。 

同时他还说道,世界上90%的数据是在过去两年中创建的。 

A100芯片为研究人员和工程师提供了更快的速度和更高的性能,用于人工智能和科学应用。它提供超过每秒2 terabytes的内存带宽,这使得系统能够更快地将数据提供给GPU 

“超级计算已经发生了深刻的变化,从专注于模拟扩展到人工智能超级计算,数据驱动的方法现在正在补充传统的模拟,”Kharya说,他还补充说道,“Nvidia的端到端的超级计算方法,从模拟的工作流到人工智能,是必要的保持进步”。 

Nvidia A100 80GB GPU可在Nvidia DGX A100Nvidia DGX Station系统上使用,预计将在本季度出货。 

Nvidia今天还宣布,新芯片将与AMD新推出的Instinct MI100 GPU竞争。与AMD相比,Nvidia 有一个单一的GPU架构,既可用于人工智能,又可用于图形处理。 

有国外的分析师认为,AMD GPU的性能比Nvidia最初的40GB A100提高了18%。但他说真正的应用程序可能会受益于80GBNvidia版本。同时他还表示,虽然价格敏感的客户可能青睐AMD,但他认为AMD在人工智能性能方面无法与Nvidia抗衡。 

在人工智能领域,英伟达再次提高了门槛,几乎没有任何竞争对手能够跨越这一障碍。 

对于AI 训练,像DLRM这样的推荐系统模型拥有代表数十亿用户和数十亿产品的大型表格。A100 80gb提供了高达3倍的加速,因此企业可以迅速重新训练这些模型,以提供高度准确的建议。A100 80GB还可以在单个HGX驱动的服务器上训练最大的模型,比如GPT-2等。 

Nvidia 说,A100 80GB 消除了对数据或模型并行体系结构的需求,这些体系结构实现起来很费时间,跨多个节点运行起来很慢。 

通过其多实例 GPU (MIG)技术,A100可以被划分为多达7GPU实例,每个实例拥有10GB 的内存。这提供了安全的硬件隔离,并最大限度地利用GPU的各种较小的工作负载。 

A100 80GBAMD的芯片一样,同样可以为科学应用提供加速,比如天气预报和量子化学。 

GPU的新系统DGX 

Nvidia还发布了第二代人工智能计算系统,命名为Nvidia DGX Station A100,该公司称其为「盒子中的数据中心」。DGX提供了2.5千兆次的AI性能,有4A100的张量核心GPU。总而言之,它有高达320GBGPU内存。

Nvidia 副总裁Charlie Boyle在一次新闻发布会上说,该系统提供了多达28个不同的GPU实例来运行并行作业。 

使用DGX Station平台的客户遍及教育、金融服务、政府、医疗保健和零售业。其中包括宝马集团、德国DFKI人工智能研究中心、洛克希德·马丁公司、NTT Docomo 和太平洋西北国家实验室。本季度将提供Nvidia DGX Station A100Nvidia DGX A100 640GB系统。

Mellanox网络

最后,Nvidia发布了Mellanox 400G Infiniband网络,用于exascale AI超级计算机。2019年,Nvidia68亿美元收购了Mellanox 

这已经是第七代Mellanox InfiniBand技术,数据传输速度为每秒400千兆比特,而第一代技术为每秒10千兆比特。 

InfiniBand技术提供的网络吞吐量为每秒1.64 petabits,是上一代的5倍。Nvidia高级副总裁 Gilad Shainer在新闻发布会上说,Mellanox的技术将使从超级计算机到自动驾驶汽车的所有东西都能更快地联网。 

比尔盖茨在微软创立之初曾说希望每个家庭都能有一台PC,或许通过AMD和英伟达不断推进的研发,未来的每个家庭都能有自己的一个“超算中心”。

(转载自新智元)

诚聘英才
友好链接
业务咨询及参观访问:0755-86576085    0755-86576086    地址:深圳市南山区笃学路9号
国家超级计算深圳中心(深圳云计算中心)  ©2014-2020  粤ICP备10220126号