会员登录 注册新帐号电脑店行业门户 | U盘启动工具

首页

 电脑店主页 > 产品技术 > 服务器储存 > 服务器 > HPC > 英特尔降低高性能计算复杂性 加速获取人工智能洞察

英特尔降低高性能计算复杂性 加速获取人工智能洞察

发布时间:2016-11-25 17:15      点击:     关注官方微博:

         2016年11月15日 —如今,高性能计算(HPC)在企业以及各行各业中的应用日益普遍,从天气预报、产品开发到疾病诊断,在各种复杂问题处理中都能看到它的身影。因此,降低HPC系统复杂性,平衡性能及按需扩展等需求也不断增长。此外,业界也在寻求如何降低人工智能在多种商业、政府和学术中应用的门槛。在今天于犹他州盐湖城举行的2016年全球超级计算大会上,英特尔宣布对其HPC产品组合做出多项重大更新,并将研发多项新技术,以期帮助解决这些棘手问题。

英特尔HPC Orchestrator

英特尔可扩展系统框架 (英特尔SSF)致力于平衡和优化计算、内存、存储、能效及其他各方面的性能。英特尔 SSF是一种高级架构方法,可简化HPC系统的采购、部署和管理。英特尔致力于通过提供经过验证的可靠、模块化的整合性HPC软件平台来简化系统管理,从而引领整个生态系统的转型。

·           英特尔HPC Orchestrator现已上市,HPC系统构建商、应用开发商和最终用户可利用此软件平台提高系统设置和管理效率,支持大规模测试并简化用户部署。英特尔HPC Orchestrator 是一种可定制平台,既支持传统HPC工作负载,也支持机器学习、高性能数据分析和无人驾驶等新兴用途。

·           英特尔HPC Orchestrator基于OpenHPC 社区系统软件堆栈,包括多种编译器选项、MPI系列、基本操作系统组合以及协助自动安装的工具。此外还集成了具有90天评估许可的英特尔Parallel Studio XE Cluster Edition 产品,可提供初始下载后的便捷安装。

·           作为英特尔 SSF的重要组件,英特尔HPC Orchestrator包括60余种预集成的模块化组件,并提供持续更新和技术支持服务。这可帮助HPC系统开发人员和用户将其技术资源专注于增强HPC解决方案并建立差异化优势。

·           英特尔HPC Orchestrator现通过OEM启动系统供应商戴尔* 和富士通* 进行发售,很快将会推出其他发售渠道。

英特尔占据Top500份额前列;英特尔OPA份额增长2.5倍

上市仅9个月的时间,英特尔Omni-Path 高速互联架构 (英特尔OPA)已成为100 GB 系统的标准架构。在2016年全球超级计算大会上公布的全球超级计算机500强中,有28套使用了英特尔 OPA,且在100 GB系统中占比66%。这些全球500强系统包括Oakforest-PACS、MIT林肯实验室和CINECA。

·           在此次大会评选出的500强超级计算机名单中,共计28套集群部署了英特尔OPA,该数据是InfiniBand* EDR系统的两倍,在所有100GB系统中的比例约为66%。此外,还有两个系统位居前15位:Oakforest-PACS以8,208个节点排名第6,CINECA则以3,556个节点排名第12。在本次榜单中,英特尔 OPA系统的每秒总浮点运算达到43.7千万亿次(Rmax),这是所有InfiniBand* EDR系统浮点运算次数的2.5倍。

·           英特尔 OPA具有高性能、高性价比以及错误检测和无额外延迟纠正等创新架构功能,可提供极为显著的客户优势,因此在大规模发售仅9个月内,市场采用率迅速增长。

·           英特尔 OPA是一种端到端互连解决方案,可提高不同规模集群的HPC工作负载。与InfiniBand EDR相比,该解决方案将应用性能提高了9%,并将平均架构成本降低了37%之多2

·           目前已部署安装英特尔 OPA的包括日本东京大学、筑波大学(JCAHPC)、德州理工大学、华盛顿大学、科罗拉多大学波尔德分校、麻省理工学院林肯实验室和马来西亚气象局。目前全球已成功部署了100多套英特尔 OPA集群,这主要得益于其富有竞争力的基准性能和领先的性价比。

借助英特尔Deep Learning Inference Accelerator加速AI实现

·           凭借其业内领先的性能和强大的软件生态系统,基于英特尔的平台几乎为所有HPC和机器学习工作负载提供支持。借助英特尔Deep Learning Inference Accelerator,英特尔在2017年扩大了AI解决方案产品组合。英特尔Deep Learning Inference Accelerator是一种基于现场可编程门阵列(FPGA)的集成软硬件解决方案,可用于神经网络加速。

·           英特尔Deep Learning Inference Accelerator 可为图像识别应用提供可扩展的加速解决方案,为数据中心带来出色的吞吐量和能效,从而使用户能够在数分钟内部署深度学习解决方案。

·           其硬件采用了专为卷积神经网络(CNN)目标拓扑优化的英特尔Arria10 FPGA插入板。其基于FPGA的架构可支持远程更新,因此可随着AI领域的快速创新及时更新硬件。

·           可通过英特尔Distribution for Caffe* 和 英特尔Math Kernel Library for Deep Neural Networks (英特尔MKL-DNN)等行业标准框架对英特尔Deep Learning Inference Accelerator进行软件编程。

·           英特尔Deep Learning Inference Accelerator 将于 2017年上市。

扩展英特尔SSF生态系统

英特尔及其生态联盟合作伙伴不断发布大型系统、优化解决方案、新工具和资源以及新英特尔 SSF 计划,以扩展英特尔 SSF生态系统。

最近,下列企业和组织采用了英特尔 SSF:

·           MIT林肯实验室等领先大学和研究中心在其500强的超级计算机中部署了英特尔 SSF。

·           HPE 将英特尔 SSF 集成至HPE下一代测序解决方案版本中,以提高基因测序的速度和成本效益。

·           戴尔将英特尔 SSF 集成到用于生命科学领域的戴尔HPC系统,以加快包括药物设计、癌症研究、农业和法医学在内的多个领域的信息转化。

·           英特尔发布了英特尔Cluster Checker 2017更新。这款全面诊断工具在英特尔Parallel Studio XE 2017 中发行,支持英特尔至强处理器、英特尔至强融核处理器、英特尔 OPA和适用于Lustre* 的英特尔企业版软件。

英特尔至强融核TM处理器系列更新

·           英特尔至强融核处理器 7210、7230、7250 和 7290 系列现已发售,集成英特尔 OPA的处理器计划于本月大量发售。

·           50余种基于英特尔至强融核处理器的HPC设计已在业内得到广泛采用。

·           最新的英特尔至强融核处理器已部署于全球超级计算机500强中的9个新系统,其中有2套系统排名前10,它们分别是排名第5的Cori系统和排名第6的Oakforest-PAC系统。此外,英特尔也是支持排名第20位的系统——Theta系统中橡树岭、阿贡、劳伦斯利弗莫尔合作项目(CORAL)的主要合约方。Theta系统将有助于提高美国在科学研究中的领导力3

·           英特尔扩大了在日本、韩国、欧洲和美国的全球合作,因而推动了针对基于英特尔至强融核处理器的平台的开发者使用计划。

·           英特尔至强融核协处理器将于2017年初上市。

英特尔至强处理器不断创新

英特尔至强平台几乎为所有HPC和机器学习工作负载提供支持。为了进一步推进该成果,英特尔推出了速度最快的双路处理器——英特尔至强处理器 E5-2699A v4系列。

·           英特尔至强处理器E5-2699A v4 系列可提供面向数据密集型应用所需的业界领先性能,为想通过广泛部署的数据中心获得高性能的用户提供了绝佳的选择。

·           在2016年全球超级计算大会上,英特尔将公开展示一款搭载下一代英特尔至强处理器早期版本的HPC集群,该处理器集成了英特尔 OPA、英特尔高级矢量扩展指令集-512 (英特尔AVX-512)以及英特尔至强融核处理器。

·           英特尔AVX-512 处理器指令集于2016年6月与最新一代英特尔至强融核处理器一同发布,致力于加快压缩和加密算法的速度。它可提供硬件增强型数据保护并加快信息转化,同时提高多种HPC应用中所采用的浮点运算的速度。

[2] WIEN2k版本14.2 lapw1c_mpi 基准、GROMACS版本5.0.4 ion_channel基准、NWChem 版本6.6 Siosi5 基准、LS-DYNA MPP R8.1.0 3cars基准、ANSYS Fluent v17.0 rotor_3m基准、NAMD 2.11 stmv基准、Quantum Espresso版本5.3.0 ausurf112 基准, CD-adapco STAR-CCM+?版本11.04.010 lemanx_poly 17m 基准、LAMMPS 2016年2月16日稳定版rhodopsin protein 基准、WRF版本3.5.1 conus2.5km 基准、Spec MPI2007 Large suite(发行前英特尔内部测量预测)的配置:IntelXeonE5-2697A v4双插槽处理器服务器,每节点64 GB DDR4内存,2133 MHz,RHEL 7.2;BIOS设置:侦测延迟定时器(Snoop hold-off timer) = 9;提早侦测(Early snoop)禁用;片上集群(Cluster on die)禁用;IOU非发布预取禁用(IOU Non-posted prefetch)禁用;IntelOmni-Path Architecture (IntelOPA):Intel Fabric Suite 10.0.1.0.50;Intel Corporation Device 24f0 – 100 系列HFI ASIC(生产硅);OPA 交换机:100系列边缘交换机 – 48端口(生产硅);EDR Infiniband:MLNX_OFED_LINUX-3.2-2.0.0.0 (OFED-3.2-2.0.0);Mellanox EDR ConnectX-4 单端口 Rev 3 MCX455A HCA;Mellanox SB7700 - 36 端口EDR Infiniband 交换机。MiniFE 2.0,VASP (developer branch),GaAsBl-64 基准的配置:IntelXeonE5-2697 v4 双插槽处理器服务器,每节点128 GB DDR4内存,2400 MHz,RHEL 6.5;侦测延迟定时器(Snoop hold-off timer) = 9;IntelOPA: Intel Fabric Suite 10.0.1.0.50;Intel Corporation Device 24f0 –100系列 HFI ASIC(生产硅);OPA交换机:100系列边缘交换机 – 48端口(生产硅);IOU非发布预取禁用(IOU Non-posted prefetch)禁用。2). Mellanox EDR基于内部测量:Mellanox EDR ConnectX-4 单端口Rev 3 MCX455A HCA;Mellanox SB7700 – 36端口EDR Infiniband交换机;结构成本降低37%:配置假定所有计算集群为完全双向带宽(FBB)胖树配置。所有集群配置(以12个节点为增量)通过英特尔内部配置工具预估。基于英特尔技术的特定产品在特定情境和配置情况下的运行表现仅供参考,其中描述的降低成本的场景有可能会影响未来的成本,并带来成本节约。由于使用情境各不相同,英特尔无法保证任何的成本或成本降低。如需了解英特尔?和迈络思硬件价格

★★★ 电脑店行业门户(www.diannaodian.com)独家文章,欢迎大家转载 ★★★

    上一篇:高性能计算需要什么样的互连网络?
    下一篇:没有了