编者按:政府要服务社会公共产业,适合建“综合医院”;企业要服务自身专项需求,适合建“专科医院”。
随着数字经济进入新发展阶段,算力已成为核心资源之一。据有关资料统计,我国各类算力中心总量超过46万个,总面积逾1000万平米,且未来将保持一定概率的增长。
然而,尽管算力这个词在近年来很“火”,但其背后的含义,却很少有人真正了解。“算力”受到关注,但背后的技术领域依然小众、认知门槛高,“如果连算力概念都不了解,那么企业、政府在规划算力中心时难免吃大亏,甚至出大事。”
基于这个问题,AI评论与某超算中心主任进行了访谈,在本文中讨论了算力中心建设的要点,并分析该如何正确理解算力,以及厘清该领域经常被误会的地方。
1、对立统一
算力中心有多种,大致可分为数据中心、超算中心、智算中心等,而它们都可以用云的形式来提供服务。
其中数据中心在互联网企业中常用到,用于处理数据密集、通讯密集的事务性任务,比如手机app应用的后台数据数理。超算中心更偏重于科学计算等计算密集型的任务。最后,智算中心则应用于特定的大规模AI任务。
超算和智算之间更容易被混淆,但要区分它们其实也很简单,“我们可以把超算看成综合医院,把智算看成专科医院。”综合医院、专科医院都有其存在的价值,并在动态意义上可以互相转化,由此也暗示超算和智算的对立统一关系。
对立
“很多媒体对算力中心存在许多误解,甚至都算不上是误解,很多时候连基本概念都没有搞清楚。”
近期,某人工智能计算中心宣布建成投运,不少媒体报道指出该智算中心的算力规模达到1000P,“AI算力峰值性能相当于5万台高性能计算机。”
专家表示,媒体这种说法并不专业,就像说飞机飞的比100座山还高。“一座山的高度可能是100米,可能是8848米。一台高性能计算机,可能有10个节点,也可能有10000个节点。”
另外,人们可能会认为,该智能计算中心的算力已经超越了曾获得超算TOP500榜单第一的富岳(537PFLOPS)。
但实际上,超算采用“FLOPS”即每秒浮点运算数为算力单位,而智能计算的算力单位一般会采用“OPS”即每秒操作次数为算力单位,两者是完全不同的度量单位。
此外,智能计算的性能结果(单位OPS)通常是基于半精度及整型运算测试(AI基准)得到的,超算的性能结果(单位FLOPS)则是基于双精度、单精度浮点运算测试(Linpack)得到的。
对于超算和智算之间性能的比较,专家持比较严苛的观点,其表示1000POPS性能可能相当于0 PFLOPS,“这里面涉及到能与不能的问题。具体还要看运算精度,而运算精度最终是影响到可执行的任务类型的。就好比,我们不能说十个牙科诊所相当于一个综合医院。”
计算机的精度类型包括双精度、单精度、半精度以及整数类型等,随着精度减小,其表示的数值范围依次大幅度降低,同时对应硬件能胜任的任务也越来越聚焦到特定领域。
注释:【100P双精度性能超算】和【1000P半精度浮点性能智算】执行任务对比
注释:不同精度可执行任务对比
“在AI推理、AI训练、模拟这个维度上,芯片的应用上限由其底层构造所决定,即使采用软件优化也无法再往上提升。”
此外,有些厂商还会模糊智能计算机的推理性能和训练性能,或者在同为FLOPS单位的情况下,掩盖运算精度细节。“比如近期被媒体广泛宣传的声称达到超算TOP500第五的国外超级计算机,其实更接近于智能计算机,它的性能数值其实也是基于低精度运算得到的。”
统一
由于精度上的限制,使得智能计算机受限为专用算力,一般仅支持单个场景,而无法提供平台性的服务。比如安防领域拥有海量视频,智算中心可以只做一个任务即视频处理,并且做10年乃至20年,它都能表现的很好。“但是,让智算中心去跑需要运行数万不同类型软件的任务,那就是勉为其难了。”
因此,智算中心并不适用于公共服务型的算力中心,而更适用于企业。
超级计算机则是一种通用算力,更加擅长高精度计算,可胜任行星模拟、新材料开发、分子药物设计、基因分析等科学计算任务,以及能源、气象、工程仿真、生物基因、智慧城市等。
当然,超算的胜任任务还包括人工智能,我们可以深入到芯片层面来比较。如果底层芯片采用的是CPU+GPU,那么其既能打造成超算,也可以打造成智算。因为GPU既能做双精度运算,从而通用性很好,可用于科学计算,也可用于AI的模拟、训练、推理。
而如果底层芯片采用的是CPU+专用芯片比如AI芯片,那么其只能打造成智算。因为AI芯片无法做双精度浮点运算,双精度浮点运算大量涉及线性代数方程求解,“自然界的很多问题,包括科学问题、社会问题等,最后都可转化为线性代数方程求解问题。”
尽管总存在某一方向主导的局面,但专家认为,我们仍然应该两者兼顾,不能厚此薄彼。
超算和智算并不是互相排斥的存在,而是对立而统一的关系。也就是说,超算和智算应该作为两条路线分别发展,并在整体上协同,基于不同应用、服务对象建立不同的算力中心。超算相对更适合用于公共算力服务,智算更适合服务定向企业。
2降本增效
明确了算力中心多样性的整体布局理念之后,接下来要考虑的,自然是在每一条路线上发挥最大效用,即降本增效——提升算力中心的有效性。从方法论上,可以简单总结为“花更少的钱,做更多的事。”
降本
造价越高的算力中心,不代表性能同等地提高。以粤港澳大湾区的两家算力约等的计算中心项目为例,项目A的整体算力为1170POPS,造价约为5亿元;而使用同等精度芯片的项目B整体算力为2000POPS,性能略超前者,造价却达到了惊人的近30亿元。换算下来,两者每亿元算力分别为234POPS、66.7POPS,相差350%。
也就是说,不同的算力中心在性价比上可能差别特别大。算力中心由于市场化不足,政府获得的信息不对称,使得造价不透明,一定程度造成了公共财政资源的浪费。
此外,将性能和任务相匹配,即“因地制宜”,仍然是最省钱的方式。除了上述提到了智算更专用,超算更通用以外,反过来看,不同行业适合的算力中心类型也是不同的,主要基于两个维度,即通用和性能。
比如618、双11等购物节涉及的任务类型非常多,更适合用数据中心来处理;而像气候模拟、药物筛选等定义相对单一的任务则涉及大量的高精度计算,则必须用超级计算机来处理;在互联网大数据、人工智能应用场景下,超级计算机和智能计算机均能胜任。
智能计算机确实在向前发展,但专家再次强调,智能计算机所谓速度和能耗上的优势只是理论上的,而在实际应用中,智能计算机的表现不一定比超级计算机好。这背后的原因,即是“生态”——如何做更多的事。
增效
“由于专用芯片的市场占有率低,生态支持上不如通用芯片那么完善,因此其在实际运行中往往在性能、速度、功耗上不一定能超越通用芯片。智算当前面临的一大困难是生态建设,普及程度还很差。”
专家主要强调的是理论和实践的差距,而媒体宣传中可能瞄准的是另一些层面。生态一般更注重通用性和平台性层面,但最好不要笼统地对任何一种计算类型谈论生态,因为所谓通用性和平台性也是相对的。
“如今很多媒体经常说出诸如‘智算中心生态不行’的话语,这种表述既对,也不对。首先智能计算确实支持的应用很少,因此说它‘生态不行’是可以的。虽然智能计算只能用于特定AI应用,但如果在个别应用上达到一定的通用性,也能构成一种小生态。”
3求同存异
回顾历史,计算机的发展主要遵循两条路线,即专用和通用,并且这两个趋势经常交替出现。“在某一个时刻,我们可能更追求计算机的多任务即通用性能,直到碰到瓶颈,然后我们就会开始转向另一个方向,即牺牲一定的多样性,而追求某一专项任务的高性能。性能强、效率高、应用广泛(通用)一直是超级计算机的追求,而专用芯片也在不断地尝试拓宽自己的能力边界。”
因此,尽管智算的发展目前尚属幼稚,但正如超算就像综合医院、智算就像专科医院,“超算、智算两者各有其适用的领域,应该求同存异。”
近年来算力这个词不断地被大众所提及,在新基建的大背景下,这体现了社会对算力的真实需求。
“但是,对于从业人员而言,最重要的还是脚踏实地、一步一步地把基础性工作做好,让算力真正成为竞争力和生产力。”