数学模型分析和预测:液冷服务器何时会成为主流?

发布于 2022-06-01 12:39

一直以来,数据中心制冷技术话题一直保持较高热度。炙手可热的话题背后,一方面,是从基础设施维度,制冷系统对数据中心PUE权重最大;另一方面,是半导体芯片晶体管密度越来越高,在各种算力应用场景下(例如,大数据分析,人工智能,高性能运算HPC……),服务器和机架功率密度在一直攀升。


对于服务器功耗和机架的功率密度,业界一直有讨论,但是众说纷纭,专家各执一词,大概有以下几个主要话题:


  1. 使用风冷服务器解决方案,IDC设计需要支持多高的机架功率密度?


  2. 服务器性能也在提高,但是一个系列芯片有那么多款,有高性能版,有低功耗节能版,也有主流版本,公司的业务不一样,选择哪款芯片对服务器的功耗差异不同。那什么时候的服务器要用液冷,什么时候的服务器要用风冷呢?


  3. 服务器芯片工艺也在提高,算力性能/Watt提高的同时,会不会随着工艺(10nm/7nm/5nm/4nm....)成熟以及新架构(如ARM等),导致单颗芯片功耗不太上涨,反而会下降呢?


  4. 除了芯片配置,服务器也有多种类型,例如1U,2U,4U,还有半U模块式,刀片服务器(市场占比低)等,那么如何选取服务器类型,也影响制冷方式?


  5. 除了CPU有多种选择,近几年因为计算场景细分,还出现TPU,GPU(例如英伟达的AI芯片)运算,服务器设计变成一个更加复杂的系统架构工程,芯片如何选型,组合和应用,如何影响服务器的散热方式变革?



在进入本文的核心话题之前,笔者想做一些简单的科普。

芯片为什么需要散热?

芯片就是半导体,相信读者都明白。而半导体就是常温下(下面会解释温度对半导体的性能变化)导电性能介于导体与绝缘体之间的材料。首先,导体就一定有电阻,除非是超导现象,所以半导体通过电流后,基于初中物理的电阻发热 I^2*R, 半导体芯片就会产生热量。

半导体要流过电流,因为里面集成很多晶体管,而晶体管作为一种可变电流开关,能够基于输入电压控制输出电流,同时晶体管相当于电子开关,快速开和关的特性来实现0和1。有早年DIY电脑经验的人,应该还记得BIOS里面调整CPU的电压,实现超频,当然CPU功耗也会上升。实际上,CPU功耗也和电压,频率相关

大家能理解芯片会发热的原因后,需要进一步了解的是,耗散功率与晶体管的最高允许结温和集电极最大电流有密切关系。芯片在使用时,实际功耗不能超过额定值,否则会引起晶体管的结温上升导致芯片烧毁。在每年的PC玩家超频大赛里面,选手使用液氮,冲击PC mark和3D mark的高分,使用的方式,无非CPU增加工作电压,提升频率,要使用液氮解决随之而来的热量问题。所以,从过往的故事里面,我们可以知道,CPU功耗(热量)和CPU频率以及工作电压是正相关,而CPU工作频率又和电压是正相关。


图1 - 超频大赛选手使用液氮



芯片的散热物理原理


在芯片散热,顾名思义就是把芯片发热部分的晶体管(面积)产生的热量散出去。下图是一个CPU芯片,如果采用空气散热方式的结构组成图

图2 - 芯片结构和内部集成的散热片


可以看出,CPU产生的热量,会传递到散热片,要维持CPU工作温度,则需要使用散热介质,把这部分热量迅速带走。由于散热片的面积是一定的,于是乎,对于不同热量的大小(CPU不同系列,不同功耗情况)选择不同的散热方式和解决方案。以台式机的CPU为例,游戏发烧友会喜欢高端芯片,就要更夸张的散热器,而笔记本电脑,平板电脑,则不需要这么“夸张”的散热方式。下图是根据CPU热量情况,不同风冷散热器的选择,包括:


  • 被动式散热翅片;

  • 散热翅片 + 一个风扇;

  • 多个散热翅片 + 多个风扇;


图3 - 多种桌面PC的CPU散热器方式



前面介绍了一些科普知识,下面会重点谈一下笔者做整个数学建模的思想架构,选择评估参数背后的数学逻辑,当然还有基于这个数学模型分析出的结果。


数学模型——预测液冷服务器何时会成为IDC主流



01
芯片发热是否有公式?



有,公式是 
P = C * V^2 * f 

其中


  1. C是电容量;

  2. V是工作电压;

  3. f是工作频率;


02
数学建模应该用哪种方法和合理性?


虽然可以使用上面的物理公式,但从产业链专家里面,获取对应高质量的数据非常难,而且对于三元多次方程来判断未来CPU功耗,会带来很多建模难度。例如就电容率而言,工艺提升,实际上会在一个同样大小的晶圆上集成更多的晶体管,最后芯片的性能上升不少,但单颗芯片却未必降低,参看图4


图4 - CPU和GPU在不同工艺上集成的晶体管数量趋势


与此同时,从历年CPU和GPU发布的热功耗设计值(简称TDP, Thermal Design Power),是会不断攀升,如图5所示。


图5 - CPU和GPU的TDP趋势 (来源:Alibaba OCP公开演讲)


所以笔者在数学建模过程中,并没有参照芯片发热的公式套用参数,而是利用TDP值和时间的变化关系,作为整体评估,因为这个参数更少,更容易评估。

观察到这个曲线,还会发现有几个突出的问题,例如,有那么多款CPU,如何选取CPU对结果有很大变化;服务器那么多种配置,怎样知道什么CPU选型,整体设计配置的情况下,才使用液冷呢?有CPU和GPU,不同厂商也不同,如何评估?

为了构建更加完整的数学模型,为此,笔者会额外引入另外两个参数,顶配CPU的TDP和主流CPU的TDP的转化率%,以及CPU使用液冷的门槛值(Watt)。那么实际情况下,如何合理选择这两个参数呢?笔者认为,应该根据用户自身主流选型情况,选择这两个参数。这意味着,假设数学模型逻辑没问题,提高精确性,就要选择某个客户自身的应用参数作为模型输入

例如,转化率%的选择上,最新intel的CPU是Sapphire,顶配CPU是350W,而用户选择的CPU是250W,那么转换率为70%。对于液冷的门槛值,由于服务器使用1U,2U,4U,多路CPU等配置的问题,物理空间散热设计对结果影响较大,门槛值有所不同,但应该遵循一些已有厂商的散热设计作为门槛值参考。例如Intel发布的服务器设计里面,最顶配的2U服务器,使用8个最高端CPU是350W,仍然能使用风冷散热,而当CPU达到400W时候,就要使用液冷解决方案,可参与以下链接:

Up to 350W processor TDP for high performance workloads in a 2U air cooled chassis, up to 400W processor TDP with liquid-cooled versions —— Intel的服务器设计和CPU散热方案选择

https://www.intel.cn/content/www/cn/zh/products/docs/servers/server-boards/server-board-s9200wk-brief.html

于是乎,可以选择350W作为2U服务器的液冷方案门槛值。

那么,最后一个问题,有CPU和GPU的不同厂商,选择哪些数据作为参考呢?这里面,对于数学建模来说,为了得到是一个有普遍意义的结果,那么应该是概率大(使用量大,市场份额大)的数据。这意味着,如果对于CPU来说,使用Intel/英特尔公司的数据,而GPU则使用Nvidia/英伟达公司。

最后,把顶配的TDP数据转换率%液冷门槛值年份,可以组成整个数学模型结构。整体数学模型的计算方式参考图6


图6 - 数学模型架构


对TDP值,笔者采用是计算复合增长率CAGR%,当然也可以采用其他数学公式模拟曲线手段,例如指数函数等。经过笔者计算,使用(1+CAGR%)^N方式,和Exp指数幂方式,其变量方差R^2差异非常少,所以笔者引用CAGR%这个计算值,在数学模型上更加简单。同时,对于不同参数设置,可以在模型里面做出几种预测场景,包括乐观预测基础预测悲观预测

接下来,只需要根据intel CPU家族,顶配版本TDP参数,对应时间轴,在Excel上建立相关数据,根据相关函数方式,就能预测2022年后时间轴对应的TDP值。而一旦转换成主流CPU的TDP值满足液冷门槛值,则意味着在该年的CPU,需要使用液冷方式,这就是整个数学模型的测算逻辑。笔者在此展示部分结果。


图7 - TDP功耗值预测


可以看出,在选择(门槛值=350W),以及(TDP转换率70%)的情况下,要迈入规模化液冷服务器,需要到2026年。


03
调整参数变化,评估预测范围


有读者会认为,这种计算方式,是不是会忽略太多变化情况,例如,会不会实际上CAGR值不是9%,未来工艺实际上会变成10%,甚至更多?另外,会不会未来业务需要使用更多AI运算(Intel未来誓言努力提升CPU对AI运算性能),那么TDP转换率不是70%,而是用更高且性能更好的版本?抑或未来风冷服务器可以做成4U版本,液冷门槛值达到400W而不是350W呢?


当然,这些都是有可能性的,因此笔者在模型里面,在建模时候,对参数的可选择性,输出结果做了一些敏感性分析,如下图8


图8 - 液冷服务器应用年份敏感性分析


从敏感性分析可以看出,如果转换率只有50~60%,液冷应用年份会变得更长,到2030年。而相对激进的80%转换率和CAGR=11%,可以在2024年就进入液冷。

所以回到前面提到的,模型的参数很关键,要根据具体某个用户实际情况来选取,这样有更多普遍性意义。就笔者调研的大部分互联网公司主流机型情况而言,很多公司选取的TDP转换率大概60%,在CAGR = 9~11%的范围内,液冷服务器迈入规模应用,测算结果是2026~2027年


 结 语 


回过头来看,这个数学模型预测的结果,对于液冷服务器规模应用的年代,2026年又好,抑或2027年都好,甚至2031年,这些测算年份离2022年初超过3年了,确定性有多高都有很大波动率。


大家需要理解的是,这类模型,有点类似二级市场的证券分析师对股票估值的做法,都是基于过往业绩,假设一定复合增长率下,测算未来12个月每股价值范围区间。数学建模去解释一些现象和预测未来,显著特点是非标准化:问题不标准,答案不唯一。


难道摩尔定律也是公式推导的嘛?所以,这个液冷测算的数学模型,计算超过2~3年以后的事情,对现实未必有多少指导意义,但最起码,模型预测结果给了很好的提示——除非使用高性能计算HPC使用高端CPU,否则大部分用户近2~3年都不会规模使用液冷服务器方案。也就是说,液冷服务器的大时代还需要几年的发育期,我们可以持续观望和。


对于最终用户而言,目前如何选型和使用CPU,TPU或GPU,以及未来应用对硬件资源需求,选择合适的参数,建立属于企业的模型测算,这才是重要思考方向。然后基于预测结果,企业预算是否与此匹配,业务性能需求与此匹配,最后是液冷服务器相应的制冷解决方案,以及IDC是否能够支持等系列问题。




END






我们吧
看清科技 解读价值


视频号





本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材