数学模型分析和预测:液冷服务器何时会成为主流?

发布于 2022-06-01 12:39

一直以来，数据中心制冷技术话题一直保持较高热度。炙手可热的话题背后，一方面，是从基础设施维度，制冷系统对数据中心PUE权重最大；另一方面，是半导体芯片晶体管密度越来越高，在各种算力应用场景下（例如，大数据分析，人工智能，高性能运算HPC……），服务器和机架功率密度在一直攀升。

对于服务器功耗和机架的功率密度，业界一直有讨论，但是众说纷纭，专家各执一词，大概有以下几个主要话题：

使用风冷服务器解决方案，IDC设计需要支持多高的机架功率密度？
服务器性能也在提高，但是一个系列芯片有那么多款，有高性能版，有低功耗节能版，也有主流版本，公司的业务不一样，选择哪款芯片对服务器的功耗差异不同。那什么时候的服务器要用液冷，什么时候的服务器要用风冷呢？
服务器芯片工艺也在提高，算力性能/Watt提高的同时，会不会随着工艺（10nm/7nm/5nm/4nm....）成熟以及新架构(如ARM等)，导致单颗芯片功耗不太上涨，反而会下降呢？
除了芯片配置，服务器也有多种类型，例如1U，2U，4U，还有半U模块式，刀片服务器（市场占比低）等，那么如何选取服务器类型，也影响制冷方式？
除了CPU有多种选择，近几年因为计算场景细分，还出现TPU，GPU（例如英伟达的AI芯片）运算，服务器设计变成一个更加复杂的系统架构工程，芯片如何选型，组合和应用，如何影响服务器的散热方式变革？

在进入本文的核心话题之前，笔者想做一些简单的科普。

芯片为什么需要散热？

芯片就是半导体，相信读者都明白。而半导体就是常温下（下面会解释温度对半导体的性能变化）导电性能介于导体与绝缘体之间的材料。首先，导体就一定有电阻，除非是超导现象，所以半导体通过电流后，基于初中物理的电阻发热 I^2*R, 半导体芯片就会产生热量。

半导体要流过电流，因为里面集成很多晶体管，而晶体管作为一种可变电流开关，能够基于输入电压控制输出电流，同时晶体管相当于电子开关，快速开和关的特性来实现0和1。有早年DIY电脑经验的人，应该还记得BIOS里面调整CPU的电压，实现超频，当然CPU功耗也会上升。实际上，CPU功耗也和电压，频率相关。

大家能理解芯片会发热的原因后，需要进一步了解的是，耗散功率与晶体管的最高允许结温和集电极最大电流有密切关系。芯片在使用时，实际功耗不能超过额定值，否则会引起晶体管的结温上升导致芯片烧毁。在每年的PC玩家超频大赛里面，选手使用液氮，冲击PC mark和3D mark的高分，使用的方式，无非CPU增加工作电压，提升频率，要使用液氮解决随之而来的热量问题。所以，从过往的故事里面，我们可以知道，CPU功耗（热量）和CPU频率以及工作电压是正相关，而CPU工作频率又和电压是正相关。

图1 - 超频大赛选手使用液氮

芯片的散热物理原理

在芯片散热，顾名思义就是把芯片发热部分的晶体管（面积）产生的热量散出去。下图是一个CPU芯片，如果采用空气散热方式的结构组成图

图2 - 芯片结构和内部集成的散热片

可以看出，CPU产生的热量，会传递到散热片，要维持CPU工作温度，则需要使用散热介质，把这部分热量迅速带走。由于散热片的面积是一定的，于是乎，对于不同热量的大小（CPU不同系列，不同功耗情况）选择不同的散热方式和解决方案。以台式机的CPU为例，游戏发烧友会喜欢高端芯片，就要更夸张的散热器，而笔记本电脑，平板电脑，则不需要这么“夸张”的散热方式。下图是根据CPU热量情况，不同风冷散热器的选择，包括：

被动式散热翅片；
散热翅片 + 一个风扇；
多个散热翅片 + 多个风扇；

图3 - 多种桌面PC的CPU散热器方式

前面介绍了一些科普知识，下面会重点谈一下笔者做整个数学建模的思想架构，选择评估参数背后的数学逻辑，当然还有基于这个数学模型分析出的结果。

数学模型——预测液冷服务器何时会成为IDC主流

芯片发热是否有公式？

有，公式是

P = C * V^2 * f

其中

C是电容量；
V是工作电压；
f是工作频率；

数学建模应该用哪种方法和合理性？

虽然可以使用上面的物理公式，但从产业链专家里面，获取对应高质量的数据非常难，而且对于三元多次方程来判断未来CPU功耗，会带来很多建模难度。例如就电容率而言，工艺提升，实际上会在一个同样大小的晶圆上集成更多的晶体管，最后芯片的性能上升不少，但单颗芯片却未必降低，参看图4

图4 - CPU和GPU在不同工艺上集成的晶体管数量趋势

与此同时，从历年CPU和GPU发布的热功耗设计值（简称TDP, Thermal Design Power），是会不断攀升，如图5所示。

图5 - CPU和GPU的TDP趋势（来源：Alibaba OCP公开演讲）

所以笔者在数学建模过程中，并没有参照芯片发热的公式套用参数，而是利用TDP值和时间的变化关系，作为整体评估，因为这个参数更少，更容易评估。

观察到这个曲线，还会发现有几个突出的问题，例如，有那么多款CPU，如何选取CPU对结果有很大变化；服务器那么多种配置，怎样知道什么CPU选型，整体设计配置的情况下，才使用液冷呢？有CPU和GPU，不同厂商也不同，如何评估？

为了构建更加完整的数学模型，为此，笔者会额外引入另外两个参数，顶配CPU的TDP和主流CPU的TDP的转化率%，以及CPU使用液冷的门槛值(Watt)。那么实际情况下，如何合理选择这两个参数呢？笔者认为，应该根据用户自身主流选型情况，选择这两个参数。这意味着，假设数学模型逻辑没问题，提高精确性，就要选择某个客户自身的应用参数作为模型输入。

例如，转化率%的选择上，最新intel的CPU是Sapphire，顶配CPU是350W，而用户选择的CPU是250W，那么转换率为70%。对于液冷的门槛值，由于服务器使用1U，2U，4U，多路CPU等配置的问题，物理空间散热设计对结果影响较大，门槛值有所不同，但应该遵循一些已有厂商的散热设计作为门槛值参考。例如Intel发布的服务器设计里面，最顶配的2U服务器，使用8个最高端CPU是350W，仍然能使用风冷散热，而当CPU达到400W时候，就要使用液冷解决方案，可参与以下链接：

Up to 350W processor TDP for high performance workloads in a 2U air cooled chassis, up to 400W processor TDP with liquid-cooled versions —— Intel的服务器设计和CPU散热方案选择
https://www.intel.cn/content/www/cn/zh/products/docs/servers/server-boards/server-board-s9200wk-brief.html

于是乎，可以选择350W作为2U服务器的液冷方案门槛值。

那么，最后一个问题，有CPU和GPU的不同厂商，选择哪些数据作为参考呢？这里面，对于数学建模来说，为了得到是一个有普遍意义的结果，那么应该是概率大（使用量大，市场份额大）的数据。这意味着，如果对于CPU来说，使用Intel/英特尔公司的数据，而GPU则使用Nvidia/英伟达公司。

最后，把顶配的TDP数据，转换率%，液冷门槛值，年份，可以组成整个数学模型结构。整体数学模型的计算方式参考图6

图6 - 数学模型架构

对TDP值，笔者采用是计算复合增长率CAGR%，当然也可以采用其他数学公式模拟曲线手段，例如指数函数等。经过笔者计算，使用(1+CAGR%)^N方式，和Exp指数幂方式，其变量方差R^2差异非常少，所以笔者引用CAGR%这个计算值，在数学模型上更加简单。同时，对于不同参数设置，可以在模型里面做出几种预测场景，包括乐观预测，基础预测和悲观预测。

接下来，只需要根据intel CPU家族，顶配版本TDP参数，对应时间轴，在Excel上建立相关数据，根据相关函数方式，就能预测2022年后时间轴对应的TDP值。而一旦转换成主流CPU的TDP值满足液冷门槛值，则意味着在该年的CPU，需要使用液冷方式，这就是整个数学模型的测算逻辑。笔者在此展示部分结果。

图7 - TDP功耗值预测

可以看出，在选择(门槛值=350W)，以及(TDP转换率70%)的情况下，要迈入规模化液冷服务器，需要到2026年。

调整参数变化，评估预测范围

有读者会认为，这种计算方式，是不是会忽略太多变化情况，例如，会不会实际上CAGR值不是9%，未来工艺实际上会变成10%，甚至更多？另外，会不会未来业务需要使用更多AI运算（Intel未来誓言努力提升CPU对AI运算性能），那么TDP转换率不是70%，而是用更高且性能更好的版本？抑或未来风冷服务器可以做成4U版本，液冷门槛值达到400W而不是350W呢？

当然，这些都是有可能性的，因此笔者在模型里面，在建模时候，对参数的可选择性，输出结果做了一些敏感性分析，如下图8

图8 - 液冷服务器应用年份敏感性分析

从敏感性分析可以看出，如果转换率只有50~60%，液冷应用年份会变得更长，到2030年。而相对激进的80%转换率和CAGR=11%，可以在2024年就进入液冷。

所以回到前面提到的，模型的参数很关键，要根据具体某个用户实际情况来选取，这样有更多普遍性意义。就笔者调研的大部分互联网公司主流机型情况而言，很多公司选取的TDP转换率大概60%，在CAGR = 9~11%的范围内，液冷服务器迈入规模应用，测算结果是2026~2027年。

结语

回过头来看，这个数学模型预测的结果，对于液冷服务器规模应用的年代，2026年又好，抑或2027年都好，甚至2031年，这些测算年份离2022年初超过3年了，确定性有多高都有很大波动率。

大家需要理解的是，这类模型，有点类似二级市场的证券分析师对股票估值的做法，都是基于过往业绩，假设一定复合增长率下，测算未来12个月每股价值范围区间。数学建模去解释一些现象和预测未来，显著特点是非标准化：问题不标准，答案不唯一。

难道摩尔定律也是公式推导的嘛？所以，这个液冷测算的数学模型，计算超过2~3年以后的事情，对现实未必有多少指导意义，但最起码，模型预测结果给了很好的提示——除非使用高性能计算HPC使用高端CPU，否则大部分用户近2~3年都不会规模使用液冷服务器方案。也就是说，液冷服务器的大时代还需要几年的发育期，我们可以持续观望和。

对于最终用户而言，目前如何选型和使用CPU，TPU或GPU，以及未来应用对硬件资源需求，选择合适的参数，建立属于企业的模型测算，这才是重要思考方向。然后基于预测结果，企业预算是否与此匹配，业务性能需求与此匹配，最后是液冷服务器相应的制冷解决方案，以及IDC是否能够支持等系列问题。

END

我们吧

看清科技解读价值