第422章 天权6號功耗曲线优化攻关 重回1990:我的科技强国路
天权6號功耗曲线优化攻关启动会定在早上八点,但张京京七点不到就已经坐在中央研究院四號会议室的角落里,面前摊著三份厚度不一的仿真报告。她的多时钟域方案在rtl冻结前通过了全部时序收敛签核,影子寄存器组异步交换路径在最差工艺角下的延迟压缩到了0.08纳秒,比设计预期还优了0.02纳秒。但功耗闭环验证中暴露的第三个泄漏源——异构互联总线瞬时电流尖峰被仿真平滑——並没有隨著rtl冻结而自动消失。它只是被小芯ai预调度模型暂时压住了,压住不等於根治。
赵静推门进来时手里端著一杯没加糖的黑咖啡,眼下的青灰色比天权6號样片评审时又深了一层。她昨晚跑完了预调度模型在追光四期极限温度数据上的第一轮迁移校准,结果不太好看。
“125度环境温度下,天权4號的总线电流尖峰波形和105度下的波形在峰值区域有非线性的偏移。”赵静把笔记本电脑接上会议室的投屏,调出两组波形的对比图。蓝色曲线是105度下的总线电流波形,红色曲线是125度下的波形,两条曲线在低负载区几乎重合,但在负载从空载跳变到满载的那一瞬间,红色曲线的峰值比蓝色曲线高出了整整12%。“预调度模型的训练数据全部来自天权4號在105度以下的量產测试数据,模型在125度下的预测准確率从91.5%掉到了83.7%。”
张京京盯著那两条曲线之间拉开的喇叭口,心里默默折算了一组数字。预调度模型的削峰逻辑是在总线事务发起前3.2纳秒预测电流尖峰概率,预测值超过閾值就插入一个等待周期。如果预测准確率在125度下掉到83.7%,意味著每六次高峰值预测中就有一次漏报。漏报一次,瞬时电流尖峰就会从削峰后的43瓦跳回未削峰前的58瓦——那1.3瓦的差额是依靠先进封装散热方案覆盖的,但58瓦的尖峰已经远超封装热阻的承受上限。
章宸在八点整准时推门进来,身后跟著林薇和梁志远。梁志远手里拿著一个金属材质的存储硬碟,里面装著追光四期首批国產化试產晶圆的全部工艺数据,以及一套刚从天权4號量產批次中抽取的极限温度测试记录。这套记录是张京京在样片评审时要求的“补课”內容——天权4號原本的规格上限是105度,但为了给天权6號预调度模型提供125度下的真实总线电流数据,追光四期测试团队在过去一周里对二十颗天权4號晶片做了从负40度到125度的全温度梯度扫描。
“二十颗晶片的实测数据全部在这里。”梁志远把硬碟接上会议室的终端,屏幕上跳出一张三维散点图。x轴是温度,从负40度到125度;y轴是负载档位,从空载到满载八个档;z轴是总线电流峰值。散点图的顏色从低温区的深蓝渐变到高温区的深红,在125度满载那个角上,散点密集地聚成一个偏离整体趋势的小簇。“这个簇就是非线性区。105度以下,电流峰值和温度的关係基本是线性的,预调度模型用线性外推就能大致覆盖。但从115度往上,峰值和温度的关係开始出现明显的非线性偏离。到了125度,偏差量已经大到不能忽略。”
林薇从梁志远手里接过雷射笔,在散点图的非线性区画了一个圈。“这不是天权4號的个例,也不是羲和架构的特有问题。根本原因在电晶体的閾值电压温度係数上——温度每升高十度,閾值电压下降大约二十毫伏,高温下电晶体更容易导通,关断时的漏电流呈指数级上升。我们在功耗仿真时用的是代工厂標准工艺设计套件里的温度係数模型,那个模型的適用范围標註到了125度,但实际精度在115度以上就已经开始发散。”
“仿真方法论的问题。”张京京说。这句话她在天权6號热功耗攻坚时就说过一次,当时是针对林薇揭示的“用平均功耗代替峰值功耗”的缺陷。现在同样的问题出现在了温度维度上——仿真模型把温度对功耗的影响简化成了一个线性係数,但实际的物理过程在极端温度下是高度非线性的。
赵静把预调度模型的架构图投到屏幕上,开始拆解问题的技术根因。小芯ai预调度模型的本质是一个轻量级神经网络,输入是总线事务队列的长度、类型、发起频率和当前温度四个特徵,输出是一个二分类预测——接下来3.2纳秒內是否会出现超过閾值的电流尖峰。模型在天权4號105度以下的数据上训练后,预测准確率达到94%,迁移到天权6號仿真环境后准確率降到91.5%。现在加上125度下的实测数据,准確率进一步降到83.7%。
“下降的原因分两层。”赵静用雷射笔点著模型的特徵重要性排序图,“第一层是温度特徵在高温区的非线性变化,模型在训练时没有见过这种分布,所以预测失准。第二层更麻烦——总线电流尖峰的物理机制在高温下发生了变化。105度以下,尖峰的主要来源是总线事务並发导致的瞬时开关电流叠加。但125度下,电晶体关断漏电本身就成了一个不可忽略的电流分量,这个分量和开关电流叠加之后,峰值超出了模型的预测范围。”
“所以预调度模型需要的不是修修补补的参数校准,而是一次重新训练。”章宸把问题概括成一句话,然后看向赵静。
“是重新训练,但不只是重新训练。”赵静翻到下一页,“重新训练需要125度下的全工况总线电流数据,天权4號的二十颗晶片提供了初步数据,但样本量远远不够。预调度模型需要在至少五百颗晶片、覆盖全部工艺角的125度实测数据上重新训练,才能把准確率拉回到90%以上。五百颗晶片的极限温度测试,按追光四期目前的测试產能,至少需要六周。”
“六周太长了。”林薇摇头。天权6號的流片倒计时已经进入第八个月,物理设计正在紧锣密鼓地推进,样片回片前的全部软体开发工作——包括预调度模型的最终版本——必须在流片后四个月內完成。六周的测试等待加上四周的模型训练和验证,留给其他环节的时间会被压缩到危险的程度。
梁志远在终端上调出追光四期测试车间的排期表。测试车间的极限温度测试设备一共有四台,当前排期已经排到了三周以后,其中两台在跑天权4號量產批次的例行老化测试,一台在跑印巴装配厂新產线的首批晶片验证,剩下一台在跑合城二期设备调试中提到的天权5车规版的实车路测晶片筛选。“如果要把五百颗天权4號晶片的极限温度测试压缩到三周內完成,需要至少三台设备並行,每台跑一百七十颗。但我们现在只能腾出一台。”
“从合城二期的设备调试预算里租一套外部的极限温度测试设备。”苏黛的声音从会议室门口传来。她本来不参加技术攻关会,但梁志远在会前把测试资源瓶颈的消息发给了她,她直接带著预算方案来了。“我查过,合城本地有一家第三方检测实验室,有两台同型號的极限温度测试设备,按天租用。租三周的费用大概在一百二十万左右,可以从產业链弹性预算的测试验证专项里列支。”
陈醒在整个討论过程中一直坐在会议桌靠窗的位置,面前摊著天权6號功耗闭环验证的原始报告和张京京標註的三个泄漏源的功耗分解数据。他在苏黛提出租赁方案后抬起头,没有直接批预算,而是问了一个让所有人都停下討论的问题。
“预调度模型重新训练需要六周,我们想办法压缩到三周。但如果实体清单在这三周內落地,代工通道被切断,天权6號的流片窗口还能不能保得住?”
会议室里安静了大约五秒。林薇放下雷射笔,把天权6號的代工方案在脑子里快速过了一遍。天权6號的目標工艺节点在国內代工厂目前公开的量產能力范围之外,流片依赖境外代工资源。实体清单一旦落地,代工通道可能在两周內被切断。如果代工在预调度模型重新训练完成之前就被切断,那预调度模型训得再好也没有用武之地。
“所以测试时间压缩不能只靠租设备。”林薇走到白板前,拿起记號笔开始画一个並行推进的时间轴。“第一条线,天权4號极限温度测试,三周內完成五百颗晶片的数据採集。第二条线,赵静团队在数据採集的同时用前一百颗的数据先做一轮预训练,不等全部五百颗。第三条线——也是最关键的一条——张京京从电路设计层面,在rtl冻结的约束下,找出一条不依赖预调度模型的功耗压制路径。”
本章未完,点击下一页继续阅读。(1 / 2)