“kL-Vu的加法器,在常温下延迟是18纳秒,85度时增加到了23纳秒,标。乘法器的延迟从32纳秒增加到了41纳秒,也标了。这说明高温下芯片的载流子迁移率下降,门延迟增大。散热设计要重新评估,不然夏天机房空调一停,机器就趴窝。”
吕辰的眉头皱了一下,没说话。
宇文坤德继续说:“而且高温测试只跑了一块运算板。我们还没有把所有类型的运算板、通信板、诊断板都加进去,更没有做多板卡协同的复杂工况测试。多块板卡同时工作的时候,机柜内部的温度会更高,散热问题会更严重。”
会议室里安静了几秒。
过了好一会儿,吕辰问:“进度为什么这么慢?”
“问题需要闭环,不是记下来就行。远端压降、串扰、地址线不等长,这些问题,不是记在本子上等下一版改就行了。我们要验证最小系统能不能跑通、能不能稳定,就必须先解决这些问题。怎么解决?手工飞线,物理修改板卡。电源线画细了,飞一根粗线并上去;信号线间距太小,把其中一根切断,飞一根线绕远路;地址线长度不匹配,飞一根线绕一下。”
他把那块运算板又拿起来,指着上面的飞线。
“每飞一根线,就要重新跑一遍测试。飞线焊好了,上电,看波形,波形不对,改位置,再焊,再看。一块板卡改三四轮是常事。仅这一块运算板,我们就飞了十几根线,跑了两轮常温、一轮高温,花了将近一个星期。”
他放下板卡,声音里带着一丝疲惫。
“而且运算板更复杂。kL-Vu向量运算芯片,功耗大、时序严、散热要求高。仅这一块板卡的通电、加载微程序、跑基本运算,就花了三天。不是板卡有问题,是测试本身就很耗时。加载一次微程序要几分钟,跑一组运算要几十分钟,跑完还要分析数据、看波形、找问题。”
他顿了顿,又补了一句:“温度循环也很耗时间。高温85度老化测试,通常需要连续运行48到72小时才能暴露问题。两周时间,最多做三轮。我们这轮高温测试跑了48小时,现了问题,现在要解决,解决完了还要再跑一轮验证。”
万人敌接过了话头,语气里带着无奈。
“宇文工说的没错。我那边元器件检验,27oo多种规格,每种抽检2o%,光测电阻电容就测了将近一个月。不是我们慢,是活就是这么多。而且,有些问题是测着测着才暴露出来的。比如电解电容那批次,前1oo只测的时候数据还行,后1oo只越测越差。这种批次波动,不是抽检能完全覆盖的,得靠批量全检。”
吴国华也开口了。
“机柜制造那边倒是没卡住,但板卡上架之后,问题也不少。背板上的总线连接器,插拔几次之后,接触电阻会变大。我们测了几块背板,插拔一百次之后,有些信号线的接触电阻从几个毫欧增加到了几十毫欧。虽然还在指标内,但趋势不好。丁师傅那边在改连接器的镀层材料和弹簧结构,下一批会好一些。”
郑长枫点头附和:“芯片封装也有类似的问题。有些批次的芯片,引脚镀层厚度不均匀,焊接的时候容易虚焊。封装车间那边在调整电镀工艺参数,我们这边也在加强入检,把焊接试验的抽检比例从5%提高到了1o%。”
吕辰听着,手里的笔在本子上沙沙地记。
问题都不大,但零零碎碎,哪一块板卡、哪一颗元件、哪一处工艺都可能出问题。
每个问题单独拿出来都不致命,但堆在一起,进度就被拖慢了。
他把本子合上:“飞线是临时方案,不是长久之计。定型之前,所有有问题的板卡都要重新画板,重新加工,重新测试。不能用飞线的板卡上机柜,那是给自己埋雷。”
他看着宇文坤德。
“宇文工,你列一份清单。哪些板卡有问题,什么问题,怎么改,改完重新测试的周期多长。下周之前,这份清单要交到我这里。”
宇文坤德点了点头,在笔记本上记了一笔。
吕辰又看着吴国华和万人敌、郑长枫。
“你们三位,配合宇文工。板卡要改版,你们要提供支持。芯片有什么问题,郑老师负责跟进改版。元器件有什么问题,万工负责找替代或改设计。机柜和结构件有什么问题,吴国华负责协调丁师傅改。”
他顿了顿,声音提高了一些。
“启动小机柜预集成,不要等所有板卡都改完再上机柜。把已经验证通过的几块板卡,电源、时钟、背板、Io、存储、运算,装进一个机柜里,做小范围集成测试。”
万人敌点点头:“我也是这样想的,板卡在机柜里和在工作台上不一样。机柜里有振动、有电磁干扰、有相邻板卡的热量影响。这些问题,工作台上跑不出来。早一点上机柜,早一点现,早一点解决。”
吴国华点头:“计算机所那边,机柜已经装了十台,我可以先带人把电源、时钟、背板这三块装进去,跑一遍基本功能。验收通过了,再加Io和存储。”
宇文坤德补充了一句:“运算板的散热问题,在小机柜里也能暴露得更充分,上小机柜预集成,有助于秦无功他们确定散热方案。”
吕辰想了想:“宇文工,你把高温测试的数据整理出来,我送到秦无功手里,看是加强风冷还是加水冷,昆仑1的运算机柜有21台,每台都有kL-Vu芯片,散热问题不解决,夏天机房空调一停,机器就趴窝。”