新智元报道
编辑:定慧 桃子
【新智元导读】谷歌TPU也要上空了!「登月计划」Project Suncatcher推出,预计在2027年发射两颗原型卫星,用太阳能驱动AI。
继英伟达之后,谷歌也要把TPU送上太空了!
今天,谷歌官宣「Project Suncatcher」(捕日者计划),要在太空建设可扩展的AI计算系统。
它将利用几乎无限的太阳能量,相当于人类总发电量100万亿倍,为下一代机器学习注入动力。
谷歌CEO劈柴称之为,「全新的登月计划」。

预计2027年,谷歌与Planet将把两颗原型卫星送入轨道,一个全新里程碑即将实现。
不过,AI算力上空之前,还有许多亟待解决的工程难题。
好在,谷歌新一代Trillium架构TPU,在模拟近地轨辐射水平的粒子加速器测试中,「扛住了」太空辐射。
除此之外,热管理、在轨系统可靠性等,仍是需要攻克的工程挑战。
太阳直接给AI充能
谷歌最新的论文叫做《迈向未来基于太空的、高度可扩展的人工智能基础设施系统设计》。
看名字似乎有些长,但是这篇论文,还有一个简单的文件名,Suncatcher,太阳捕捉者、捕日计划。

AI对算力的需求正在催生一个难以想象的需求,一个地球目前也无法满足的需求:电量不够了。
于是,这些AI巨头开始把目光投向天空,投向太阳。
在太阳系中,太阳的能量输出为3.86 × 10^26瓦,发出的能量超过人类总电力产量的100万亿倍以上。
处于合适轨道时,太阳能板的产能可比地球上高出多达8倍,并且几乎可以持续发电,从而减少对电池的依赖。
在未来的某个时候,为AI供能的最佳方式很可能就是直接利用太阳能!
谷歌提出一种替代方案:不是从太空向地球传输电力,再供给AI数据中心。
而是直接建立基于太空的机器学习「数据中心」,由许多太阳能供电的卫星通过自由空间光学星间链路联网构成。

一个自由下落(无推力)星座在地球引力作用下的演化过程,其建模细节足以推算出太阳同步轨道。该模型位于一个非旋转坐标系中,并以中心参考卫星S0为参照。箭头指向地心。品红色:卫星S0的最近邻卫星。橙色:示例「外围」卫星S1。橙色虚线:S1 相对于集群中心的位置(在非旋转坐标系中)。
系统设计与关键挑战
谷歌提出的系统由一个「网络化的卫星星座」构成,可能会运行在晨昏太阳同步低地球轨道上。
在该轨道上,卫星能够近乎持续地接收到阳光照射。
这种轨道选择最大化了太阳能的收集,并减少了对重型星载电池的需求。为使该系统成为可能,必须克服以下几项技术挑战:
1. 打造数据中心级别的星间链路
大规模机器学习工作负载要求将任务分布在众多加速器上,并通过高带宽、低延迟的连接进行通信。
为了提供堪比地面数据中心的性能,卫星之间的链路需要支持每秒数十太比特(Tbps)的传输速率。
谷歌分析表明,采用「多通道密集波分复用」(DWDM)收发器和空间复用技术,这一目标有望实现。

然而,要达到如此高的带宽,所需的接收功率水平要比传统远程部署高出数千倍。
由于接收功率与距离的平方成反比,可以让卫星以非常紧密的编队(间距在公里级或更小)飞行来应对这一挑战,从而满足链路预算的要求,即通信系统中端到端信号功率损耗的核算。
谷歌团队已通过一个实验平台验证系统着手验证此方法,该系统使用一对收发器成功实现了单向800Gbps(总计1.6Tbps)的传输速率。
2. 控制大型、紧密集群的卫星编队
高带宽星间链路要求卫星以远比现有任何系统都更紧凑的编队飞行。
为此,谷歌团队开发了数值和解析物理模型,来分析此类星座的轨道动力学。
他们从希尔-克洛赫西-威尔特方程(Hill-Clohessy-Wiltshire equations)出发,采用一种近似方法,并利用一个基于JAX的可微分模型进行数值优化,以计入更多的摄动因素。

希尔-克洛赫西-威尔特方程组在开普勒近似下,描述了卫星相对于圆形参考轨道的运动
在谷歌规划的星座高度上,地球引力场的非球形特性以及潜在的大气阻力,是影响卫星轨道动力学最主要的非开普勒效应。
下图标示了一个包含81颗卫星的示例星座在一个完整轨道周期内的轨迹,该星座位于轨道平面内,平均集群高度为650公里。
集群半径R=1公里,在地球引力影响下,次近邻卫星间的距离在约100-200米的范围内振荡。
模型表明,在卫星间距仅数百米的情况下,或许只需进行适度的轨道保持机动,即可在预期的太阳同步轨道上维持星座的稳定。
3. TPU 的抗辐射能力
为了让机器学习加速器在太空中有效运行,它们必须能够承受低地球轨道的严苛环境。
谷歌在67MeV的质子束中对谷歌的v6e云TPU——Trillium进行了测试,以评估总电离剂量(TID)和单粒子效应(SEE)对其造成的影响。
测试结果十分喜人。

尽管高带宽内存(HBM)子系统是最敏感的组件,但它们直到累积辐射剂量达到2 krad(Si) 时才开始出现异常——这几乎是预期的(有屏蔽防护下)五年任务总剂量750 rad(Si)的三倍。
在对单个芯片高达15 krad(Si)的极限剂量测试中,没有出现任何可归因于总电离剂量的硬故障。
这表明,Trillium TPU 对于太空应用而言,表现出惊人的抗辐射能力。
4. 经济可行性与发射成本
历史上,高昂的发射成本一直是部署大规模天基系统的主要障碍。
然而,谷歌对历史及预测的发射价格数据分析表明,只要(成本)学习率能持续下去,到2030年代中期,发射价格有望降至每公斤200美元以下。
在这一价格水平上,以「每千瓦/年」为单位计算,一个天基数据中心的发射和运营成本,或将与公开报道的同等规模地面数据中心的能源成本大致相当。
解读谷歌星间链路
大规模地面机器学习(ML)集群的网络需求远远超出现有卫星间链路(ISL)技术的能力。
例如,谷歌的TPU超级计算机采用两层网络架构。高速数据中心网络一种定制的低延迟光学芯片间互连(ICI)每芯片吞吐量达数百吉比特每秒。
相比之下,商业可用的光学ISL提供的速率仅在1–100Gbps范围内。

图中X轴(距离,单位:km):表示光学星间链路(OISL)中数据传输的距离,范围从不到1公里到超过10,000公里。Y轴(带宽,单位:Gbps):表示不同光学系统在对应距离下所能实现的带宽。
可以看到,距离和带宽之间呈现出典型的反比关系,即随着距离增加,带宽会下降,这在光通信中是常见的现象,因为光信号在传播过程中会衰减。
像8×8空间复用这种系统,适用于非常短的通信距离,能够提供较高的带宽;而像Starlink和24路DWDM这种系统则适用于较长距离的通信,能够在更远的距离上传输大量数据。
谷歌提出的星间通信方案主要是:
-
飞行卫星群处于近距离编队(距离在「数百米至几公里」量级)以大幅降低链路路径损耗,从而获得高接收功率。
-
利用自由空间光通信结合多通道密集波分复用(DWDM)技术(类似或采用于地面数据中心的商用DWDM收发器)来实现每链路10 Tbps级别的带宽目标。
-
在距离极短的时候,还考虑「空间复用」多个光束共传以进一步提升容量。
飞行卫星群处于近距离编队(距离在「数百米至几公里」量级)以大幅降低链路路径损耗,从而获得高接收功率。
利用自由空间光通信结合多通道密集波分复用(DWDM)技术(类似或采用于地面数据中心的商用DWDM收发器)来实现每链路10 Tbps级别的带宽目标。
在距离极短的时候,还考虑「空间复用」多个光束共传以进一步提升容量。
参考资料:
https://research.google/blog/exploring-a-space-based-scalable-ai-infrastructure-system-design/

