发布日期:2025-06-27 05:08 点击次数:150
当你每次向ChatGPT提问,数秒内得到答案的背后,其实是AI服务器的高速运算,而一台售价高达300万美元的机柜,通常配置多台AI服务器,拆解其主要零部件,包含GPU、CPU、HBM内存、主板、电源、散热、机箱,尽管目前AI服务器仅占整体服务器出货比重不到10%,但2026年有望达到15%,而台湾生产全球90%的AI服务器,扮演关键零部件的重要角色。
AI服务器是什么?AI服务器是指专为处理AI工作负载需求而打造的服务器,诸如计算机视觉、聊天机器人与生成式AI,并为处理复杂AI训练及推论,进而设计的先进运算系统,为处理大量数据,搭载高性能专用硬件,执行复杂的AI运算。
AI服务器与通用服务器差异?通用服务器:主要用于数据存放与处理,搭载中央处理器(CPU)、内存(RAM)和硬盘(HDD或SSD)。
AI服务器:主要进行复杂与高速的运算,进一步搭载图形处理器(GPU)、张量处理器(TPU),或是特殊应用芯片(ASIC)与现场可程序化逻辑门数组芯片(FPGA),并采用高带宽内存(HBM)和NVMe技术存储系统。
从成本来看,通用服务器依规格不同,价格从数万元至数十万元不等,以x86架构的服务器来说,成本约为1万美元,而根据Raymond James证券估计,NVIDIA H100单颗成本约3,320美元,代表一台搭载8颗NVIDIA H100的AI服务器,成本约为26,560美元。
GPU是AI服务器的核心,而NVIDIA是全球最大的GPU制造商之一,并拥有专为AI设计的软硬件与生态系一条龙策略,相较于一般的GPU,NVIDIA的数据中心GPU完全针对AI性能做优化应用。
NVIDIA几乎每两年推出新一代架构,依次为Fermi、Kepler、Maxwell、Pascal、Volta、Ampere、Hopper、Blackwell,因此最新的Blackwell系列被称为“第八代架构”,不断突破AI训练性能,抢先支持最新AI技术。
NVIDIA Blackwell系列芯片NVIDIA第八代Blackwell系列芯片,包括专为高性能计算(HPC)与AI推论设计的B100,以及在B100的基础上进行升级,提供更高的运算性能与能效的B200,还有基于B102芯片,采用单一单芯片设计,适用于中国市场的B200A。
高端的是将两颗B200 GPU与一颗Grace CPU结合的GB200,以及在机架规模设计中连接36个GB200超级芯片,包含72颗Blackwell GPU和36颗Grace CPU,适用于大型AI训练与推论工作负载的GB200 NVL72机架级系统。
拆解AI服务器供应链以NVIDIA GB200 NVL72机架级系统来说,售价300万美元,重达1-2吨的机柜,拆解其主要零部件,包含GPU、CPU、HBM内存、主板、电源、散热、机箱,代工大厂主要在台湾、越南等地生产L6主板,出口至墨西哥组装L10,再将服务器整机出货至美国。
NVIDIA GB200 NVL72价格如此高昂,主要是因为超级芯片GB200售价介于6万至7万美元,而整个机架级系统就需要连接36个,占整体价格达80%左右,供应链涵盖台积电、日月光、金像电、台光电、欣兴、嘉泽、台达电、双鸿、奇𬭎、鸿海、广达、纬颖等厂商。
针对GB200机架服务器,法人表示,广达与鸿海为前两大供应商,市场占有率各超过35%,再来是纬颖,根据CoWoS-L扩产计划,2024年仅有极少量的GB200交货,但从今年第一季开始增加至每月数百台机架,接着将逐季增长,直到每家厂商出货量达到数千台,代表真正进入量产阶段。
在Instagram查看这则贴文TechNews科技新报(@technewsinside)分享的贴文
AI服务器L1至L12是什么?所谓的AI服务器L1至L12指的是制程阶段,代工厂为了分工协作,所开发的商业模式与交付方式,其中L6、L10、L11、L12是台湾服务器代工厂最常切入的制程阶段,通常技术层次较高,代表竞争力越强,可进攻云计算客户的整套解决方案,例如鸿海、广达、纬颖等。
从代工厂来看,英业达在L6集成主板阶段的市场占有率达六成,为全球主要的AI服务器主板供应商之一,而广达在L6阶段的市场占有率达两成,并积极扩展L10、L11及L12阶段,至于鸿海则在L10至L12阶段提供一站式解决方案,包含组装服务器到整机交付的完整制程。
以GB300机柜来看,相较GB200的零部件,采用台积电4NP制程,计算性能比B200系列提升50%采用台积电4NP制程,计算性能比B200系列提升50%,12-Hi HBM3E内存堆栈提供288GB内存容量与8TB/s带宽,支持更大批量与更长串行处理。
高效网络800G ConnectX-8 NIC提供双倍横向扩展带宽,配备48个PCIe信道,优化大型集群性能,TDP达1.4kW,较B200增加200W,要求更先进散热解决方案,全面采用液冷散热系统,应对高密度算力需求,集成备援电力模块(BBU)与可能的超级电容技术,确保电源稳定性。
AI供应链现况GB200先前一直受到供应瓶颈,包括Cable Cartridge良率不足、组装厂中后段生产的学习曲线过慢、水冷良率持续修正等,导致原先预计正式量产的进程从3月大幅递延,但在英伟达新测试软件正式转交给组装厂后,鸿海、广达等组装厂的GB200组装及测试速度大幅度提升。
法人预估,GB200的4月总出货量约为800-900柜,预计5月达到2,800-3,000柜,上半年有望出货量达到7,000柜,其中GB200的代工厂主要由鸿海为主,广达为辅,GB300则会以广达为主,组装厂预计将会在6月完成设计图,并开始测试GB300,若一切顺利将在11-12月小量出货。
数据中心电力基础设施往高压直流迈进,第三代半导体与液冷散热将成主流,由于系统效率等问题达到物理极限,英伟达直接将13.8kV交流电网电力,转换为800V高压直流(HVDC),以支持2027年起的Vera Rubin与Rubin Ultra全新平台所激活的1兆瓦(MW)以上电力。
借此满足不断增长的AI服务器机架需求,而随着AI算力不断扩张,当功率增加至200kW以上时,旧架构因功率密度、铜材需求和使用固态变压器(SST)和工业级整流器,消除多个交流/直流和直流/直流转换步骤,预计将带起GaN与SiC功率组件需求。
新一波崛起力量“ASIC”ASIC的全名是“Application Specific Integrated Circuit”,意指为特定应用设计的芯片,这与通用型CPU(中央处理器)或MCU(微处理器)不同,ASIC专注于单一特定应用,主要是针对特定任务专门定制的芯片,提供更量身打造的云计算服务,通常具有比GPU更高的性能与更低的功耗。
随着AI计算需求增加,功耗问题持续加剧,CSP(云计算服务供应商)正面临高成本与高功耗的运营挑战,因此ASIC已成为重要的解决方案,意味着亚马逊(Amazon)和Google可以减少对NVIDIA GPU的依赖,并借由设计自有ASIC来提升其数据中心的计算效率。
(首图来源:科技新报)