·人工智能4与13日 谷歌日前声称,公司在AI超级计算能力方面可以胜过英伟达。但业界认为,这一消息并不可能对英伟达这家市场领导者带来太大困扰。
谷歌近日发布一份研究报告称,采用其TPU驱动的AI超级计算机与运行Nvidia A100 GPU的同等机器比具有更好的性能和能效。
谷歌已将4000个第四代TPU串联在一起,构建了一台超级计算机,并称这台超级计算机的运行速度要比采用Nvidia A100 GPU的同等机器快1.7倍,效率高出1.9倍。
谷歌在俄克拉荷马州运行的TPU v4驱动的超级计算机
英伟达从生成式AI的繁荣发展中受益,用户对Nvidia A100 GPU的需求激增。A100主要用于训练大型语言AI模型,例如OpenAI的GPT-4。
业界认为,随着英伟达新的GPU H100即将上市,该公司不太可能对谷歌的这一成就感到担忧。
谷歌自从2020年以来一直在内部使用TPU v4,并于去年向其谷歌云平台的客户提供了这些芯片。该公司最大的大型语言模型 PaLM就是使用两台4000 TPU超级计算机进行训练的。
谷歌研究人员Norm Jouppi和杰出工程师David Patterson在发表的一篇关于该系统的博客文章中解释说:“采用光电路交换机可以很容易地绕过故障组件。这种灵活性甚至允许我们改变超级计算机互连的拓扑结构,以加速机器学习模型的性能。”
GlobalData负责半导体市场开发的Mike Orme表示,采用光电路交换机是谷歌提升超级计算机性能的关键。他解释说:“虽然每个TPU的处理速度都比不上最好的英伟达AI芯片,但谷歌用于连接芯片和在芯片之间传递数据的光电路交换技术弥补了性能差异。”
英伟达技术已经成为训练AI模型的黄金标准,一些大型科技公司购买了数千个Nvidia A100 GPU,试图在AI的技术竞争中超越对手。而OpenAI用于训练GPT-4的超级计算机配备了1万个英伟达GPU,每个零售价高达1万美元。
Nvidia A100 GPU
最新消息显示,A100即将被英伟达的最新型号H100所取代。在MLPerf (一个跟踪处理器性能的开放AI工程联盟)日前发布的推理基准测试报告中,H100在功率和效率方面位居行业榜首。
Nvidia H100 GPU
英伟达声称,H100 GPU的运行速度是谷歌拿来进行比较的A100 GPU的9倍。这种速度优势将消除谷歌光电路交换技术带来的优势。
谷歌90%的AI训练都使用TPU,但尽管其芯片功能强大,但Orme预计谷歌并不会将其推向第三方使用,因为谷歌并没有在AI芯片商用市场与英伟达芯片进行竞争的野心,其TPU专门用于谷歌数据中心或其AI超级计算机。”
为什么谷歌之外的用户很少会使用这项技术?Orme认为是因为谷歌云在公共云市场上的份额很小。根据Synergy Research Group发布的调查数据,谷歌云的市场份额为11%,落后于AWS和微软Azure的34%及21%。
同时,谷歌还与英伟达达成协议,将向谷歌云客户提供H100 GPU算力,这反映了英伟达在未来一段时间内仍将保持市场领导者地位,连谷歌也离不开。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )