多元场景需求下,游戏开发的 GPU 选型攻略
游戏市场正在不断开发出新的场景需求,游戏开发团队在传统业务之外也都在打磨新的工作流,来应对高质量的游戏制作任务和短平快的 AI 游戏。这不可避免地涉及到生产力工具 GPU 的升级,而团队都希望“花小钱,办大事”,用一套高性价比的方案支撑起多元的应用场景和不同的工作流。
但目前 GPU 架构正在迭代,AI 工具、VR/AR 工具又以百花齐放的姿态不断涌现出来,对于游戏开发团队做 GPU 采购(一种中长期的投资)也带来了挑战和压力。我们特地根据不同的任务需求,整理了一些 GPU 选型的关键要素和项目测试数据,给大家做个选型攻略分享。
1、3D图形类任务
任务涉及建模、材质、灯光、动画、特效和渲染等。其中,渲染通常是性能要求最高的部分,我们可以根据开发项目中的中大型场景渲染需求,初步框定显卡选型的范围。需要注意的是,很多 3D 软件并不支持多 GPU 渲染,所以单张显卡的能力非常关键。
【需要特别关注的显卡参数】
显存容量:
较大的显存可以支持更复杂和更大规模的场景,显存容量太小则会导致建模操作不畅、渲染错误等情况。根据项目的测试情况来看,显存 20GB 可以支持中型场景 4K 分辨率的渲染场景,如果是复杂场景 8K、16K 分辨率情况下,则需要显存 32GB 以上。
GPU 架构、CUDA 核心与 RT 核心:
目前大多数团队采用的是 NVIDIA Ampere 架构、NVIDIA Ada Lovelace 架构的 NVIDIA RTX™ GPU。NVIDIA Ada 架构相比 NVIDIA Ampere 架构是更新一代的架构,性能更高。CUDA 核心数会影响并行计算能力,而 RT 核心则是专用于加速光线追踪的核心,简而言之,没有 RT 核心则不支持光线追踪。
是否 CUDA 核心数和 RT 核心数越多,性能就越高?
这里我们不得不强调,不同的 GPU 架构,采用的是不同代的核心,新一代的核心性能会比上一代的更强。如果在同一架构下,CUDA 核心和 RT 核心数越多,显卡性能会更高。但在不同架构的显卡中,就不能这么比较。
因此以目前的技术发展来说,建议直接采用 Ada 架构的 NVIDIA RTX GPU 来做图形渲染,这样更好做后期扩展。
图形 API:
NVIDIA RTX 专业显卡与消费级显卡使用的是不同的驱动程序,NVIDIA RTX 专业显卡的企业版驱动程序对于OpenGL 的优化明显更好,这对于团队来说也是必须要考量的因素之一,如果团队会需要执行到复杂的 3D 模型和高精度 3D 场景的任务、VR/AR 沉浸式体验场景,对效率与稳定性要求高的情况下,专业显卡能够承担的任务显然会更多。
显卡选型渲染测试:
有条件的情况下,我们尽量在购买前提前跑一跑项目测试,以匹配项目中可能遇到的一些特殊的需求。之前我们测试了市场上较为常用的 NVIDIA RTX 专业显卡在一些中大型场景方面的跑分、渲染表现,并且将 Ada 架构与Ampere 架构相应的显卡作为对比,测试结果给大家做个参考:
适配于复杂场景的显卡对比:
显卡型号和参数:
*显卡图片来源于 NVIDIA
NVIDIA RTX A6000 显卡作为 NVIDIA RTX 系列 Ampere 架构中的“卡皇”,被大家所熟知。目前该型号已停产。过往的测试结果了解到,NVIDIA RTX 5000 Ada 基于 Ada 架构的优势,图形性能与 AI 性能都超过了 NVIDIA RTX A6000。
测试数据-跑分对比:
测试数据-渲染能力对比:
适配于中型场景的显卡对比:
显卡型号和参数:
*显卡图片来源于 NVIDIA
20GB 显存可以满足日常中型场景的要求,同时我们测试得出,NVIDIA RTX 4000 Ada 相比 NVIDIA RTX A4500 显卡,性能上有所提升,同时单插槽卡的优势也非常大,对于我们后期机器的扩容很有帮助,性价比更高。
测试数据-跑分对比:
测试数据-渲染能力对比:
2、AI 类任务
任务通常涉及使用 AIGC 工具辅助生成角色、道具、场景等,同时训练自有模型和开发数字人等交互式体验,团队通常倾向于本地化部署模式,模型训练是算力性能要求较高的部分。
AI 任务测试参考:
扩散模型训练与推理:对于 AIGC 生成任务,多数团队采用 ComfyUI 来搭建工作流。我们以 Flux 模型训练为例,Flux.1 dev 的 Lora 训练中, 512*512 分辨率,bs为6时,学习率0.00005,步数为3000时,显存已经占用至29-30GB。而在FP16训练中,相同的参数下,显存占用约35-38GB。模型推理需要的 GPU 显存建议以 16GB 起步,否则随着模型的迭代发展和 AIGC 需求的增长,可能无法支撑未来较大规模的任务。
数字人开发:数字人交互体验类所涉及的工具链更为复杂。接入大语言模型做简单问答是普遍需求,以接入DeepSeek 为例,简单对话场景的推理可选择7B、14B模型,建议显存 30GB 及以上;32B 模型推理则需要约 96GB显存来保证推理效率。如果涉及3D数字人制作,我们以使用过的 NVIDIA Omniverse Audio2Face 为例,在保证数字人运行流畅的情况下,需要 24GB 显存以上的显卡,才能达到 FPS 在30帧以上。
显卡选型攻略:
就单卡来说,更高的显存意味着可以承载更大规模的模型,对于 AIGC 任务来说,在生成速度、分辨率、反应速度、生成质量上的优势更加明显。此外,Tensor Core、单精度浮点运算性能也可以作为我们综合考量显卡 AI 能力的指标。
在单卡无法承载任务、或者需要多卡来加速任务的时候,我们需要插入多卡进行计算, 这时候卡间通信和功耗问题是不能忽视的。AI 工作站搭载 NVIDIA RTX 专业显卡的方案具备P2P能力,通信效率会更高,并且专业显卡功耗更低,能适配更多的机型。
综合我们之前的测试情况,AI 类任务建议选择的专业显卡型号如下:
建议根据单卡能力、多卡运行能力、成本和效率、扩展性来综合评估最终的方案。并在购置之前,尽量提前能够做些测试。
3、总结建议
开发任务的规模如果涉及到高精度、大规模AI训练推理的需求,可以通过选择购置“多面手” 显卡,譬如 NVIDIA RTX 5000 Ada 来做支撑,用武之地更多,性价比就更高。
而对于中小型的开发项目,所涉及的精度和 AI 需求都不高,推荐前期采用 NVIDIA RTX 4000 Ada 这种单插槽显卡,成本可控,稳定性高,既能满足日常的开发需求,又容易在后期做扩展。
篇幅有限,上述测试数据具体内容及更多咨询规划类问题,均可点击下方链接获取。
显卡测试申请及方案咨询
https://rlzqlo1asm.feishu.cn/share/base/form/shrcnCbOVoltOXPQjFxveqrrIQb
*与NVIDIA产品相关的图片或视频(完整或部分)的版权均归NVIDIA Corporation所有。
技术支持
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )
本文来源于极客网,原文链接: https://www.fromgeek.com/ai/683546.html
本网站的所有内容仅供参考,网站的信息来源包括原创、供稿和第三方自媒体,我们会尽力确保提供的信息准确可靠,但不保证相关资料的准确性或可靠性。在使用这些内容前,请务必进一步核实,并对任何自行决定的行为承担责任。如果有任何单位或个人认为本网站上的网页或链接内容可能侵犯其知识产权或存在不实内容,请及时联系我们沟通相关文章并沟通删除相关内容。
评论