展望游戏音频设计的发展方向 - GameRes游资网-im体育官网_im体育官网-官网

class="site-content">


展望游戏音频设计的发展方向 – GameRes游资网-im体育官网

本文摘要:原始地址https://zhuanlan.zhihu.com/p/336691565作者:Ashley Chen Xichen本年度NExTStudios年度音频设计师,当与一个叫“ 2020年,这款游戏可以带给我们任何东西”的朋友们在一起时。

im体育官网

原始地址https://zhuanlan.zhihu.com/p/336691565作者:Ashley Chen Xichen本年度NExTStudios年度音频设计师,当与一个叫“ 2020年,这款游戏可以带给我们任何东西”的朋友们在一起时。作为一家坚定的技术学校,我在播客节目中表达了自己的观点。新体验的产生在很大程度上取决于硬件性能的提高和开发工具的发展。

如果问题是游戏音频设计所特有的,我认为值得讨论的主题是,基于硬件和软件的不断发展,游戏音频设计本身将发生什么变化,以及从业者在开发过程中将使用哪些新方法 ,玩家在游戏中可以获得什么新的体验。当我第一次列出文章的大纲时,英文标题是“下一代游戏音频设计会是什么样子”。

这是一个疑问句。我对此没有明确的答案,因此我只能结合实际工作。对于遇到的痛点,让我们谈谈游戏音频设计的设计思想,开发工具和终端体验。

每个链接中可以改进的地方。如果将其翻译成中文,将被称为“扩展游戏音频设计的发展方向”。游戏音频设计的现状1983年,任天堂推出了举世闻名的Nintendo Famicom,这是一款经典的配色“红白机”。这是我所知道的第一个游戏机,因此我将其用作标尺来分析硬件性能:8位1.79MHz处理器,2KB内存,音频支持4位波表合成器和高达7位15.7458kHz采样文件, 最多可以同时播放五个声音。

2013年,索尼推出了PlayStation 4控制台,其性能已达到:八个64位1.6GHz处理器,8GB内存,24位48KHz音频文件格式已成为开发标准,八通道输出支持多个环绕声没有 对声音设置和同时发出声音的数量有严格的限制。显然,过去30年的硬件发展非常迅速,性能水平提高了数十万倍。在撰写本文时,索尼和微软还推出了新一代游戏机,并进一步提高了性能。

还值得一提的是,移动设备的性能已经达到很高的水平,并且越来越多的游戏开始尝试在主机和移动终端上进行多平台支持。尽管由于手机本身的功能定位和物理限制,与主机相比,在实际性能上仍存在一些差距,但是两个平台之间的游戏开发思想和目标之间并没有明显的区别,但是两者都是 不同的。专注于此:主机端在极端性能要求下追求最极端的性能,而移动端更加注重确保最佳性能以适应更广泛的型号。

通常,从内存和处理器这两个指标可以理解,硬件性能的提高意味着游戏音频设计:更大的内存意味着可以使用更多高质量的声音资源,更快的处理器意味着可以处理更高的音频。精确的实时控制。因此,在这种硬件性能水平下,游戏音频设计也已经形成了相对成熟的开发过程。借用文章“游戏音频设计的工作流程”中的图标以说明:在数字音频工作站(数字音频工作站)中)要产生高质量的声音资产(声音资产,通常为wav格式文件),请将其导入到音频中间件( 音频中间件)进行统一管理和进一步处理,并与游戏引擎进行深度集成以构建实现逻辑,最终以音频数据(对于AK Wwise为事件)和游戏中的其他元素的形式实现各种丰富的条件触发器和 实时变化。

以上是从硬件性能和开发过程两个角度,并简要说明了游戏音频设计的现状。接下来,我将使用实际项目中遇到的三个示例来谈论游戏音频设计中的一些尚存问题以及可能的改进。

程序音频(Procedural Audio)(程序音频)在第三人称射击游戏类型中,玩家可以清楚地观察到整个角色的各种行为,因此,角色的动作表现细节尤其重要,特别是对于逼真的游戏。就是这样 为了满足这种角色动画的发展需求,当前的通用做法是基于“骨骼动画”和“关键帧动画”。以虚幻引擎为例。

首先,根据角色表现执行详细的行为分类,例如基本的“空闲”,“转弯”,“行走”,“奔跑”,“起停”以及各种行为之间的转换。原始行为由Motion Capture捕获。

通过使用动作材料创建大量动画序列,然后在游戏引擎中使用诸如Blend Space和State Machine之类的功能集成动画序列,以实现各种行为的触发和转换。在这种开发过程中,通常将与Foley相关的声音(例如角色衣服和脚步声)以Animation Notify的形式集成到动画序列中。只要触发了动画序列,就会播放相应的声音。

接下来,以足迹为例,详细分析需要准备多少声音资源。通常需要考虑以下重要因素:姿势:与动画行为的分类有关,例如步行,奔跑,跳跃,着陆,开始和停止等。如果您更详细,还可以考虑运动中的各种步态。

向前,向后,向左和向右方向。例如,向前和向后走的脚跟的脚趾顺序不同;身体形态:脚步整体听觉上的差异主要是由身体形态和其他相关因素引起的。例如,通常有男性和女性。

女人的脚步可以轻些。鞋子:拖鞋,皮鞋,运动鞋和远足靴等不同鞋子的脚步都有自己独特的特征,具体类型取决于角色衣着的丰富程度;材质:特征在不同材质(例如水泥,沙子和草皮)上产生的脚步声存在明显差异。具体类型通常由游戏中定义的物理材料决定。

实质性变化:每种脚步声需要产生多少随机样本,以确保在高频触发的情况下不会出现明显的重复感。基于以上考虑,可以算出总体所需的数据结构和资源规模。以我们当前的项目为例进行估算,男性角色的动画序列数量超过1,500,男性足迹数据使用的声音资源文件数量超过5,000。

上述制作方法可以称为基于样本的资产制作,即声音资源的来源是大量的音频格式文件,最终的声音效果很大程度上取决于这些资源的质量。整理一下这种制作方法的特点,以及我对此的一些想法:1.能否真正体现出角色在前进和后退行为以及快走慢跑的声音中的细微差别? 优秀的foley艺术家确实可以执行这些动作之间的细微差别,并以录音形式清晰,细致地记录下来。的确,样品资源的使用是当前最重要,最有效的生产方法。2.声音表现的丰富性和细节在很大程度上取决于声音资源的数量。

通过细分行为结构并堆叠大量数据,确实可以将细节的质量推到极致,但是在资源有限的实际开发环境中,如此庞大的工作量通常难以承受。3.该工作负载贯穿于整个工作流程,包括声音资源制作,数据结构构建,音频数据集成等。标准化的流程和自动化工具的确可以减少重复工作的一部分并提高生产效率,例如检测动画序列并在踏入地面时自动添加音频数据,但这并不能从根本上改变整个生产的核心思想。

方法。4.在此基础上,可以在游戏中引入动态参数以进一步实时处理声音资源,例如使用角色速度和倾斜度参数来调整声音的响度,音调和低通/高通滤波特性。

实时使用相同的资源。模拟不同坡度上脚步声的变化。

但是,这种实时调整的效果只能看作是低精度的仿真,因为对这些音频属性的调整不能改变样本本身的波形特征,换句话说,它不能反映出样本之间的真实差异。自己行动。归根结底,这种基于样本的生产方法实际上是在尝试使用足够的离散数据来匹配高精度连续变化。

我认为,还有很多改进的余地。游戏开发的技术特征是所有逻辑均基于程序算法。

所有性能实际上都是计算过程的结果。自然地,还有过程生成(Procedural Generation)的概念。简而言之,它是通过算法。

生成数据。这个想法早已应用于游戏开发领域,例如世界上大规模地形和植被的开发,Roguelike游戏中随机地图的生成等。近年来,更著名的游戏“ No 《人类的天空》甚至产生了超过18000000000000000000(Quintillion,18 0)的独特行星供玩家探索。

回到我们的示例,即使在基于大量动画序列的角色动作的制作过程中,它实际上也将涉及过程动画的使用,例如角色死亡或失去控制后进入的布娃娃。状态,使用“反向运动绑定”使角色与其他对象接触时的行为更加自然,并使用“运动匹配”更方便,更快速地实现角色的运动行为。现在甚至可以使用人工智能,神经网络和其他相关技术来使角色在各种状态下产生非常自然和自适应的动画效果,而无需依赖动画序列和其他数据。

想象一下,在将来的这种工作流程中,类似于动画序列的载体将不再支持现有的音频数据。我们应该如何设计和整合角色的动作声音? 因此,相应地,在音频设计领域中,自然会有过程音频的设计思想。尽管程序化音频的概念并不是什么新鲜事物,但似乎行业中没有大规模的讨论和应用,甚至没有相应的Wiki页面。

我暂时不会讨论程序化音频的学术定义。我将仅结合上述角色音效设计案例来梳理我对程序化音频的理解以及实际使用的可行性思想:1.首先,程序化音频的思考重点是对象为什么以及如何发声,而不是对象的发声方式。只需考虑特定的声音性能。

如果从相对广泛的角度考虑,当前的游戏音频设计实际上已经包含了许多程序化音频设计思想。我在“游戏音频设计的想法:解构和建模”一文中也表达了类似的想法。2.需要明确的一件事是,程序音频并不意味着完全放弃使用样本材料,这与物理模型合成完全不同。基于物理模拟的声音合成是指解构对象的物理属性并通过算法建模来生成声音。

学术界在该领域进行了多年的研究和成果,然后就有机会被用作程序化音频设计理念。一种在游戏音频设计工作流程中实际使用的技术。但是就实际开发而言,使用样本材料的方式在音质,计算速度和性能消耗方面仍然具有绝对优势。

im体育官网

3.引入程序性音频设计思想的主要目的是利用有限的声音资源来实现尽可能丰富和动态的声音性能。在当前的游戏音频设计工作流程中,实际上有许多方法适合此方法,例如使用引擎中的动态参数实时调制声音的属性,这仍然是编程音频中的重要方法。

4.关于角色脚步声设计中的步态因素,我认为使用程序音频的主要障碍是没有有效的模型可以从更具破坏性的角度描述脚步的结构和状态。例如,平台益智游戏“ Inside”中角色的脚步声设计已经做出了有趣而成功的尝试。脚步声分为脚趾和脚跟两部分,然后实时使用字符速度和其他参数。

控制两个部分的播放间隔,响度和音高,以不同的速度无缝表达角色的脚步声。尽管此解构模型的准确性相对简单,但对于诸如“ Inside”和其他水平移动和艺术美术风格的游戏类型而言,的确是足够且有效的。

对于第三人称射击游戏的逼真的风格,我们需要对足迹的解构模型进行进一步的思考和探索。5.材料(材料)是游戏引擎中的基本且重要的系统。目前,它在音频设计中的应用相对简单明了。即,一种材料映射了一组声音,其中包含许多随机变化的样本材料。

这也是声音资源的数量和足迹的结构复杂性会随着材料类型的增加而倍增的主要原因。如果引入程序音频的设计思想,我们可以分析材料的物理特性(如硬度,厚度和粗糙度),并结合物理建模声音合成技术,从而可以通过使用尽可能少的声音资源。

参数控制和置换和组合的方式,以实现尽可能多的素材和声音效果。6.最后,从务实的角度讨论为什么在实际开发中没有大规模使用程序化音频。我认为有两个可能的原因:首先,大多数游戏类型的当前开发规模和资源数量仍可控制,并且使用示例材料是最直接,有效和相对便宜的生产方式。受人员技术背景和人工成本等因素的限制,游戏音频团队在程序音频的基础研究上投入时间和精力可能不是具有成本效益的事情; 其次,尽管学术界可能已经在相关领域取得了研究进展和成果,但是由于缺乏实际的需求驱动因素,尚未形成相对完整的解决方案。

声学环境建模(Acoustic Environment Modeling)在竞争激烈,逼真的射击游戏中,玩家对声音的关注不仅是令人不快的枪声,而且还包括声音的空间感和方向(例如枪击和角色动作)。Sense提出了更高的要求,因为在身体常识和听觉习惯的情况下,这些声音可以为玩家提供有关情况的更多信息。因此,在游戏音频设计中,我们需要解决的主要问题之一是如何在游戏世界中重建逼真的声学环境,从而使声音在其中传播时听起来真实可信。

声学环境建模本身是学术研究的主要方向。在建筑声学和其他领域有许多研究结果和实际应用。

我在这方面没有研究经验,所以我只是从游戏音频设计的角度出发。讨论当前的常见解决方案。首先,从响度的角度来看,从激发到消失的过程中,声音可以分为三个部分,即直接声音(Direct Sound),反射声音(Early Reflect)和混响声音(Late Reverb)。声音的一部分将动态生成,更改和混合,以形成空间中声源的整体效果。

同时,请考虑声音在传播过程中的两个行为特征,即衍射(Diffraction)和传播(Transmission),这两个特征与空间几何(Geometry)信息密切相关,需要与听众(Listener)合作。)和声源(发射器的空间信息及其相对关系)一起参与计算。

简单地理解,以上五点是在游戏中重构声音传播现象时可以设计和控制的元素。以音频中间件Audiokinetic Wwise的Spatial Audio解决方案为例,游戏音频设计师可以从以下几个方面入手:1.为Wwise中的各种声音定义不同的“衰减”设置,包括声音可以传播的最大距离。除了基于距离变化的响度,低频和高频衰减曲线外,它还主要定义了这部分直接声音的传播特性。

此外,它还包含不同距离处对混响效果的声音响应曲线,将在以后的混响声音部分计算中使用。2.在Wwise中创建辅助母线,并在每条母线上配置具有不同效果的混响插件,以模拟不同空间中的混响效果。然后,将这些母线映射到引擎中定义的空间,以确定其不同的混响特性,并且将实时计算产生混响声音的部分。3.在Wwise中创建Reflect Bus,并使用Reflect插件完成反射声音的实时计算。

反射的声音是由引擎中定义的建筑物或物体表面的反射引起的,并且与空间几何形状密切相关。因此,Reflect插件根据距离变化,低频和高频衰减曲线等来定义反射声音和响度的最大响应距离。属性。

4.在Wwise中创建各种声学纹理,以模拟不同的材料如何吸收反射的声音。然后,这些纹理将被映射到引擎中定义的建筑物或对象的表面,并与Reflect插件配合使用,以实现更好的反射声音效果。5.在Wwise中设置全局遮挡和遮挡曲线,分别对应于衍射和透射的影响。

在直接声音的传播过程中,当声音遇到表面边缘并直接穿过墙壁时,将导致不同程度的“阻塞”和“遮挡”计算。根据衰减设置,获得的值将进一步影响直接声音的响度和低频。以及高频衰减。

6.根据地形和建筑模型在引擎中定义每个房间,并在引擎中配置相应的空间属性(例如混响总线,声学纹理和墙遮挡),并在空间的开口处(例如门和窗户)定义门户 作为声音传播的渠道。定义空间的主要方法有两种:一种是使用“空间音频音量”组件手动绘制简单的几何图形(例如立方体),另一种是使用“几何”组件直接调用建筑模型的“静态网格物体”信息。7.完成上述设计和集成工作后,引擎可以基于空间信息以及听众,声源和几何形状的相对关系执行实时计算,以模拟不同空间中各种声音的听觉效果。

以下是我对上述解决方案的理解:1.从声学环境建模的角度来看,此解决方案基于“房间和门户”,它将游戏空间划分为相对独立的房间。,并通过Portal进行连接。尽管建模精度受到限制,但是这种简化的模型在实际性能上确实有效。

它也可以反映声音传播的特征,同时尽可能降低性能。2.虽然这种建模和恢复是有效的,但与真实的声音性能相比仍然存在很大差距。

我认为主要瓶颈仍然是性能受限。例如,混响声音实际上是由无数次漫反射的混合形成的,但是在实际开发中,我们无法从这种更本质的角度模拟混响声音。大量的射线检测(射线广播)需要大量的性能,并且只能通过混响插件来实现。为此,插件本身还简化了混响的建模。

即使使用更好的卷积混响(Convolution Reverb),当前仍存在可控动态参数有限的问题。3.再举一个例子,目前,我们通常只能使用简单的几何体进行近似拟合,并且我们没有定义所有材料表面的反射特性,更不用说计算所有声音的反射了。这些无序和不规则声音的相互影响正好反映了声音在真实环境中的详细表现。

4.正是由于性能有限,该解决方案需要手动定义“房间”和“门户”,对于复杂的模型,还必须考虑组合和拼接,从工作量的角度来看,这也是很大的人工成本。5.当然,这种由于性能受限而导致的降低精度降低和工作成本增加的现象实际上在游戏开发中很常见,例如为模型设置LOD(细节水平)以在不同的观看距离精度下调整模型等。除了等待硬件性能提高之外,我们还可以改变思路来解决游戏中的声学环境建模问题吗? 2011年,Microsoft提出了一种名为Wave Acoustics的仿真方法,该方法使用类似于“静态光烘焙”的思想来计算和记录复杂环境中声波传播的实际效果,并从中提取重要参数。

用于设计控制和实时计算。这种方法提高了声学环境的仿真精度,而无需依赖大量的射线检测,同时还节省了音频设计人员的大量工作,以手动定义“房间”和“门户”。

当然,该解决方案当前具有一些需要改进的地方,例如如何进一步减小烘焙文件的存储大小以及如何实现空间信息的动态变化。目前,该解决方案正式命名为Project Acoustics,并已在“战争机器”,“盗贼之海”和“边境3”等项目中得到验证。有兴趣的朋友可以访问官方网站了解详细信息,或者尝试使用Unreal或Unity直接集成程序。

由于我的研究深度有限,因此无论Room& amp;的优势如何。Portal和Wave Acoustics,至少作为一线工人,我很高兴看到新技术的出现,并继续将它们带入实现效果和工作效率的境地。

我们的新可能性。立体声和双耳音频(Ambisonics& Binaural Audio)当前,主机平台上的大多数游戏都将根据高于5.1环绕声的播放标准执行最终混音,并且大多数播放器都没有这样的规范。就播放条件而言,主要是两声道立体声扬声器,耳机,甚至只是电视扬声器。

因此,无论我们在音频实现中使用多么先进的技术,或者在混音阶段中使用何种高端环境和设备,我们都必须最终考虑一个非常重要和实际的问题,即如何确保播放器处于各种状态。规格。在不同的终端设备上也可以听到高质量的声音播放。

作为大多数玩家都能获得的设备,头戴式耳机已成为我们研究的重点。值得研究如何在耳机上实现更立体和逼真的听觉效果。

为了解决这个问题,我们必须首先了解当前游戏如何处理声音定位(Sound Positioning)。在游戏的三维世界中,听众和每个声源都有自己的坐标,并且可以通过矢量计算来计算任意两个之间的相对关系。基于收听者的声音位置信息简单明了。这种处理方法类似于游戏开发中的基于对象的编程逻辑,也可以理解为基于对象的音频。

游戏本身的动态和交互特性要求声音必须包含完整的定位信息才能进行实时计算。因此,在游戏开发阶段,我们更关注的是听众与声源之间的相对关系的变化,而不是特定的声音通道。特定的播放内容与基于通道的声音制作想法(例如音乐和电影)完全不同,我认为这也是其优越性的体现。正是由于基于对象的音频的特性,杜比全景声(Dolby Atmos)等环绕声技术也引入了类似的设计思想,以实现电影更丰富的立体声再现效果。

尽管基于对象的方法保留了声源的完整空间信息,但我们最终还是需要将声音映射到仅具有两个通道的耳机进行播放。当前,最常用的方法是VBAP(基于矢量的幅度平移)。

VBAP的优点是它可以映射到各种通道配置的播放系统,而无需对声场进行其他更改。但是,它的缺点也很明显。播放器听到的不是真正的全方位声场。

im体育官网

声源相对较弱。前后方向和收听者身高的差异被压缩。直观地讲,原始的三维空间被压缩为二维平面。

因此,对于上述耳机播放问题,我们可以结合两种技术有针对性地解决它。首先,使用Ambisonics技术将声源的空间信息映射到三维球形声场,然后使用双耳双耳音频中的Head-Releated传递函数(HRTF)过滤球形声场中的声源, 最终实现更准确的空间感和适合耳机播放的声音定位效果。我对此的理解是:1. Ambisonics最早是在1970年代发明的,但是由于基于渠道的生产方法之前已经占据了主流,因此它没有太多用途。

直到几年前虚拟现实的兴起,Ambisonics捕获和还原整个声场的特征才得到重新强调。Ambisonics麦克风和全景相机拍摄方法非常适合VR电影的制作需求。2.在游戏音频设计中,Ambisonics的应用远不止于使用麦克风收集Ambisonics的声音材料。

更重要的是,可以将Ambisonics用作中间空间表示形式(Intermediate Spatial Representation)来模拟声场,这对于后续使用HRTF更准确。双耳定位提供了可能性。

目前,音频中间件Audiokinetic Wwise也已将Ambisonics集成到其现有的Spatial Audio管道中。3.双耳音频不是一项新技术。双耳录音已经出现并被广泛使用。流行的所谓ASMR视频实际上是使用双耳麦克风录制的,以创建更亲密的聆听体验。

原理很简单,很容易理解。它是在人耳的鼓膜附近布置麦克风,或使用人造头型麦克风来记录声音,以便可以通过耳道,耳廓,头部形状和身体的影响更准确地捕获声音。最后,人们能够区分声音位置的原因与受这些部分的滤波影响的细微变化有很大关系。

4.在游戏音频设计中,双耳音频的应用远远超出了使用双耳麦克风收集声音材料的范围。最重要的是,我们可以通过这种方式将人体部位对声音的过滤效果提取到HTRF中,以便我们可以对游戏中实时变化的声音进行双耳处理。5.目前,HRTF数据收集要求在高标准的声学环境中使用麦克风阵列,这既费时,费力又费钱。

因此,常规HRTF数据只能从有限的样本中收集,然后处理为通用分类预设。但是,由于各个器官结构的差异,这些数据无法准确地与每个个体匹配。

因此,如何更方便快捷地收集个人HRTF数据可能是值得稍后探讨的技术。简而言之,耳机是当前普通消费者体验高质量音质的最便捷的设备。耳机的声音播放体验肯定会受到越来越多的关注,因此在开发阶段对耳机的播放进行特殊的声音定位,并且混音处理也特别必要。

娱乐,非模拟(娱乐,非模拟)以上三个示例是从资源生成,声学建模和终端体验的角度开发的。他们讨论了游戏音频设计的发展方向和进展,并反映了各个方面。对技术进步的一致要求:设计工具更加可控,计算性能更快(快速),并且呈现效果更加准确(准确)。

这可能会在一定程度上回答最初的问题,下一代游戏音频设计将是什么样子,至少这是一个相对明确的技术要求。上面的整个文章都是对技术本身的讨论,其重要性不言而喻,但是对技术手段发展的纯粹追求更多地属于科学研究范畴,而游戏音频设计则是技术与艺术的结合, 技术手段应发挥艺术性,游戏作品的质量最终取决于玩家的经验和评价,而不是技术手段的进步。科学研究的技术成果为模拟(Simulation)现实提供了工具,游戏开发人员应考虑如何将这些工具应用于虚拟世界的创建(Recreation)。

当技术发展允许我们越来越接近现实时,我们如何定义虚拟世界中的“真实性”? 相关阅读:(1)“ 2020年,游戏还能给我们带来什么”播客程序:https://m.ximalaya.com/yule/40134221/319415380(2)游戏音频设计工作流程https:// soundoer.com/2020 / 09/08 / the-workflow-of-game-audio-design /(3)游戏音频设计理念:解构和建模https://soundoer.com/2020/07/18 / a-thought-of- 设计声音在游戏中的解构和建模/贡献电子邮件:news@GameRes.com商业合作:琥珀色(微信:lcxk6876767)其他合作:老林(微信:sea_bug)。

本文关键词:im体育官网

本文来源:im体育官网-www.semenaxprice.com

 

网站地图xml地图