《人机协作:电影音乐生产的AIGC应用研究》关注生成式AI对电影音乐产业走向高科技、高效能、高水平发展的正在和可能带来的多方面影响。该文在回顾国内外人工智能音乐生成技术发展历史的基础上,提出指导者-执行者范式的电影音乐生产人机协作模式,分析了人工智能生成内容(AIGC)在电影音乐领域的广泛应用前景,体现了该研究的时效性、前沿性和探索性。论文一方面指出了AI音乐生成技术通过科学技术创新、优化资源配置与生产流程以及人机协作,能够提升电影音乐全要素生产率,为电影音乐领域发展带来新的机遇;同时论文也提出了AI音乐生成技术现阶段存在生成内容质量不稳定、遭遇技术局限、缺乏版权规范等多方面已经显现或正在显现的复杂问题。论文用“指导-执行”的人机协同模式来平衡“人适应工具或者工具适应人”的冲突,是一种建设性的积极探索。人的创意想象力、审美创新性和风格差异性和AI的超大算力、快速完成力和数据资源整合力,可能带来电影音乐行业的质的升级。人机协同,是人工智能未来的一种新的创作生产模式。人工智能如何为人所用、为艺术所用、为电影所用,这方面的研究才刚刚起步。
生成式人工智能(Generative AI)是一种典型的新质生产力,能够以科学技术创新的方式推动电影音乐产业走向高科技、高效能、高质量的发展道路。本文回顾了人工智能音乐生成技术的发展历史,提出指导者-执行者范式的电影音乐生产人机协作新模式,分析了人工智能生成内容(AIGC)在电影音乐领域的应用前景,指出了AI音乐生成技术存在的不足。研究表明,AI音乐生成技术通过科学技术创新、资源配置与生产流程的优化以及人机协作能够提升全要素生产率,为电影音乐领域发展带来新的机遇和挑战。
AI生成内容(Artificial Intelligence Generated Content, AIGC)是基于机器学习(ML)和深度学习(DL),使用海量数据对模型进行预训练而自主创建的全新内容。AIGC既可指代人工智能生成的内容,又可指代通过生成式人工智能(Generative AI)创建全新内容的技术。其开启了人类全新的创造模式,是补充传统专业生产内容(Professional Generated Content, PGC)和用户生成内容(User Generated Content, UGC)的创意内容生产方式[1]。生成式AI是一种典型的新质生产力,其以科学技术创新为核心,推动了内容生产在生产效率、整体质量等方面的提升和生产方式的变革。
作为一种先进的上游技术,AIGC具有在各行各业支持不同下游应用的巨大潜力。2023年被称为AIGC的突破之年,这项技术在文本生成(例如ChatGPT)、文生图像(例如Midjourney)和文生视频(例如Sora)等领域都取得了重大进展,尤其是 OpenAI的Sora为视听内容生产带来革命性影响。音乐领域的AI生成技术在2024年也迎来突破。2024年3月21日Suno V3版本发布,以其一键式快速生成较高质量歌曲的能力迅速引发行业、学术界热议,吸引了全世界消费者的广泛参与和传播。通过输入提示词,Suno V3可在几十秒内快速生成长达两分钟的音乐(含歌曲和器乐曲),以科学技术创新的方式代替传统音乐生产从作曲、作词、编曲、演唱/演奏到录音、混音的流程。从音乐专业技术人员反馈来看,职业音乐人似乎已面临AI音乐生成带来的生存挑战。
然而,能够生成音乐内容和能够生成符合人类需求的高质量音乐作品是两个截然不同的层次。AIGC作为辅助工具需表达人类想法,其所生成内容的花钱的那群人是人类自身。当AIGC成为一种以科学技术创新为核心的新质生产力,推动和加速创意内容生产领域的相关产业走向升级时,我们有必要探讨人类创作者与AIGC工具之间的工作模式,即如何借助AIGC技术在降本增效、提质升级的同时,更好地激发人类创意,高效生产出符合人类审美情感需求的创意产品。
以电影行业为例,目前AIGC相关工具在电影制作领域已体现出降本增效和提质升级能力,被用于剧本写作、概念图生成、分镜头脚本制作、自动剪辑、预告片生成等环节。本文认为,AIGC音乐工具现阶段已展现的能力和通过不断迭代具备的潜能将在电影音乐生产中发挥非消极作用,形成指导者-执行者范式的电影音乐生产人机协作模式,促进电影音乐产业升级。
人工智能音乐生成的研究和应用经历了从早期实验到深度学习理论带来突破的几个重要阶段。早在1956年,伊利诺伊大学厄巴纳⁃香槟分校的两位教授列哈伦·席勒(Lejaren Hiller)和伦纳德·艾萨克森(Leonard Isaacson)就对ILLIAC I计算机进行编程,为弦乐四重奏创作了一首以计算机名字命名的《伊利亚克组曲》(Illiac Suite)。这个组曲被一致认为是首个完全由计算机作曲的音乐作品,利用马尔可夫链等概率算法来决定音乐的组成部分,使计算机能够按照18世纪对位法的所有规则“组成”弦乐四重奏[2]。该组曲的四个乐章其实是四个实验,目的是利用计算机来查看不同算法规则产生的音乐效果[3]。之后人工智能音乐生成经历了从20世纪70年代算法和编程语言发展,到90年代AI与机器学习融合。2012年神经网络的出现彻底改变了多个计算机科学学科[4],包括人工智能音乐生成领域。从早期的实验性探索到如今占主导地位的基于神经网络的音乐生成模型,人工智能音乐生成的发展历史反映了计算机科学、机器学习在音乐领域的实践。从学术研究到产业应用,使用机器学习算法从海量音乐数据中进行模型训练的目的是生成与人类创作近似的新音乐作品。
国内外高校如斯坦福大学音乐与声学计算机研究中心[5]、伦敦玛丽女王大学数字音乐中心[6]、卡内基梅隆大学计算机音乐中心[7]、中央音乐学院音乐AI与音乐信息科技系等均致力于人工智能音乐生成的相关研究。其中中央音乐学院开发了名为“I Am Singing”的AI自动作曲系统,该系统采用三阶段流程,能够准确的通过给定的歌词自动生成乐谱、表演和音频文件[8]。该作曲系统能够在23秒内快速创作出一首歌曲,并达到一般作曲家的水平[9]。国内外大型科技公司如谷歌、OpenAI、Meta、索尼计算机科学实验室、腾讯音乐娱乐集团、网易云音乐、昆仑万维等加速在AI音乐生成领域的系统研发与商业落地,部分音乐生成模型已在商业领域应用,还有部分产品暂处于小规模用户测试阶段。
国内外已实现商用的AIGC音乐工具众多,本文按照应用场景和客户的真实需求将其区分为专业级、民用级和短视频背景音乐制作级(以下简称“短视频级”)。
民用级AIGC工具面向大众消费者,使用基于提示词(Prompt)的神经网络模型设计,操作简易。用户只需输入提示词,选择音乐风格和情绪类型,就可以快速生成歌曲或乐曲。
短视频级AIGC工具面向短视频、播客(Podcast)、广告等内容制作者,采用基于提示词、参数和视觉的神经网络模型设计,操作简单便捷。用户输入提示词,导入视频素材,选择音乐风格、情绪类型和应用场景(如运动、旅行、戏剧、电影),进行参数调节(如时长、速度、音量等),就可以快速生成与画面速度和气氛具备一定相关性的背景音乐。
本文界定的专业级AIGC工具主要面向音乐专业技术人员,采用基于提示词和参数的神经网络模型进行设计,设置详细的音乐参数(如音调、音色、节奏、速度等),生成的音乐可导出为乐器数字接口(MIDI)文件继续编辑。专业级分独立平台(如AIVA)和音乐制作软件插件(如谷歌Magenta Studio插件)两类,能快速生成旋律、配器、和声的多种音乐方案供创作者选择和修改。
上述三个级别中较为典型的AIGC音乐工具如表1所示,其中天工SkyMusic和网易天音为国内平台。
AI智能体(Agent)是指一种具有感知、思考和行动能力的AI系统①。基于大语言模型(LLM)的智能体(Large Language Model⁃based Agents)是将大语言模型(LLM)作为智能体的大脑或控制器的主要组成部分,并通过多模态感知和工具利用等策略,扩展感知和行动空间(图1)。这类智能体通过输入的文本、图片、 声音等多模态信息进行感知,由大语言模型构建的大脑做出决策,并采取行动。
各类AIGC工具表面上是算法工具或平台,背后其实是AI智能体,具有感知、思考和决策的能力。尤其是大语言模型展示了令人印象非常深刻的语言能力[10],利用大语言模型构建AI智能体已成为目前主要的技术趋势,其应用已在各行业广泛展开,包括单智能体(Single⁃Agent)、多智能体(Agent⁃Agent)和人机交互(Agent⁃Human)三大类(图2)。
其中,人机交互又分为指导者-执行者范式(Instructor⁃Executor Paradigm)和平等伙伴关系范式(Equal Partnership Paradigm)两类。在指导者-执行者范式中,“最简单的方法是在整一个完整的过程中由人类提供指导:人类直接提供清晰明确的指令,而智能体的角色是理解人类的自然语言命令,并将其转化为相应的行动” [11]。以电影音乐生成为例,图3展示了两类范式在人机交互上的差异。在指导者-执行者范式下,人类作曲家能否提供清晰明确的指令、智能体能否准确理解人类命令,都决定着人机交互的体验和电影音乐生成的效果。
人机交互在生成式AI应用领域特别的重要,而其中的指导者-执行者范式更适合创意内容生成应用领域。
首先,电影音乐生产与一般音乐生产存在本质区别。电影音乐的生产需求源于导演或制片人,音乐监制、作曲家及其团队需在预算内用恰当的“音乐战术”帮助导演和制片人实现电影创意战略。音乐监制和作曲家需充分理解导演需求,保持高效且准确的沟通,用音乐语言帮助导演传达场景的情绪和氛围、塑造人物、升华电影主题等。其次,电影音乐产品是一种典型的创意产品,由作曲家和导演、制片人在创意沟通和预算范围内共同打造。制片人希望电影音乐成为凝练电影主题和情绪的最佳载体,从而用音乐(配乐和歌曲两种形式)助力电影营销、完成电影原声专辑销售的目标。最后,电影音乐生产是电影生产的一环,受到电影工期限制,需在前期、拍摄期和后期与导演、剪辑、声音、演员等部门协作,确保最终的电影产品如期投放市场。总而言之,电影音乐生产是应导演或制片人需要、为电影而作、需配合电影生产工期和流程协作的创作和制作过程。
在前期,导演(或制片人)确定作曲家人选,沟通电影主题、基调和音乐风格等创意理念。在拍摄中期,作曲家制作音乐小样(Demo)与导演进行创意沟通和方案确认。部分电影项目若存在画内音乐需求,还需作曲家制作音乐成品或小样供拍摄使用。在后期,待电影初剪版本确定后,作曲家及其团队完成最主要的音乐生产工作。作曲家按照事先确定的方案,根据每个段落所需时长进行创作,组织乐队演奏和歌手演唱,聘请录音师录音、混音师混音,制作出音乐成品交付,配合导演、剪辑、录音等部门完成最后的电影声画合成。
电影音乐生产横跨电影行业和音乐行业,涉及作曲家和音乐监制(有时由作曲家兼任)分别在“电影圈”与“音乐圈”的工作流程(图5)。
音乐人与电影人在电影生产全流程中需“跨圈”同步视听思维和制作需求,提高全流程沟通效率,快速协作,使音乐、声音、画面顺利完成“生产组装”,确保电影如期上映,完成市场宣发。制片人需针对电影音乐的目标群体(电影观众和音乐听众)对音乐部门提出生产需求,力求使音乐在电影营销中发挥非消极作用,在电影原声专辑销售中盈利。因此,高效沟通与协作、高效生产、高效进行产品定位在电影音乐生产中非常重要。
清华大学AI研究院常务副院长孙茂松院士对于生成式人工智能的基本定位是启发、辅助人类,其基本应用条件是人在回路中②。本文认为,在视听内容生产等以创意为核心、凝结大量人类情感与人类经验的应用场景,适合采用基于大语言模型的指导者-执行者范式。电影音乐需准确把握电影叙事,深刻表达人物情感,甚至放大导演的哲学思想,采用人机交互中的指导者-执行者范式,通过人类创作者(导演和作曲家)提供指导和反馈、由大模型的算法作曲执行,完成人机协作模式的电影音乐生产。设计和研发人员在开发针对音乐专业技术人员的AIGC工具时,需考虑音乐应用场景的特性、尊重人类作者的创造力,在可控生成中确保智能体的决策和行动与人类音乐生产的需求和目标保持一致。此外,在人类创作者与智能体的交互中,创作者的反馈可帮助智能体更高效地执行任务,从而为创作者提供更好的辅助。
3.3 指导者-执行者范式下AIGC工具在电影音乐生产领域的应用现状与趋势
在传统电影音乐生产方式中,导演通过语言或借助参考音乐来描述希望达到的“感觉”,作曲家用MIDI技术制作小样进行反馈和沟通。由于MIDI制作需耗费一段时间,难以在创意沟通中快速呈现音乐与画面视听同步的效果。部分导演如王家卫通过在拍摄现场播放已确定选择的、预先存在的音乐(由导演挑选、制片部门或音乐监制负责处理音乐版权问题)来实时呈现音乐与画面的整体表达。这种创作方式有利于现场工作人员明确作品的视听方向、促进协作。但这仅代表极少数的工作情况。
在AIGC工具的辅助下,作曲家指导AI快速生成小样同步参与创作,以此来实现全流程的视听化沟通。例如,在最初的创作概念探讨中,可借助AIGC工具根据剧本的文字信息生成音乐、场景图、音效、人声等,完成视听概念的初步建立。又如在虚拟预演(PreViz)的工作流程中,音乐部门可通过AIGC工具辅助高效生成音乐小样并及时作出调整,让所有工作人员从视听整体角度理解导演的创作方向,促进各部门协作、提高沟通效率、降低沟通成本,确保全流程中创作方向的一致性。
(1)快速生成音乐小样。电影音乐的实际录音通常在后期完成,但前期和拍摄中需通过音乐小样参与生产的全部过程。传统生产方式中,作曲家大多使用MIDI制作小样或进行少量实际录音,涉及作曲、编曲、录音、混音等多个环节。通过AIGC辅助,作曲家可快速生成小样并及时沟通,供剧组在拍摄时使用。例如作曲家可借助AIGC平台AIVA,根据段落时长需求、风格、音调(Key)和大小调建立工程文件,输入提示词和音乐参数快速生成小样并进行简单编辑。目前部分AIGC工具生成的音乐已具备一定质量,可达小样音质标准,但仍需具备更精细化、更可控的生成过程和更稳定的生成质量才能满足实际制作需求。
(2)辅助作曲家快速选择创意方案,提高音乐设计效率。郭帆导演在《流浪地球3》预告片里运用AI提高机器人概念设计效率的案例对AIGC在影视行业的应用具有一定启示性[12]。电影音乐同样具备借助AIGC工具实现高效筛选创意方案的可能性。大到整部影片的主题设计和基调确立,小到每场戏的音乐风格,作曲家可指导AIGC工具快速生成多种音乐方案,并与导演做沟通和确认,提高音乐概念设计效率。
(3)提高基础工作效率。随着商业电影的发展,单个电影音乐项目的工作量持续不断的增加,体现在音乐的复杂度和音乐总时长等方面。大型电影音乐项目通常需作曲家带领团队分工协作。AIGC工具能够辅助完成部分基础工作(例如编曲中每类乐器的组合方式、和声写作等),从而缩短制作时间。例如谷歌DeepMind的模型Lyria能够将输入的音频转化为多种不一样的风格并编配伴奏。在官方的模型展示中,输入一句无歌词的哼唱音频,再用提示词说明转化为萨克斯独奏,模型便将哼唱人声替换为萨克斯独奏并自动添加鼓、人声伴唱和贝斯等多轨伴奏,快速制作出带旋律和伴奏的乐曲[13]。
AI通过对音乐数据集的训练,学习数据集在旋律、节奏、音乐风格、和声等方面的音乐内在规律,并最终产生新的音乐。电影音乐生产需作曲家掌握多种音乐风格和各类乐器特点以满足电影制作的多样化需求,还需作曲家根据电影类型发展和主流观众审美变化在音乐表达上不停地改进革新。AIGC音乐工具在旋律生成、和声写作、节奏设计、音乐风格等方面具备为人类作曲家提供多样化创意激发和技术上的支持的可能性,从而辅助创作者拓宽思路、探索新的音乐风格和写作技巧。
例如Magenta Studio内嵌了5个AI插件,可智能化生成多种方案供作曲家选择。其中,Continue模型可以依据已有旋律或鼓点继续产生新旋律;Generate模型可自行生成4小节随机的旋律或鼓点;Interpolate模型能够将输入的两段旋律或者鼓点合并成一段新的旋律;Drumify模型可根据一段旋律自动配上鼓点;Groove模型用于生成和控制富有表现力的鼓的演奏。还有一些高质量的民用级AIGC平台可以通过提示词快速生成多样化方案,激发创作者不断探索新的可能。
在技术层面上,AI领域始终将深度神经网络称为黑盒(Black Box),根本原因在于研究者们至今还没全方面了解AI的神经网络是怎样做出选择的。各类音乐生成模型的概率生成范式决定了其输出的内容具有不确定性。在实测中,输入同样的提示词、选择同样的风格和情绪参数,模型每次生成的音乐都不同,有的音乐类似,有的音乐却出乎意料,能够给予创作者耳目一新的感觉。由概率生成范式带来的不确定性在某些特定的程度上给予了激发创新的可能性,有助于创作者在人机交互中碰撞出火花。
电影音乐生产分为创作和制作,整个生产过程受到电影生产工期的限制。电影音乐作者在与导演的创意沟通中通常耗费大量时间和精力,形成最艰难的“0”到“1”的音乐创作概念。创作概念构建需要作曲家与导演进行深入的、多次的思想碰撞,凝结了双方的智慧、审美、人生阅历和生命感悟,是电影音乐的核心部分,也是AI通过算法作曲难以准确完成的部分。而电影音乐制作需要完成从“1”到“100”的电影音乐工程构建,工程量越大的电影音乐项目花费的制作周期越长。AIGC可以帮助作曲家在“1”到“100”的工程构建中快速生成 “音乐草图”,辅助作曲家加速制作方案选择,缩短工期,从而在电影音乐生产的全流程中辅助作曲家将最主要的精力分配在核心创意和艺术表达上。
电影音乐对情感表达要求比较高,而目前AIGC工具生成的音乐在作曲、演唱和演奏质量等方面大多还达不到人类水平。本文认为现阶段以人类作者为主、人机协作为辅是电影音乐保质增效的生产方式。通过人类作曲家指导AIGC工具生成初稿,再由人类作曲家优化方案,并组织音乐人演奏和演唱,既能提高效率,又能保证作品质量。
综上,通过人机协作的指导者-执行者范式,AIGC音乐工具能够在音乐专业技术人员的指导下提高电影音乐的沟通和生产效率,提升平均质量,激发创意。虽然目前AIGC音乐工具还处于初级阶段,但随着算力、数据集和算法的不断迭代,在不久的将来有几率会成为人类作曲家和导演的得力助手。
新质生产力与传统生产力形成鲜明对比,是以创新起主导作用,摆脱传统经济稳步的增长方式、生产力发展路径的先进生产力,具有高科技、高效能、高质量特征[14]。电影音乐生产经历了从传统生产方式到由计算机技术推动的生产方式变革:传统电影音乐生产流程为谱曲、演奏(歌手演唱)、录音、混音,通常由几十人共同完成;之后出现的MIDI和相应的电脑音乐制作技术推动了作曲家个人工作室的诞生,作曲家在电脑、采样器、合成器等软硬件的辅助下独立完成写作、编曲、生成(而非录制)和混音,大幅度的提升了生产效率,降低了生产所带来的成本。如今AIGC工具通过对海量音乐数据集的学习、高效挖掘音乐语言的深层次规律,为作曲家快速提供创意方案、并智能化地生成音乐,能够在作曲家的“指令式”生产中进一步缩短制作时间、降本增效、提升整体质量。三种电影音乐生产方式的生产效率对比如图6所示。
AI音乐生成技术作为一种新质生产力,通过技术创新、资源配置和生产流程的优化、人机协作技能水平提升等方式提高全要素生产率,以此来实现经济效益的最大化,为产业高质量发展带来了新的机遇和挑战。
AIGC音乐工具已引发创作者对知识产权保护和生成内容原创性的担忧,尤其是音乐生成模型的训练数据来源备受争议。目前,多数商业平台未公布具体数据集来源,部分平台通过声明不会生成特定艺术家的音乐(如MusicFX和Suno)来规避侵权风险。在电影音乐领域使用AIGC工具时,需注重对创作者知识产权和经济利益的保护。行业应尽快完善有关规定法律和行业公约,明确音乐版权归属,保障创作者收益,避免制片方采用人机协作生成的电影音乐损害创作者经济利益的情况。
AI生成音乐质量的高低取决于数据、算法和算力。尽管AIGC音乐工具在提升内容生成质量和准确性方面具备很大潜力,但却存在数据驱动的音乐生成模型共有的局限性,体现在以下几方面。
模型生成音乐的能力受到训练数据集样本量和多样性的限制。实测中,一些AIGC工具在某些音乐流派和音乐风格上表现良好,但在缺少训练数据的流派和风格上质量不稳定且普遍缺乏对世界各国传统音乐的训练,而电影音乐从创意需求出发涵盖了各种音乐类型。只有当AIGC工具能够稳定生成高质量音乐、准确理解和执行人类创作者的指令时,才能在电影音乐生产的复杂应用场景中有效辅助作曲家。
目前的AIGC工具并不能完全产生人类创作者在指令中期望的结果。虽然用户在提示词中写明使用特定的乐器,但一些AIGC模型(例如MuseNet和Suno)有时却自动选择与用户提示不同的方式来生成音乐。因为模型通过计算所有可能的音符和乐器的概率来生成每个音符,所以智能体可能在“决策”后采取与人类输入指令不同的“行动”。
生成式人工智能作为一种新质生产力正推动和改变着整个数字视听内容产业, 各类AIGC工具和平台在电影音乐领域的应用已是大势所趋。虽然AI音乐生成技术在现阶段存在生成内容质量不稳定、面临技术局限、缺乏版权规范等多方面的问题,但AI学习并创造出在旋律、节奏、和声、多声部等方面达到人类水平的音乐是研发人员希望持续达到的目标。
清华大学教授尹鸿认为:“在各种未来的技术影响中,建立在互联网基础上的数字技术,特别是人工智能的提升,对电影制作领域会产生重大影响。” [15]是人适应工具还是工具适应人,始终是创作者需要思考的问题。新一代电影音乐创作者有必要拥抱变化、迎接挑战、防范风险。当然,传统生产方式在相当长一段时间会共存,一些享誉世界的电影作曲家依然采用传统方式来进行电影音乐生产,获得了市场的广泛认可。
AIGC工具的研发、应用和版权保护细则需要创作者群策群力、一同推动。目前很多AIGC应用场景的开发并不专门针对电影行业,电影和音乐从业者可将电影音乐的特点、需求(含生产需求和版权保护需求)传递给研发团队,使AIGC工具更有效地推动产业升级。
AIGC的设计目标应该始终对人类有利,对激发人类的创意有利。从行业发展的整体趋势来看,只有当人类学会与AI智能体对话,学习与AIGC工具协作,让AIGC工具帮助人类表达创意理念时,才能体现AIGC在创意内容生产中的真正价值。
①也有学者将Agent翻译为主体,例如王文敏教授在主编的《人工智能原理》中将Agent译为主体,将Intelligent Agent译为智能主体,参见《人工智能原理》2019年版,高等教育出版社出版。
②参见孙茂松院士在“2024中国生成式大会”上的演讲内容,演讲主题为《生成式人工智能:目前态势及近期挑战》。
[9] 王薇娜.人工智能音色转换模型可有效服务和促进电影创作生产[J].现代电影技术,2023(12):58⁃59.
[14] 习经济思想研究中心. 新质生产力的内涵特征和发展重点(深入学习贯彻习新时代中国特色社会主义思想[N].人民日报,2024-03-01(9)