“继ChatGPT之后,音乐或将成为AI内容生成的前沿领域。
作者:飞飞 |
【资料图】
编辑:唐诗 |
当地时间1月27日,谷歌发布全新AI模型——MusicLM。通过AI模型MusicLM,文字可以直接生成高保真的音乐。
这是继文字生成AI模型Wordcraft、视频生成工具Imagen Video之后,谷歌又一次推出生成式AI模型工具,这一次谷歌将目标瞄准了音乐领域。
透过MusicLM,不难看到,这两年生成式AI赛道正在迎来爆发。
01
MusicLM 挑战更复杂场景
谷歌最新推出的AI模型MusicLM,可直接将文字、图像自动生成音乐,并且曲风多样,凡是想听的音乐,基本都能自动生成。
MusicLM并非是第一个可自动生成音乐的AI模型,此前,可视化AI工具Riffusion也能自动创作音乐,还有Dance Diffusion,此外,当前最热门的聊天机器人ChatGPT的研发者OpenAI也推出过Jukebox。
但值得注意的是,这些可自动生成音乐的AI系统,受限于技术和数据等因素,创作的音乐都比较简单,相对而言并不复杂。
和前辈们不同的是,MusicLM可创作特别复杂和保真度特别高的音乐,也可通过图像生成音乐。这算是实现了全新突破,通过AI技术不仅可以识别乐器,融合音乐流派,还可以通过更抽象的概念生成音乐。
比如,想要街机游戏配乐,只要输入“街机游戏的主配乐,它节奏快且乐观”等文字,MusicLM便可自动生成音乐。MusicLM也可通过图像生成音乐,例如世界名作《呐喊》《格尔尼卡》《星空》等皆可作为素材来源。
不过,值得一提的是,目前谷歌只是发布了MusicLM的研究成果,因为版权等问题,谷歌还未向公众开放MusicLM。
02
AI生成音乐难在哪?
去年10月,谷歌在生成式AI模型上已经推出过AudioLM,只需输入短时音频,就能生成相似风格的音频。彼时AudioLM只是纯音频模型,这个技术类似于语言模型,根据提示的语音内容,自主判断并生成相似内容。
从这个角度看,AudioLM可视为是MusicLM的前身。AudioLM在不进行转录或标记的情况下,可以模仿音频的音色、响度和清晰度等。但是,AudioLM生成的音频和原版并无太大区别,并未得到公开应用。
通过AI模型创作音乐,这件事并不容易,因为生成的音乐包括音频信号、环境声音、人的声音等多个维度,是由很多信号相互作用形成的,而人体每次向外发出的声音,无论声音响度大小、音色好差,都由句法、音律等组成,这是非常复杂的综合性系统。
也恰恰是这些原因,在早期的探索过程中,自动生成的音频合成痕迹明显,声音听起来并不自然,发音也都不标准。因此AI模型要想实现真正意义上的自动生成音频,依靠海量的数据训练和模拟,是必不可少的基础性步骤。
针对这些挑战,作为AudioLM的“升级版”,MusicLM的训练数据更加庞大。据了解,谷歌在28万小时的音乐数据集中,才训练出MusicLM,为理解深度和复杂的音乐场景提供了基础。
此外值得一提的是,针对任务缺乏评估数据等问题,谷歌专门引入了MusicCaps,用于文本到音乐的生成任务评估。
03
生成式AI迎来爆发
此次谷歌推出MusicLM,可视为拓展AI应用的注脚,背后则是生成式AI赛道的爆发。事实上,生成式AI一直是近两年最炙手可热的话题。
2021年,OpenAI相继发布了划时代的DALL-E、DALL-E 2模型,实现了文本生成图像的跨越;去年,Meta发布了AI短视频生成模型Make-A-Video,同样可由文本内容生成视频;谷歌也发布了短视频AI生成模型Imagen Video与Phenaki。
不止是国外,国内也有很多生成式AI应用。比如,字节跳动旗下剪映APP,可根据文字内容自动生成匹配的视频画面。去年初,网易推出了“网易天音”,也是一站式AI音乐创作平台,可将用户编辑的内容通过AI自动生成为歌曲。
可以看到,生成式AI应用的场景越来越广泛,写作、绘画、剪视频等等,都可以通过AI技术实现。基于生成式AI广泛的应用前景,谷歌、微软、Meta等巨头们纷纷推进研发,将生成式AI技术融合到产品中,这加速了生成式AI赛道的爆发。
事实上,生成式AI高速发展并非是这两年的事,只是因技术门槛过高,其前沿动态一直在科技圈小范围流传。直到AI绘画、AI写作等频繁出圈,生成式AI得到了更广泛的关注。
生成式AI赛道爆发有必然原因,大数据和算法应用越来越成熟,模型工具越来越完善,这都加速了生成式AI应用的迭代。当前,生成式AI已经迎来爆发,未来还有巨大的发展潜力。根据Gartner统计数据,预计到2025 年,生成式AI将占所有生成数据的10%,而目前的比例还不到1%。
当然,任何技术都是一把“双刃剑”,生成式AI也面临着版权问题等挑战,此外还面临由AI生成“错误”引发的各种损失,就目前来看,还离不开人为干预。但长期而言,生成式AI巨大的发展潜力已经成为共识。
04
延伸阅读
1.彩云小梦
是一款小说续写软件,由北京彩彻区明科技有限公司开发运营,具备AI续写功能。
人物对话:可在软件内与自己创建的人物开启对话。
语音通话模拟:在人物详情页的语音通话按钮,或是在聊天页面点击打电话按钮,可开启语音通话。
AI续写:在输入一段文字后,选择软件内的AI小梦来帮写,便能自动续写内容。
续写内容分享:支持一键生成图片,提供保存或分享他人。
2.Stability AI
业内备受瞩目的AI独角兽企业,曾推出著名的Stable Diffusion开源模型,其在学术和工业界的AI研究和应用受到各界的广泛关注和肯定。
Stable Diffusion:类似DALL-E2系统,可通过文本描述生成对应的图像,允许任何人在没有监督情况下使用和构建其模型。
DreamStudio:由Stable Diffusion提供支持的新AI系统,可根据自然语言的描述创建逼真的图像、艺术和动画。
本文提供的信息仅用于一般指导和信息目的,本文的内容在任何情况下均不应被视为投资、业务、法律或税务建议。
本文首发于微信公众号:出新研究。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。
标签: MusicLM最近更新
- 行业前沿 | 谷歌发布AI前沿成果MusicLM,生成式AI迎来爆发2023-01-29
- 消息!不演了!深夜加钱1700万!再见吧湖人!2023-01-29
- 继去年暴跌后 特斯拉股价在2023年不到一个月里反弹50%-精彩看点2023-01-29
- “讯飞超脑2030计划”推动技术创新
软硬一体机器人关键技术取得突破2023-01-29 - GROOVE X 携“为爱而生”的LOVOT中国首秀2023-01-29
- 多重因素驱动港股行情修复,科技板块上涨弹性相对更强 全球观焦点2023-01-29
- “面包店给补贴了,那肉店呢?”|新动态2023-01-29
- 世界观速讯丨2023元宵节邳州艾山有什么活动?2023-01-29
- 雷军发问“大家的开工利是一般多少”,网友:一分没有!2023-01-29
- 481家海外媒体关注中关村福仔向全球华人送“福”2023-01-29
- 八步沙护林员:守护家园迎新春_新资讯2023-01-29
- 刷新观测纪录!云南超百只花头鹦鹉罕见同框_快看点2023-01-29
- “智慧大坝”让巡检变得轻而易举2023-01-29
- 数字技术赋能农业 团圆饭的味道有了科技支撑-世界速递2023-01-29
- “铁疙瘩”偏爱在-27.1℃里挨冻|观焦点2023-01-29
- 多吉顿珠喜赶“科技大集”2023-01-29
- 冷了加一层,热了脱一层,新型“变色龙”建材控温又节能|总编辑圈点2023-01-29
- 全新光学活性量子点机制发现_焦点速看2023-01-29
- 国家移民管理局:加快推进现代移民治理体系建设2023-01-28
- 松江区气象局发布霜冻黄色预警【Ⅲ级/较重】【2023-01-28】|新视野2023-01-28
- 全球微动态丨短视频和资讯类应用不存在筑茧效应,个性化推荐算法有利多样化信息获取2023-01-28
- 世界快看点丨花小猪打车怎么了?女孩深夜叫车被拒载,司机加价要求取消订单私下转账,客服电话难寻2023-01-28
- 一周涨超1.6万亿!特斯拉股价“站起来了”,马斯克却在被调查,什么情况?2023-01-28
- 春节假期全国揽投快递包裹量超7亿件|今日热议2023-01-28
- 赵优秀是谁演的_赵优秀2023-01-28
- 日内瓦Artgenève艺术展,数字气味结合管弦乐带来惊喜2023-01-28
- 奥尼尔谈八村塁:我甚至不知道TM那是谁 想夺冠应该交易来比尔-当前消息2023-01-28
- 徽州的年味是一首悦耳动听的歌 聚看点2023-01-28
- 全球快讯:远缘杂交成功!大白菜实现了“择偶自由”2023-01-28
- 速递!载人潜水器开辟我国深潜科研新领域2023-01-28