Независимо от того, описываете ли вы звук своего неисправного автомобильного двигателя или мяуки, как кошка вашего соседа, имитация звуков вашим голосом может быть полезным способом передать концепцию, когда слова не делают уловку.
Вокальная имитация – это звуковой эквивалент рисования быстрого изображения, чтобы сообщить что -то, что вы видели – за исключением того, что вместо использования карандаша для иллюстрации изображения вы используете свой вокальный тракт, чтобы выразить звук. Это может показаться трудным, но это то, что мы все делаем интуитивно: чтобы испытать это для себя, попробуйте использовать свой голос, чтобы отразить звук сирены скорой помощи, вороны или колокола.
Вдохновлена когнитивной наукой о том, как мы общаемся, исследователи в области компьютерных наук и искусственного интеллекта (CSAIL) разработали систему ИИ, которая может создавать человеческие вокальные имитации без обучения, и даже не «слышал» вокальный впечатление от человеческого вокала раньше. Полем
Чтобы достичь этого, исследователи спроектировали свою систему для производства и интерпретации звуков так же, как и мы. Они начали с построения модели человеческого вокального тракта, которая имитирует, как вибрации из голосовой коробки формируются горлом, языком и губами. Затем они использовали когнитивно-вдохновленный алгоритм ИИ, чтобы управлять этой моделью голосового тракта и создания имитации, принимая во внимание специфичные для контекста способы, которыми люди предпочитают передавать звук.
Модель может эффективно забрать много звуков из мира и генерировать человеку, подобную человеку,-включая звуки, такие как листья, шипение змеи и приближающуюся сирену скорой помощи. Их модель также может быть запущена в обратном направлении, чтобы угадать реальные звуки от человеческого вокального имитации, аналогично тому, как некоторые системы компьютерного зрения могут получать высококачественные изображения на основе эскизов. Например, модель может правильно различить звук человека, имитирующего «мяу» кошки против «шипения».
В будущем эта модель потенциально может привести к более интуитивным «имитационным» интерфейсам для звукоза дизайнеров, более человеческим персонажам ИИ в виртуальной реальности и даже методам, чтобы помочь студентам изучать новые языки.
Авторы со-лидеров-аспиранты MIT CSAIL Kartik Chandra SM ’23 и Карима Ма, а также исследователь бакалавриата Мэтью Карена-отмечают, что исследователи компьютерной графики давно признали, что реализм редко является конечной целью визуального выражения. Например, абстрактная живопись или карандаш для ребенка могут быть столь же выразительными, как и фотография.
«За последние несколько десятилетий достижения в области набросков алгоритмов привели к новым инструментам для художников, достижениям в области искусственного интеллекта и компьютерного зрения и даже более глубокого понимания человеческого познания», – отмечает Чандра. «Точно так же, как эскиз-это абстрактное, нефотореалистическое представление изображения, наш метод отражает абстрактный, нефоновый–Реалистичные способы, которыми люди выражают звуки, которые они слышат. Это учит нас процессу слуховой абстракции ».
Воспроизвести видео
«Цель этого проекта состояла в том, чтобы понять и вычислительно моделировать вокальную имитацию, которую мы предпринимаем, чтобы быть видом слухового эквивалента набросков в визуальной области», – говорит Карен.
Искусство имитации в трех частях
Команда разработала три все более нюансированные версии модели для сравнения с человеческим вокальным имитациями. Во-первых, они создали базовую модель, которая просто была направлена на создание имитаций, которые были как можно более похожи на реальные звуки, но эта модель не очень хорошо соответствовала человеческому поведению.
Затем исследователи разработали вторую «коммуникативную» модель. По словам Карена, эта модель рассматривает то, что отличается от звука для слушателя. Например, вы, скорее всего, подражаете звуку моторной лодки, имитируя грохот его двигателя, поскольку это его наиболее характерная слуховая особенность, даже если это не самый громкий аспект звука (по сравнению с, скажем, сплеском воды). Эта вторая модель создала имитации, которые были лучше, чем базовая линия, но команда хотела улучшить ее еще больше.
Чтобы сделать их метод на шаг вперед, исследователи добавили окончательный уровень рассуждений в модель. «Вокальные подражания могут звучать по -разному в зависимости от количества усилий, которые вы вкладываете в них. Это стоит времени и энергии, чтобы произвести звуки, которые являются совершенно точными », – говорит Чандра. Полная модель исследователей учитывает это, пытаясь избежать очень быстрых, громких, громких или высоких или низко-пронзительных, которые люди с меньшей вероятностью будут использовать в разговоре. Результат: больше человеческих подражаний, которые тесно соответствуют многим решениям, которые люди принимают, когда имитируют одни и те же звуки.
После построения этой модели команда провела поведенческий эксперимент, чтобы увидеть, были ли воспринимаемые AI или человеческие имитация вокала воспринимаются как лучше. Примечательно, что участники эксперимента предпочитали модель ИИ в 25 процентах времени в целом, и до 75 процентов за имитацию моторной лодки и 50 процентов для подражания выстрелу.
К более выразительной звуковой технологии
Увлеченные технологиями для музыки и искусства, Карен предполагает, что эта модель может помочь артистам лучше сообщать звуки в компьютерные системы и помочь режиссерам и другим создателям контента в создании звуков ИИ, которые более нюансы в определенном контексте. Это также может позволить музыканту быстро искать звуковую базу данных, имитируя шум, который трудно описать, скажем, в текстовой подсказке.
Тем временем, Карен, Чандра и М.А. смотрят на последствия своей модели в других областях, включая развитие языка, как младенцы учатся говорить, и даже имитационное поведение у птиц, таких как попугаи и певчих птиц.
Команда все еще имеет дело с текущей итерацией их модели: она борется с некоторыми согласными, такими как «Z», что привело к неточным впечатлениям некоторых звуков, таких как гудящие пчелы. Они также не могут повторить, как люди подражают речи, музыке или звукам, которые имитируются по -разному на разных языках, как сердцебиение.
Профессор лингвистики Стэнфордского университета Роберт Хокинс говорит, что язык полон ономатопеи и слов, которые имитируют, но не полностью воспроизводят то, что они описывают, например, звук «мяу», который очень некаченный приближает звук, который издают кошки. «Процессы, которые заставляют нас от звука настоящей кошки к слову, как« мяу », рассказывают много о запутанном взаимодействии между физиологией, социальными рассуждениями и общением в эволюции языка», – говорит Хокинс, который не был вовлечен. В исследовании CSAIL. «Эта модель представляет собой захватывающий шаг в направлении формализации и тестирования теорий этих процессов, демонстрируя, что для объяснения распространения вокальных имитаций необходимы как физические ограничения от человеческого вокального тракта, так и социального давления от общения».
Caren, Chandra и MA написали статью с двумя другими филиалами CSAIL: Джонатан Раган-Келли, профессор электротехники и когнитивных наук и Центр компьютерных наук и Центр мозгов, умов и машин. член. Их работа была частично поддержана Фондом Герца и Национальным научным фондом. Он был представлен в Siggraph Asia в начале декабря.