Как обработать голос?

Проблема синтеза речи из текста (Text-to-Speech, TTS) представляет собой одну из классических задач для искусственного интеллекта. Цель ИИ – автоматизировать процесс чтения текста, основываясь на наборах данных, содержащих пары «текст – аудиофайл».

Одной из важных проблем синтеза речи является задача создания образа голоса со всеми его характерными особенностями. Соответствующие наборы методик называют технологией клонирования голоса (англ. voice changing, voice cloning).

Решение указанной проблемы имеет множество практических приложений:

  • адаптация голосов актёров при локализации фильмов
  • озвучивание персонажей игр
  • голосовые поздравления
  • начитка аудиокниг, в том числе клонирование голосов родителей для сказок, прочитанных профессиональными дикторами
  • создание аудио- и видеокурсов
  • рекламные видеоролики и аудиореклама
  • голоса ботов и умных устройств, персонализированных голосовых помощников
  • синтез устной речи естественного звучания для немых людей, в том числе для людей, утративших возможность говорить из примеров их собственной речи
  • адаптация устной речи под модель местного акцента

Очевидно, что подобные технологии могут применяться с преступными целями: мошенничество, телефонное хулиганство, компрометирование в результате совмещения с технологией DeepFake. Поэтому кроме методов клонирования голоса важно разрабатывать средства для предотвращения незаконного использования технологии.

Для обучения системы необходимо иметь большое количество сопоставленных аудиозаписей и текстов. В случае голосов знаменитостей можно прибегать к помощи записей публичных выступлений, интервью, результатам творческой деятельности и т. п. В качестве текстовых пар могут применяться стенограммы или тексты, полученные в результате коррекции автоматически распознанной речи.

Отличительной особенностью последних разработок является то, что для создания правдоподобного образа «голосовой мишени» достаточно всё меньших интервалов звучащей устной речи.

Современное состояние

В сфере создания инструментов для клонирования голоса работают множество команд, стремящихся к коммерциализации программных продуктов. По приведённым ниже ссылкам вы можете оценить текущее состояние технологии:

  • Resemble.AI (предоставляется демоверсия программы).
  • iSpeech (есть демо для 27 языков, включая русский).
  • Lyrebird AI (можно загрузить демоверсию на 3 часа речи).
  • Vera Voice, созданный компанией Screenlife Technologies Тимура Бекмамбетова и командой проекта «Робот Вера». Недавно команда показала пример адаптации голосов русских знаменитостей:

Другие компании стараются обойти стороной этический вопрос за счёт использования вместо клонирования голоса нейросетевых систем синтеза-смешения множества голосов. Таким коммерческим продуктом является, например, Yandex SpeechKit.

В связи с тем, что данная технология представляет конкурентный интерес для множества IT-компаний, проекты с открытым исходным кодом крайне редки. В этой статье мы остановимся на редком свободном проекте Real-Time Voice Cloning. Этот открытый репозиторий является результатом применения технологии переноса обучения SV2TTS, описанной в научной публикации (сэмплы, полученные в результате применения подхода).

Автор библиотеки с июня 2019 участвует в упомянутом выше коммерческом проекте Resemble.AI и уделяет репозиторию меньше времени, но ничто не мешает вам сделать собственный форк проекта.

Алгоритм клонирования голоса

Чтобы компьютер мог читать вслух текст, ему нужно понимать две вещи: что он читает и как это произнести. Поэтому в проекте Real-Time Voice Cloning система клонирования принимает два входных источника: текст, который необходимо озвучить, и образец голоса, которым этот текст должен быть прочитан.

С технической точки зрения система разбита на три компонента:

  1. Переданный аудиофайл с образцом речи, записанным в виде звуковой дорожки, преобразуется кодером речи (speaker encoder) в векторное представление фиксированной размерности.
  2. Переданный текст также кодируется в векторное представлении кодером текста (text encoder). Объединение речевого вектора и вектора текста декодируется в спектрограмму. Кодер текста, конкатенатор векторов и декодер (на схеме объединены синим цветом) представляют собой структуру синтезатора речи.
  3. Вокодер (vocoder, виртуальное устройство синтеза речи) преобразует спектрограмму в звуковую форму.

Модели трёх выделенных компонентов обучаются независимо друг от друга.

Где взять данные?

Объёмы информации, необходимой для качественного обучения системы клонирования, составляют десятки и сотни Гб. В рассматриваемой библиотеке для хранения датасетов служит одна общая директория. Все сценарии предварительной обработки данных выводят результаты в новый каталог SV2TTS, создаваемый в корневом каталоге датасетов. Внутри этой директории появится каталог для каждой модели: кодера, синтезатора и вокодера.

Для обучения кодера речи можно обратиться к следующим библиотекам:

Для обучения синтезатор и вокодера:

  1. LibriSpeech: наборы данных train-clean-100 (зеркало) и train-clean-360 (зеркало) – извлеките как LibriSpeech/train-clean-100 and LibriSpeech/train-clean-360
  2. LibriSpeech alignments (только если у вас уже есть LibriSpeech): объедините структуру каталогов с загруженными вами наборами данных LibriSpeech

Официальным хостингом наиболее популярных наборов данных LibriSpeech служит openslr.org, который из-за популярности темы постоянно находится под существенной нагрузкой. Поэтому выше мы приложили ссылки на «зеркала» архивов.

Если вы решили с головой погрузиться в данную тему, обратите внимание на библиотеку Python для работы с аудиодатасетами audiodatasets:

pip install audiodatasets

Будьте осторожны: при установке библиотека загружает более 100 Гб данных трех наборов:

  • Librispeech (60 Гб)
  • TEDLIUM_release2 (35 Гб)
  • VCTK-Corpus (11 Гб)

Перечислим также другие датасеты, которые не проверялись в рассматриваемой библиотеке, но применимы для обучения, в том числе корпуса русскоязычной устной речи:

  1. Корпус речи англоговорящих людей CSTR VCTK
  2. Набор данных M-AILABS: имеются примеры речи на русском, украинском, немецком, английском, испанском, итальянском, французском и польском языках
  3. Корпуса звучащей русской речи
  4. Мультимедийный корпус русского языка: преимущественно фрагменты кинофильмов с распознанным текстом
  5. Подборка различных речевых датасетов

Использование предобученных моделей

Имеется инструкция по переносу проекта с помощью Docker, здесь мы рассмотрим установку на локальной машине. Учтите, что наличие GPU является обязательным. Клонируем репозиторий:

git clone https://github.com/CorentinJ/Real-Time-Voice-Cloning.git

В качестве языка программирования используется Python 3, автор рекомендует версию 3.7. В связи с тем, что репозиторий предполагает привлечение вполне конкретных версий библиотек, рекомендуем питонистам пускать в ход виртуальное окружение.

Переходим в папку и устанавливаем необходимые зависимости:

pip3 install -r requirements.txt

Также потребуется фреймворк глубокого обучения PyTorch (версия не ниже 1.0.1).

Далее необходимо загрузить предобученные модели (архив на Google drive, зеркало). Согласно с вышеописанной схеме загруженный архив содержит три директории для трех моделей. Их нужно слить вместе с соответствующими директориями корневого каталога библиотеки.

Проверить правильность конфигурации можно ещё до загрузки датасетов:

python3 demo_cli.py

Если все тесты пройдены (вы увидите строку All tests passed), можно двигаться дальше. Скрипт предложит указать пути к файлам примеров, но для работы удобнее обратиться кграфическому интерфейсу:

python3 demo_toolbox.py

Если у вас уже загружены датасеты, то можно сразу указать путь к директории:

python3 demo_toolbox.py -d <путь_к_директории_датасетов>

Чтобы просто поиграть с программой, достаточно наименьшего по объёму датасета LibriSpeech/train-clean-100 (см. выше).

Пример результата вызова интерфейса:

Для первой пробы вы можете нажать под каждым разделом кнопки Random , чтобы выбрать случайный аудиопример, затем Load, чтобы загрузить голосовой ввод в систему. Выпадающий список Dataset служит для выбора набора данных, Speaker – для выбора персоны, Utterance – для произносимой фразы. Чтобы услышать как звучит отрывок, просто нажмите Play. Для запуска алгоритма нажмите Synthesize and vocode. С помощью кнопки Record one можно записать свой собственный сэмпл.

Пример работы с интерфейсом без обучения нейросетей представлен в следующем видеоролике:

Процесс обучения

Вместо предобученных моделей можно также задействовать модели, обученные на других примерах. Процесс обучения происходит посредством последовательного запуска скриптов той же библиотеки. Для того, чтобы узнать дополнительную информацию о каждом из скриптов, при используйте запуске из командной строки добавляйте аргумент -h.

Начинаем с подготовки данных для обучения кодера:

python3 encoder_preprocess.py <datasets_root>

Для обучения кодер использует окружение visdom. Инструменты окружения выглядят следующим образом:

При необходимости вы можете отключить окружение с помощью аргумента —no_visdom .

Обучаем кодер:

python3 encoder_train.py my_run <datasets_root>

Далее запускаем два скрипта, генерирующих данные для синтезатора. Начинаем с аудиофайлов:

python3 synthesizer_preprocess_audio.py <datasets_root>

Затем вложения:

python3 synthesizer_preprocess_embeds.py <datasets_root>/synthesizer

Теперь вы можете обучить синтезатор:

python3 synthesizer_train.py my_run <datasets_root>/synthesizer

Синтезатор будет выводить сгенерированные аудио и спектрограммы в каталог моделей. Используем синтезатор для генерации обучающих данных вокодера:

python3 vocoder_preprocess.py <datasets_root>

Наконец, обучаем вокодер:

Paulina Steel,

sound designer.

Итак, после того как сделана эквализация вокала, можно приступить к его динамической обработке. Поскольку наши статьи рассчитаны на широкого читателя, хочется начать эту главу с небольшого разбора явления динамики. Интересно, что когда людям, только начинающим свой музыкальный путь, мы задавали вопрос, что же такое динамика в музыке в их понимании, то каждый из них отвечал по-разному, имея в виду что-то свое, зачастую субъективное. Среди ответов часто встречались: скорость, напряжение, движение, драматизм и т.п. На самом же деле, динамика напрямую не имеет отношения к этим понятиям. Динамика связана с громкостями, а именно: с их разницей в ходе композиции. По сути в академической музыке динамика обозначается f и p (форте и пиано и их градациями).

Что касается динамической обработки вокала, здесь речь пойдет о работе со значительно меньшими величинами, нежели те, что обозначаются в классической музыке, отчего имеющий дело с этой обработкой должен проявить незаурядную скрупулёзность. Итак, как уже было сказано выше, речь пойдет о громкостях, исходя из этого показательно, что основной параметр приборов динамической обработки выражен в следующих единицах — Дб. Какими же приборами можно воспользоваться для динамической обработки акапеллы?

— gate

— de-Esser

— compressor

Разберем, что в отношении вокала может дать нам каждый из них.

Gate ограничивает сигнал в зависимости от уровня входного сигнала. В нем есть некая пороговая величина (threshold), которую звукорежиссер выставляет сам и которая выражена в Дб. Все, что тише этой величины не будет пропускаться гейтом, проще говоря — обрежется.

На вокале гейт используется не слишком часто, больше в случаях, связанных с реставрацией. Работа его достаточно грубая, сильно заметна на таком нежном инструменте как вокал, поэтому рекомендуем включать в цепь гейт лишь в крайних случаях и с особой осторожностью.

Для чего же он нам может пригодиться? В случае если вокал записан в не очень профессиональных условиях и мы отчетливо слышим между словами фоновые и посторонние шумы и в случае, если вокалист имеет дурные привычки чавкать, причмокивать и громко дышать между словами. В гейте можно выставить порог таким образом, что все звуки более тихие, чем основной сигнал, не будут пропускаться. В нашем случае основной сигнал — это вокал, он самый громкий, все остальное-значительно тише, хотя, разумеется, тут все зависит от исполнителя. Стоит обратить внимание, что гейт может обрезать слишком грубо, в таком случае следует попробовать изменить в сторону увеличения показатель release (время восстановления сигнала). Также обязательно нужно послушать обработанную гейтом акапеллу от начала до конца и без музыки. Следует иметь в виду, что человек по своей природе начинает и заканчивает слова тише, чем произносит их по середине, то же с началом и концом фраз, а значит гейт при неаккуратно выставленном пороге может срезать у вокалиста все окончания слов. В случае с громким дыханием человека использование гейта может оставлять за собой нежелательные рудименты.

De-Esser. Из названия ясно, что прибор этот работает на устранение излишков в шипящих и свистящих звуках. По сути это полосовой компрессор, работающий начиная от частоты 2k. У каждого человека своя диктиция и особенности речевого аппарата, которые могут быть наиболее заметны в сфере произношения шипящих. Плюс существует множество ‘верхастых’ микрофонов, которые особенно чувствительны в той же сфере. Все это в купе может давать удручающие последствия в сфере звуков ‘с’,’ш’,’щ’,’ч’. Порой сначала этих последствий может быть не слышно, но после использования эквалайзера и компрессора, они становятся очень явными.

Чаще всего в цифровых ди-эссерах есть пресеты типа Male vocal или Female vocal. В большинстве случаев они нуждаются в корректировке частоты, на которой он работает, порога срабатывания и ширины полосы. Также следует помнить о неповторимости дикции каждого человека, поэтому настройки ди-эссера в каждом случае индивидуальны.

Зачастую де-эссер как средство сглаживания шипящих вообще не используется, особенно в современной западной музыке. Такой подход также имеет право на жизнь и зависит от вкуса и слуха звукорежиссера.

Де-эссер может также использоваться для смягчения тембра голоса в диапазоне частот от 2k до 4k. У людей, обладающих резким тембром или не слишком профессиональных вокалистов при громком пении и речи зачастую заметен явный подъем в этом диапазоне так называемой второй форманты. В случае, если звукорежиссер решит сгладить его с помощью эквалайзера, это повлияет на весь сигнал, даже в тех местах, где это не нужно. В то время как ди-эссер позволяет смягчить именно те участки акапеллы, которые в этом нуждаются, за счет правильного подбора уровня порога.

Неумелой работой с этим прибором можно случайно сделать вокалиста шипилявым или чересчур глухим. Поэтому следует кропотливо подбирать глубину порога, а также аккуратно относиться к степени сжатия.

В цепи гейт и ди-эссер ставятся, как правило, в разрыв до эквалайзера и компрессора соответственно.

Compressor. Обычно ставится в разрыве цепи после эквалайзера, но существует множество точек зрения по этому поводу, и полемику в этом вопросе можно считать незавершенной.

Компрессор, как средство сжатия динамического диапазона как бы усредняет громкость акапеллы, приводя ее приблизительно к одному уровню. Этот уровень и есть порог (threshold) компрессора, который должен верно подобрать звукорежиссер. Если пороговая величина слишком высока, то вокал вообще не будет скомпрессирован, а если она слишком глубока, то будет наоборот пережиматься, что повлечет за собой эффекты перегруза на сигнале.

Если в композиции разные части спеты или прочитаны достаточно отличающимися уровнями и это входит в общую музыкальную концепцию песни, то следует разделить все более тихие и более громкие части по отдельным дорожкам и обрабатывать их соответственно различными компрессорами со своими уровнями порога, а возможно, вообще с различными настройками.

Есть несколько наиболее распространенных подходов к компрессии вокала:

— ‘естественная’ компрессия

— сильная и заметная компрессия

При естественной компрессии вокальная партия сохраняет свой характер. Работа компрессора в этом случае практически незаметна и служит своей прямой цели — сглаживанию пиков. Если стоит задача оставить вокалиста как можно более ‘живым’ и воздушным, то в компрессоре используется очень быстрая атака и очень быстрый релиз, при этом пороговая величина очень высока. В случае если эта величина будет чрезмерно занижена, то голос будет больше ужиматься, в голосе возникнет носовой призвук.

Сильная и заметная компрессия служит для изменения характера партии. Например, если вокал или речь вялые, неубедительные, с помощью средней атаки, довольно глубокого порога и степени сжатия компрессора можно сделать их более акцентированными и экспрессивными. Если сделать значения атаки, релиза прибора слишком большими, а порог достаточно занизить , то можно случайно сместить ударения в словах.

Бывает и такое, что на одной вокальной дорожке используется два компрессора: первый — для выделения акцентов, второй — для общего выравнивания партии или наоборот (последовательная компрессия).

Возможные манипуляции с приборами динамической обработки имеют широкое поле для творчества звукорежиссера. Работа динамических приборов, а особенно компрессора очень тонка и неопытному человеку может быть неслышна. В связи с этим главным в подходе к компрессии также как и в других видах обработки является главная заповедь звукорежиссера — не навредить.

ПРОДОЛЖЕНИЕ СЛЕДУЕТ….

Каким бы качественным не был диктофон, практически всегда требуется последующая обработка голоса. На записи могут присутствовать шум или посторонние звуки, громкость голоса может плавать или быть недостаточной, а сам голос бубнить. Поэтому, если вы готовите запись для последующего прослушивания или, например, для озвучивания ролика на ютубе, то обработка голоса крайне желательна .

Рассмотрим быстрый способ, как может быть осуществлена обработка голоса самостоятельно. Основной акцент будет уделен выделению речи на записи. Но даже если цель не только в речи, после прочтения вам не должно составить труда улучшить качество любой записи.

Обработку звука лучше производить в наушниках. Желательно, чтобы это были не купленные в переходе за 50 рублей наушники. В идеале желательно использовать мониторные наушники, но подойдут и просто нормальные наушники.

Если ваши наушники сломались и нужно срочно их починить, то сделать это можно даже без паяльника. Как? -Читаем в статье: Ремонт наушников голыми руками, без паяльника!

Заказать обработку

Если вам не хватает времени или нет желания вникать, то вот отличный сервис — Kwork. Я и сам им часто пользуюсь. Это проверенная биржа фриланс-услуг. Тут за небольшую плату, Вы можете выбрать профессионального исполнителя для обработки вашей записи или других услуг.

Audacity — бесплатная программа для обработки голоса

Обработка голоса — это редактирование аудиофайла. Поэтому первым делом обзаведемся программой для работы со звуком. Работать будем в бесплатном, но при этом очень функциональном аудиоредакторе — Audacity. Программа доступна под все операционные системы и очень проста в использовании.

Бесплатно скачать Audacity для любой ОС можно .

Интерфейс редактора интуитивно понятен и даже методом тыка можно очень быстро натыкать то, что вам нужно. Осталось только узнать, а что собственно нужно.

Если в записи присутствует мат, который нежелателен, то исправить ситуацию поможет статья: Запикивание мата в записи

Обработка голоса — импорт записи

Итак, имеем запись, в каком либо аудио формате. Первым делом открываем ее в Audacity. Можно сделать это кнопочкой Импортировать из меню Файл редактора, но мне как-то привычнее нагло перетащить файл мышкой из папки в окно редактора.

Для демонстраций был взят кусочек записи длительностью чуть более минуты. Такой, чтобы умещался на экране. На нем демонстрация будет нагляднее. При этом ему присущи все недостатки обычных диктофонных записей.

Нормировка уровня громкости

Чтобы повысить качество звука, первым делом необходимо увеличить громкость записи. Для этого двойным щелчком левой кнопки мыши по дорожке (либо комбинацией Ctrl+a) выделяем ее. Затем открываем вкладку меню Эффекты и выбираем пункт Нормировка сигнала…

После нажатия, откроется меню настройки эффекта:

Стандартные настройки нас вполне устроят. В окошке указывается значение громкости, которое будет у самого громкого пика вашей записи. Нормировка повысит уровень громкости записи, никак больше не влияя на запись.

У всех инструментов редактора Audacity есть кнопка Preview, т.е. Предпросмотр, или скорее Предпрослушивание. При нажатии на нее воспроизводится первые 5 секунд выделенного участка записи с применением эффекта.

Удаляем лишние звуки и щелчки

Уровень громкости подрос, но как-то не солидно. Виной всему щелчок в самом начале. Можно попросту заглушить его. Для этого приближаем его и выделяем:

Удобно менять масштаб зажимая Ctrl и крутя колесиком мыши, а для перемещения по записи влево-вправо крутя колесиком зажимать Shift.

Я специально захватил на картинке временную шкалу, чтобы показать, что длительность пика около 0.1 секунды. Для того чтобы заглушить выделенное нажимаем в панели инструментов кнопочку (либо комбинацию Ctrl+L):

Редактор моментально сровняет пик с землей в идеально прямую линию нулевой громкости:

Можно и удалить это кусочек просто нажав на клавиатуре Delete. Но в таком случае выделенная часть дорожки удалится, а общая длительность сократится. Если запись готовится для озвучивания видео на ютубе, удаление посредством Delete может привести к сдвигу дорожки.

Удалив щелчок, повторяем Нормировку сигнала и получаем уже более солидный результат:

В Audacity есть удобная комбинация клавиш Ctrl+R, нажатие которой повторяет последний использованный эффект. При этом эффект повторяется с теми же самыми настройками.

Нормировка сигнала это просто его усиление на одинаковую величину. Усиление подбирается так, чтобы места с максимальной громкостью довести до указанного вами значения. При этом усиливается всё — как полезный сигнал так и фоновый шумок.

Как удалить шум в записи

Обработка голоса неминуемо требует удаление шума. Делается это в два этапа. Сначала нужно создать модель шума, для того чтобы программа знала от чего нужно избавляться. Поэтому находим в записи кусочек, где нет полезной информации, а только то, что мы считаем шумом и выделяем этот участок.

Желательно, чтобы он был как можно длиннее, тогда получится более полно удалить шум из записи.

Теперь в меню Эффекты выбираем Подавление шума… Вверху открывшегося окошка видим и нажимаем единственную кнопочку — Создать модель шума.

На этом окошко закроется… Отлично! Модель шума создана. Теперь выделяем всю запись и вновь заходим в меню Эффекты→Подавление шума…

Откроется тоже самое окно, но теперь можно перейти к этапу 2. Настройки по дефолту подойдут для большинства случаев. Хотя с последним ползунком лучше поэкспериментировать. Жмем ОК, повторяем нормировку и любуемся результатом:

Если сравнить с тем как дорожка выглядела до удаления шума, то можно легко заметить, что постоянная составляющая практически полностью исчезла. Все тихие места стали еще тише, практически занулились. Да и на слух это звучит на порядок лучше.

Для большего кругозора стоит отметить что подавление на каждые 6дБ это ослабление в два раза., а 3дБ это полтора раза. Если Ваша запись очень шумная и в ней присутствуют разные типы шумов в разных частях, то можно повторить процедуру с момента создания модели шума. При этом кусочек который будет выделен как модель шума взять в другом месте записи. А в окошко Подавление шума(дБ) вписать от 3 до 6дБ. Излишнее подавление может внести ‘замыленность’ в звук. Так же, зачастую, гораздо эффективнее несколько раз подавить шум по 3дБ, создавая модель шума из разных участков записи, чем один раз бухнут 15 дБ.

Эквализация — выделяем голос на записи

Так как нас интересует именно речь, то можно дополнительно выделить ее при помощи эквалайзера. Переходим Эффекты→Эквалайзер…

Тему эквализации просто невозможно раскрыть двумя абзацами, поэтому по ней была написана отдельная статья: Эквализация записи голоса в Audacity

Если уж совсем в двух словах, то речь, как мужская так и женская укладываются в диапазон 200-7000 Гц. Большинство шумов, как правило, лежит выше это диапазона, а гудение — ниже. Поэтому громкость остальных частот стоит снизить ввиду их неинформативности и даже паразитности.

Подобная форма эквалайзера возможно подойдет при обработке на скорую руку. Но все очень сильно зависит от того, как и на что производилась запись. Поэтому рекомендую все-же заглянуть в статью про эквализацию.

Компрессия

Обработка голоса всегда включает в себя выравнивание записи по громкости. В принципе можно вручную выделять кусочки и применять к каждому Нормировку. Это достаточно эффективный способ, но весьма долгий. Да и не зря же люди придумали такую полезную штучку, как Компрессор. Им то мы и воспользуемся 🙂

Выделяем всю запись и переходим в меню Эффекты => Компрессоры…

Такие настройки должны подойти большинству. Смысл компрессора в том, что тихие моменты он усиливает а громкие ослабляет и тем самым выравнивает громкость. Посмотрим на результат работы компрессора:

Запись явно преобразилась. Начало записи можно сделать еще громче. Выделим отдельно и повторим компрессию либо нормировку — на Ваш вкус.

Экспорт и сохранение

Для того чтобы сохранить обработанную запись в виде аудио файла перейдите в Файл→Export

В открывшемся окне следует указать название файла и выбрать его формат. Можно экспортировать запись в любой популярный аудиоформат, с указанием качества. Для большинства случаев подойдет MP3 с постоянным битрейтом 320 Кбит/с.

Если Вы не успели завершить обработку а вам пора бежать по делам, то можно сохранить проект. Для этого служит пункт меню Файл→Сохранить Проект. Сохраненный проект можно открыть в любое время и продолжить работу. Это особенно актуально, если у вас много дорожек.

Вернемся к первоисточнику для сравнения

Как говорится, найдите 10 отличий….

Заключение

Конечно можно продолжить пытать запись. Еще раз удалить шумы, которые могли вылезти после компрессии, произвести еще большую компрессию чтобы еще улучшить качество звука записи…

Но стоит помнить, что излишняя компрессия может сделать звук зажатым и лишить динамики. Однако решение в любом случае остается за вами и вкусами вашего слухового органа)

Если у Вас не получается обработать запись, то вы всегда можете обратиться за помощью на биржу фриланс услуг.

Материал подготовлен исключительно для сайта AudioGeek.ru

В этом материале вы узнаете, мощный трюк, который расскажет вам – как сделать вокал более четким и лучше читаемым в треке используя согласные и автоматизацию. Привет с вами bigsong, если вы похожи на большинство моих читателей, то вероятно из-за всех сил стараетесь заставить ваш вокал прорезать микс, и в этом вы не одиноки. Так как это одна из самых сложных частей процесса сведения, и трюк, которым я поделюсь с вами сегодня существенно облегчит вам жизнь. Но прежде чем я вам его расскажу и покажу, мне хочется объяснить почему это действительно работает.

Согласные – это основа вокала.

Ключ к тому чтобы вокал прорезал микс-это согласные. «K» «Б» «П» это ударные транзиентные звуки в вокальном исполнении. Эти транзиенты или согласные на самом деле позволяют вокалу быть ясно услышанным в миксе. Именно их использует наше ухо для идентификации вокала в миксе.

Таким образом ключ к тому чтобы вокалы прорезались это усилить транзиенты и манипулировать этими согласными. Т.е. если мы немного при подымим их, то добавим ясности присутствия вокалу.

Здесь у меня есть созданный мною минус и вокал, который я нашел в интернете. И я хочу показать вам как сделать вокал более ясным и разборчивым в миксе.

Но давайте сперва послушаем с чего мы начнем. Это сырая вокальная дорожка. Я нашел его в интернете в таком виде.

Я эквализировал вокал и сделал небольшую обработку, а т.е. добавил плагин Nectar 3 и Pitcher, но пока не применял трюк, который собираюсь вам показать. Давайте послушаем.

Это не ужасно, лид вокал звучит достаточно четко. Я имею ввиду, что мы слышим слова, но мне чего-то не хватает. У вокала не хватает больше ясности и разборчивости. Я не могу разобрать слова настолько ясно насколько мне бы хотелось.

И так что я сделал.

Сначала я перешел в микшер на канал вокала и добавил Fabfilter Pro-L (лимитер) и на ручку Gain я сделал автоматизацию. После чего я перешел в плейлист Fl Studio и прошелся по всему вокалу чтобы все согласные такие как K, Б или П звучащие прямо в начале ноты или слова сделать их громче. И сделал это довольно агрессивно. Таким образом средний уровень вокала был +5dB, я отрезал эту согласную и усилил её до +11 dB, т.е. усилил её на +6dB. После чего я прошёлся по всему вокалу и приподнял уровень всех согласных.

Теперь снова проиграю этот трек с усиленными согласными, а потом переключусь на обычные и мне хочется, чтобы вы услышали четкость и разборчивость вокала отдельно от трека и вместе с миксом. Давайте послушаем.

Я действительно ясно слышу эти согласные. Для меня это значительная разница. Это одна из тех деталей к которой вы можете прийти в процессе сведения. Пройдитесь по всему вокалу и убедитесь, что все согласные четко слышны, это добавит разборчивости и присутствия вокала в ваших миксах.

Теперь главное, что я хочу здесь отметить. Когда я занимаюсь этим, то слышу вокал в контексте с остальной частью микса. Я не солирую вокал и не слушаю его отдельно. Я слушаю как вокал сидит в миксе. И очень часто в процессе если вы избегаете кнопки solo, то обнаружите что работаете более агрессивно т.е. усиливаете эти согласные немного больше, чем если бы включили вокал в соло и это нормально.

Потому что единственное что имеет значение. Это то как вокал сочетается со всем остальным и в этом случае я обнаружил что, применяя более агрессивное усиление я получаю в звучании ясность, которую искал.

Если вам понравился этот трюк, и вы хотите знать больше, я рекомендую подписаться на наш сайт и получать в дальнейшем еще больше полезной информации.

7,049 просмотров всего, 3 просмотров сегодня

2+ 0 0 0 0 0 0 Всего 0 Спасибо, что поделился

Этим ты помогаешь нам и своим друзья развиваться!

За это мы дарим тебе большую скидку в 50% на покупку эксклюзивных сэмплов и лупов в нашем магазине по купону: Spasibo_50 Скопируй этот купон и вставь при оформлении заказа и получишь скидку в 50%.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *