- Речь в речь. Создаем нейронную сеть, которая подделывает голос
- Содержание статьи
- Генерация голоса
- Текст в речь
- Звуки в речь
- Речь в речь
- Создание поддельного голоса
- Продолжение доступно только участникам
- Вариант 1. Присоединись к сообществу «Xakep.ru», чтобы читать все материалы на сайте
- Как сломать голос школьнику? Ответ актёра озвучания
- Что такое ломка голоса?
- Опасно ли ломать голос?
- В каком возрасте происходит ломка голоса?
- Как долго ждать пока голос сломается?
- Не лучше ли подождать?
- Горло болит после того, как поделал упражнения. Так и должно быть?
- Когда ломается голос, это навсегда?
- А у девушки тоже голос станет грубым, если она будет делать упражнения для ломки голоса?
- Как починить голос?
- Какие упражнения использовать?
- Обработка аудио для ютуба и стримов: как сделать дикторский голос программными средствами
- Содержание
- Содержание
- Общие советы
- Обрабатываем звук для оффлайн-видео
- Обрабатываем звук в онлайне
- Дайте послушать результаты!
Речь в речь. Создаем нейронную сеть, которая подделывает голос
Содержание статьи
Генерация голоса
Голос человека — результат движения связок, языка, губ. В распоряжении компьютера только числа, изображающие записанную микрофоном волну. Как же компьютер создает звук, который мы можем услышать из динамиков или наушников?
Текст в речь
Один из самых популярных и исследованных методов генерации звуков — прямое преобразование текста, который нужно воспроизвести, в звук. Самые ранние программы такого рода склеивали отдельные буквы в слова, а слова — в предложения.
С развитием программ-синтезаторов набор заранее записанных на микрофон фонем (букв) стал набором слогов, а затем и целых слов.
Преимущества таких программ очевидны: они просты в написании, использовании, поддержке, могут воспроизводить все слова, какие только есть в языке, предсказуемы — все это в свое время стало причиной их коммерческого использования. Но качество голоса, созданного таким методом, оставляет желать лучшего. Все мы помним отличительные черты такого генератора — бесчувственная речь, неправильное ударение, оторванные друг от друга слова и буквы.
Звуки в речь
Этот способ генерации речи относительно быстро заменил собой первый, поскольку лучше имитировал человеческую речь: мы произносим не буквы, а звуки. Именно поэтому системы, основанные на международном фонетическом алфавите — IPA, более качественны и приятны на слух.
В основу этого метода легли заранее записанные в студии отдельные звуки, которые склеиваются в слова. По сравнению с первым подходом заметно качественное улучшение: вместо простого склеивания аудиодорожек используются методы смешивания звуков как на основе математических законов, так и на основе нейронных сетей.
Речь в речь
Относительно новый подход полностью основан на нейронных сетях. Рекурсивная архитектура WaveNet, построенная исследователями из DeepMind, позволяет преобразовывать звук или текст в другой звук напрямую, без привлечения заранее записанных строительных блоков (научная статья).
Ключ к этой технологии — правильное использование рекурсивных нейронов Long Short-Term Memory, которые сохраняют свое состояние не только на уровне каждой отдельной клетки нейронной сети, но и на уровне всего слоя.
Схема работы WaveNet
В целом эта архитектура работает с любым видом звуковой волны, вне зависимости от того, музыка это или голос человека.
На основе WaveNet есть несколько проектов.
- A WaveNet for speech denoising — уничтожение шумов в записи голоса;
- Tacotron 2 (статья в блоге Google) — генерация звука из мел-спектрограммы;
- WaveNet Voice Enhancement — улучшение качества голоса в записи.
Для воссоздания речи такие системы используют генераторы звуковой нотации из текста и генераторы интонаций (ударения, паузы), чтобы создать натурально звучащий голос.
Это самая передовая технология создания речи: она не просто склеивает или смешивает непонятные машине звуки, но самостоятельно создает переходы между ними, делает паузы между словами, меняет высоту, силу и тембр голоса в угоду правильному произношению — или любой другой цели.
Создание поддельного голоса
Для самой простой идентификации, про которую я рассказывал в своей предыдущей статье, подойдет практически любой метод — особенно удачливым хакерам может хватить даже необработанных пяти секунд записанного голоса. Но для обхода более серьезной системы, построенной, например, на нейросетях, нам понадобится настоящий, качественный генератор голоса.
Продолжение доступно только участникам
Вариант 1. Присоединись к сообществу «Xakep.ru», чтобы читать все материалы на сайте
Членство в сообществе в течение указанного срока откроет тебе доступ ко ВСЕМ материалам «Хакера», позволит скачивать выпуски в PDF, отключит рекламу на сайте и увеличит личную накопительную скидку! Подробнее
Источник
Как сломать голос школьнику? Ответ актёра озвучания
Перед вами эксперт по постановке голоса и развитию его звучания – Егор.
— Подскажите, как сломать голос школьнику?
— Да изи ваще! Делать Штробас, издавать звуки как ишак, мычать, и делать упражнения на прокачку диафрагмы
— О, вы такой умный! Как вы об этом узнали?
— Да я просто обучался этому на протяжении почти всей своей жизни.
— Ого! А были ли У ВАС ученики?
— Ага. Школьники в комментариях. Там не только ученики. Там ещё и учителя бывали.
— А какие вопросы они Вам задавали?
А были в тех комментариях следующие часто задаваемые вопросы:
3. В каком возрасте происходит ломка голоса?
4. Как долго ждать, когда сломается голос?
5. Не лучше ли подождать, чтобы он сломался сам?
6. Моё горло болит после того, как я сделал упражнения. Так и должно быть?
7. Когда голос сломается. Это навсегда?
8. А у девушки тоже голос станет грубым, если она будет делать упражнения для ломки голоса?
10. Упражнения, которые можно делать
Что такое ломка голоса?
Представь, что ты кушаешь курочку. У неё есть кожица, кости и хрящи. И точно такие же хрящики есть и в нашем организме. В нашем горле. И когда мы растём, то эти хрящи формируются. Обычно они это делают в пубертатный период, когда появляются первые волосы на подмыхах и на лобке.
Опасно ли ломать голос?
Все упражнения – это упражнения для актёров озвучания, дикторов и певцов.
Они безвредны в умеренном употреблении.
А если вообще опасна ли ломка голоса? Это тоже самое, что и уточнить, а опасен ли процесс роста волос на голове? 🙂
В каком возрасте происходит ломка голоса?
В возрасте 10-16 лет. Если появились первичные половые признаки, то скоро сломается и голос.
Как долго ждать пока голос сломается?
Для всех индивидуально.
Можно за 2 секунды штробаса его сломать, а можно только за 2 месяца увидеть результаты.
Но опыт показывает, что результат заметен по утру. Когда мозг переварит информацию с предыдущего дня.
Не лучше ли подождать?
Можно и подождать.
Упражнения лишь ускоряют этот процесс
Горло болит после того, как поделал упражнения.
Так и должно быть?
Вероятнее, ты накушался до этого острых крылышек из КФС, солёных и малосольных огурчиков и тем самым, твоё горло было в нездоровой среде.
Ничего не ешь плотного, солёного, жареного или острого за 2 часа до упражнений.
Пей чистую воду во время выполнения всех практических техник.
Когда ломается голос, это навсегда?
Да, это навсегда.
Во время ломки голоса появляется дополнительный регистр твоего голоса – грудной регистр.
А потом ты используешь возможности координации своего мозга и свободно переключаешься между регистрами.
Надо сказать фразу высоко – подумал «хочу сказать высоко» и говоришь.
Надо сказать фразу низким голосом – делаешь низким голосом.
А у девушки тоже голос станет грубым,
если она будет делать упражнения для ломки голоса?
У девушек голос не ломается. Он мутируется.
Строение мужского и женского голосов отличаются.
Упражнения для ломки голоса помогут девушке овладеть нижними нотами в её голосе.
Как починить голос?
Плюнуть, крякнуть, склеить скотчем 🙂
Какие упражнения использовать?
1. Говори букву «А» и в этот момент стучи себя по груди.
2. Попробуй попародировать мычание коровы «МММуууу». При этом сделай звук «М» максимально звонким.
3. Введи на Ютуб поисковой запрос «Как сломать голос школьнику?» и самым первым ты увидишь моё видео. Оно тебе покажет ещё несколько упражнений и как их правильно делать 🙂
Желаю успехов! 🙂
Практикуйте голос и всё у вас будет клёво! 🙂
Источник
Обработка аудио для ютуба и стримов: как сделать дикторский голос программными средствами
Содержание
Содержание
Создание видеороликов, трансляция подкастов и стримов — все это становится популярнее с каждым годом. Растущая конкуренция выдвигает больше требований к качеству контента, особенно к технической части — мало кто будет терпеть хрипящий звук и едва различимую речь, которую заглушает фоновая музыка. В этой статье рассматриваются базовые методы обработки голоса, которые помогут сделать его сопоставимым по качеству с речью профессионального диктора или радиоведущего.
Общие советы
Стоит сразу оговориться: хорошего результата не получится без хороших «сырцов» — исходный материал должен быть качественным. В идеале, речь должна не только записываться на хороший микрофон и звуковую карту, но и быть начитанной с дикцией, произношением, интонациями, выразительностью, характером, манерой и правильным дыханием. Возможные дефекты речи — ярко выраженная картавость или гнусавость — обработкой не исправляются.
Идеально, если речь записана в акустически обработанной комнате. Если таковой нет, можно обойтись акустическим экраном для микрофона. Расстояние до микрофона индивидуально и зависит от громкости голоса, экспрессии и динамики. Главное, чтобы не было перегрузов или откровенно тихого сигнала. Оптимальное значение — от -18 до -12 дБ.
На микрофоне обязательно должна быть либо ветрозащита, либо поп-фильтр. Взрывные согласные сложно поддаются компьютерной обработке, так что лучше приобрести недорогой аксессуар, который избавит от большинства проблем с ними.
Набор неплохих бесплатных плагинов от DAW Reaper можно скачать с официального сайта — там есть все необходимое. Для тех, кто всерьез увлечется звукорежиссурой, можно посоветовать более продвинутые пакеты плагинов от Waves, Fabfilter, Softube — их существует множество на любой вкус.
Обработку стоит выполнять на студийных мониторах или в наушниках студийного уровня. Без качественного контроля будет сложно разобрать, что вообще происходит с аудиосигналом.
Обрабатываем звук для оффлайн-видео
Итак, голос записан, и теперь нужно его обработать.
Начать стоит счистки материала: убрать все шумы в паузах, если необходимо — вдохи, вздохи и другие артефакты. Можно сделать все вручную, а можно поставить нойз-гейт. Он должен находится в самом начале цепи обработки. Настроить гейт очень просто: параметр threshold означает порог его срабатывания, здесь нужно взять самый громкий участок с шумами и сделать уровень thrershold чуть выше его. Attack — как быстро гейт «открывается» для пропуска полезного сигнала, release — как быстро он «закрывается» для удаления шума. Главное, чтобы гейт не откусывал слишком тихие слова.
Следующий шаг — шумоподавление. Нужно найти участок записи без какого-либо сигнала, чтобы на нем присутствовал только шум цепи звукозаписи. Если уровень шума ниже 50 дБ (как на скриншоте выше) — можно смело махнуть на него рукой и не делать ничего, такой шум никто не услышит. Если шум явно заметен, можно использовать специальные плагины (например, reafir от Reaper или denoiser в Cubase) для его удаления, либо подрезать эквалайзером пару самых шумных частот — точно так же, как будут удалятся резонансы в следующем пункте.
Фильтрация и удаление резонансов. Бывает, что низкий мужской голос начинает неприятно бубнить в районе 100–200 Гц, либо высокий женский тембр в сочетании с не самым лучшим микрофоном неприятно режет по ушам. Так и проявляются резонансы. Избавиться от них просто: нужно поставить в цепь обработки эквалайзер и узкой полосой с большим усилением (10–30 дБ) “пройтись” по всему частотному спектру, вычисляя самые неприятные места с режущим ухо свистом, звоном или гудением. Их необходимо ослабить узкой полосой на 3–5 дБ. Главное здесь не перестараться — удаления всего двух-трех основных резонансов обычно хватает для дикторского голоса.
Поиск и подрезание резонанса
Помимо этого, можно вовсе удалить целые куски спектра, в которых нет никакого полезного сигнала. Это делается с помощью low-pass и hi-pass фильтров, которые обрезают высокие и низкие частоты соответственно.
Чаще всего проблемы встречаются в следующих областях:
● Ниже 75–100 Гц — здесь находится, в основном, низкочастотный бубнящий шум. Можно смело применить hi-pass фильтр и обрезать все до этих значений.
● 100–150 Гц — тут нередко находятся гудящие частоты, особенно это касается мужского вокала, записанного в небольшой комнате. Можно подрезать их узкой полосой.
● 800–1000 Гц — здесь может располагаться «гундосый» назальный тон, который также имеет смысл подрезать узкой полосой.
● 4–9 кГц — тут находятся сибилянты — шипящие согласные звуки «с-с-с», «ш-ш-ш», «щ-щ-щ», которые могут неприятно свистеть при записи. Для борьбы с ними обычно используется деэссер — специальный прибор, который смягчает резкость свистящих согласных. Но можно не заморачиваться, найти самую неприятную частоту и также подрезать ее узкой полосой.
● Выше 16 кГц — в человеческой речи редко присутствует что-то полезное выше этой частоты, так что можно смело применять low-pass фильтр.
Так выглядит эквалайзер после вырезания резонансов и ненужных частот
Добавление недостающих частот. Теперь, когда остался только полезный сигнал, нужно сделать его четче и ярче. В качестве отправной точки будут полезны следующие данные:
● 180–240 Гц — прибавление 3–5 дБ широкой полосой в этой области сделает мужскую речь более полной и читаемой. Для женской речи это будет 200–300 Гц.
● 1.5–2 — 5 кГц — это самый важный диапазон для голоса, так называемая область разборчивости. Человеческий слух наиболее чувствителен именно к этим частотам, стоит прибавить их широкой полосой на 3–8 дБ.
● 9–11 кГц — эти частоты отвечают за яркость голоса. Их очень часто не хватает в речи, записанной даже на студийный микрофон, особенно в заглушенной комнате, которая с аппетитом пожирает верха вокала. Нередко приходится значительно прибавлять этот диапазон — на 6–12 дБ, чтобы придать речи ясности. Но нужно следить за шипящими согласными.
● Выше 12 кГц — это область «воздуха», поднятие которой позволит сделать речь более натуральной и яркой. Обычно для этой и предыдущей области частот используется параметр эквалайзера hi-shelf, который выглядит как «планка» и позволяет моментально «осветлить» голос.
При эквализации низких частот лучше использовать узкие полосы, а при высоких — широкие, это сделает работу эквалайзера менее заметной.
Компрессия. Компрессором убирается разница между громкими и тихими участками записи. В итоге голос будет звучать равномерно, от хлопков и кашля слушатель не будет вздрагивать, а при шепоте ему не придется прибавлять громкость. Понять работу компрессора поможет аналогия с громкой музыкой в комнате, которая не нравится соседу за стенкой. Параметр threshold будет тем критическим уровнем громкости музыки, при превышении которого сосед начинает тарабанить по батарее монтировкой; attack — как быстро он бежит к батарее при превышении этого уровня; ratio — насколько нужно убавить громкость, чтобы успокоить соседа; а release — как долго сосед перестает возмущаться после убавления громкости. Сосед-компрессор заставляет несчастного меломана держать уровень громкости музыки в определенных пределах. Начать настройку можно со следующих значений:
● Ratio: 4:1 (таким образом, если сигнал превышает порог на 4 дБ, то он скомпрессируется до 1 дБ выше порога)
● Attack: как правило, для голоса хорошо работает быстрая атака в районе 5–10 мс, она позволяет компрессору срабатывать мгновенно. Если при этом компрессия начинает съедать согласные — атаку нужно увеличить.
● Release: если в компрессоре есть функция авторелиз, можно ей и воспользоваться. Если нет — начать стоит с 40–50 мс.
● Output или make-up: если в компрессоре есть функция автомейкапа, можно применить ее. В противном случае компенсацию громкости можно выполнить вручную на слух — главное, чтобы итоговый сигнал не попадал в красную зону.
● Threshold: здесь нужно смотреть по уровню громкости исходного трека. Начать можно с -8 дБ.
Есть проверенный метод настройки компрессора «на слух» для новичков: нужно выкрутить ratio и threshold на максимум, attack и release — на минимум. Так будет лучше слышно, что прибор делает с сигналом. Далее подбирается атака, потом релиз, а параметрами ratio и threshold регулируется уровень до желаемых значений. Как правило, уровень компрессии отображается на индикаторе «вверх ногами», ведь компрессор работает на понижение сигнала. Параметр threshold следует установить таким образом, чтобы компрессор срезал около 6 дБ для тихого голоса и около 12 дБ для громких участков.
Лимитеринг. Это операция позволяет ограничить максимальный уровень громкости. Сигнал на мастер-шине не должен зашкаливать, и лимитер выступает в роли очень жесткого компрессора, который не позволяет сигналу выбраться за пределы установленного значения. Как правило, среднее арифметическое уровня сигнала (RMS) должно быть около -16 дБ. При рендере на мастер-шине нужно выставить уровень -0.5 дБ, потому что финальная конвертация аудио может сделать звук громче и добавить искажений. При отсутствии лимитера его роль может сыграть компрессор: достаточно выставить ratio на максимум, threshold на -0.5 дБ, и атаку на минимум.
Лимитер и компрессор в роли лимитера
Если фоновая музыка в видео заглушает речь, нужно выставить RMS музыки и RMS голоса одинаковыми, после чего убавить музыку на 5–10 дБ. Если в некоторых местах слова все еще неразборчивы, можно применить к музыкальной подложке эквализацию. Достаточно посмотреть на эквалайзер для речи и сделать все наоборот в эквалайзере для музыки: например, если в речи 5 кГц приподнято широкой полосой, то в музыке эти же 5 кГц нужно убавить.
Обрабатываем звук в онлайне
У стримов и подкастов есть своя специфика при обработке голоса — здесь важно, чтобы плагины не были ресурсоемкими и не сильно грузили компьютер. Поэтому стоит использовать минимально необходимый набор эффектов.
Чаще всего для стримов используется программа OBS Studio. В ней можно загружать точно те же VST-плагины для обработки звука, что и в DAW. Если используется не OBS Studio, то для обработки голоса можно воспользоваться отдельной программой для потоковой обработки звука VSTHost, она работает с любыми приложениями для стримов.
Так выглядит плагин ReaFIR в OBS Studio
Для обработки голоса потребуется необходимый минимум:
1. Шумоподавление. В отличие от оффлайн-видео, звук к которым нередко записывается отдельно на качественный микрофон, в стримах часто используется не самое лучшее оборудование. Недорогой микрофон вкупе со встроенной звуковой картой и включенной функцией Microphone Boost в настройках звука Windows будут сильно шуметь. Для того, чтобы избавиться от этого шума, можно использовать встроенный в OBS фильтр Noise Suppression. У него всего одна настройка — уровень шумоподавления, начать стоит со значения около -20 дБ.
2. Гейт. Если в звуке для оффлайн-видео можно вручную вырезать все крики детей за окном и рев соседского перфоратора за стеной, то с онлайном такой фокус не провернуть. Понадобится гейт.
● Release можно сделать длинным, около 200 мс, поскольку работа гейта будет слишком слышна при быстром релизе. Правильно настроенный гейт почти незаметен для слушателя и удаляет лишь шумы и призвуки в паузах между фразами.
● Уровень гейта нужно сделать чуть выше, чем фоновый шум, не стоит выставлять уровень рядом с уровнем голоса.
● Простой способ настройки гейта для речи — нужно сложить губы трубочкой и шумно выдохнуть воздух в сторону от микрофона, запомнить на индикаторе значение уровня этого шума и выставить его на гейте.
3. Эквалайзер. Здесь все то же самое, что и для оффлайн-видео: нужно отфильтровать лишние частоты, вырезать пару самых противных резонансов и добавить частот в области разборчивости. Также стоит посмотреть на индикатор: если звук после обработки эквалайзером «пикует» в красной зоне, нужно прибрать выходной Gain, если, наоборот, слишком тихий — прибавить.
4. Компрессор. Для стримов он имеет даже большее значение, чем для оффлайн-видео — в онлайне ни один диктор не сможет уследить за динамикой своего голоса на протяжении нескольких часов. Следует быть готовым к тому, что речь будет то едва слышной, то слишком громкой. Поэтому нужно использовать более жесткие настройки компрессора, чем для оффлайн-видео. Начать можно с ratio 10:1, атаки 5 мс и релиза в 30 мс или автоматически.
При подобных настройках нет необходимости в лимитере — компрессор будет выполнять его роль. Но если динамика речи очень большая и не позволяет настроить гейт (то слова начинают обрезаться, то шум просачивается в эфир), тогда можно использовать два компрессора: первый, с более мягкими настройками (ratio 3:1) поставить перед гейтом, второй, в качестве лимитера — в конце цепи (ratio выкрутить на максимум, threshold — так, чтобы компрессор срабатывал только при очень громких фразах).
Дайте послушать результаты!
Разобраться в обработке звука по тексту бывает непросто, но результат того стоит. Смотрите сами. Точнее, слушайте.
Качественный звук в современных видео и стримах значит ничуть не меньше, чем видео в высоком разрешении. А порой и больше — ведь многие ставят ролики на фон, смотря их вполглаза и воспринимая происходящее в основном на слух.
При этом стоит учесть, что данное руководство дает лишь базовые настройки в качестве точки отсчета. Конечный результат должен подбираться аудиально, ведь главный инструмент в работе звукорежиссера — это его собственные уши.
Источник