Мастер-класс по цифровому звуку

Часть 5. Запись и обработка голоса

Евгений Музыченко

Запись посредством компьютерного звукового адаптера

Адаптер

Микрофон

Технология записи

Запись посредством внешних устройств

Удаление шумов и помех

Методы обработки голоса

Монтаж

Амплитудная обработка

Временная обработка

Спектральная обработка

еобходимость рассмотрения приемов записи и обработки голоса в рамках отдельной статьи обусловлена следующими причинами:

запись, как правило, выполняется с микрофона, а не с линейного входа, поэтому предъявляется ряд требований как к звуковому адаптеру, так и к микрофону и к акустической среде помещения;
исходный сигнал не существует в фиксированной форме, что ограничивает свободу эксперимента — невозможно просто повторить перезапись с другими параметрами, как это могло бы быть сделано в случае исходной фонограммы на диске или ленте;
человеческий голос является «первичным» сигналом, а не сложной комбинацией сигналов, как музыка или саундтрек, что существенно расширяет диапазон методов обработки, которые могут быть к нему применены.

Запись посредством компьютерного звукового адаптера

Адаптер

Поскольку линейный вход звукового адаптера является основным приемником внешнего сигнала при записи, каждый производитель стремится обеспечить на этом входе достаточное качество усиления сигнала. Чувствительность линейных входов большинства звуковых адаптеров примерно одинакова, а параметры качества пропорциональны общему качеству плат. Совершенно иначе обстоит дело с микрофонными входами: плата стоимостью 100 долл. может иметь гораздо худший по чувствительности и качеству вход, нежели ширпотребовская за 8 долл. Причина здесь в том, что микрофонный вход для звукового адаптера является второстепенным и его функциональность чаще всего ограничивается подключением простейшего дешевого микрофона для подачи голосовых команд, где уровень шума и АЧХ не столь критичны.

Микрофонные входы современных адаптеров рассчитаны, как правило, на подключение электретных микрофонов со встроенным усилителем, получающим питание от адаптера. Такой микрофон имеет высокое выходное сопротивление и развивает на выходе до 50-100 мВ, поэтому для усиления сигнала до уровня линейного входа (около 500 мВ) достаточно простейшего предусилителя. Некоторые адаптеры, согласно документации, позволяют подключать и динамические микрофоны, не нуждающиеся в питании, однако такой микрофон развивает на выходе всего 1-3 мВ и требует достаточно чувствительного и малошумящего усилителя, который на звуковых платах встречается довольно редко. Поэтому типовая плата в лучшем случае позволяет получить с такого микрофона недостаточно громкий, глуховатый звук, изобилующий шумами и наводками, а в худшем случае от динамического микрофона вы вообще не добьетесь звука. Предпочтение электретным микрофонам отдается вследствие того, что компьютер является источником множества электромагнитных излучений, создающих на чувствительном микрофонном входе ощутимые помехи, справиться с которыми довольно сложно. Создание малошумящего усилителя потребовало бы специальной компоновки платы, тщательной фильтрации питающих напряжений, экранирования области входных цепей и прочих сложных и дорогих ухищрений.

Разъем микрофонного входа большинства адаптеров — монофонический; в нем для передачи сигнала используется только концевой контакт (TIP) штекера, который в стереофоническом разъеме отвечает за сигнал левого канала. Средний контакт (RING), который в стереофоническом разъеме отвечает за правый канал, в микрофонном разъеме либо вообще не используется, либо служит для передачи питающего напряжения +5 В для электретного микрофона. Когда отдельный контакт для питания микрофона отсутствует, питающее напряжение подается прямо на сигнальный вход, а усилители в этом случае должны иметь емкостную развязку входа и выхода.

Микрофон

Как мы выяснили, для непосредственного подключения к адаптеру лучше всего подойдут электретные микрофоны, которые обычно выпускаются в достаточно миниатюрном исполнении: в виде «карандашей» с подставками либо «клипс», прикрепляемых к одежде или к корпусу монитора. Они недороги и продаются в магазинах компьютерных аксессуаров; если не требуется высокого качества записи, близкого к профессиональному, — таким микрофоном вполне можно обойтись. В противном случае необходим качественный профессиональный микрофон, за которым придется идти в магазин музыкальной аппаратуры, и цена его будет примерно на порядок выше.

С подключением профессионального микрофона обязательно возникнет некоторое количество проблем. Такие микрофоны чаще всего являются динамическими и выдают сигнал амплитудой в единицы милливольт, а микрофонный вход большинства звуковых адаптеров, как уже говорилось, не способен нормально воспринимать столь слабые сигналы. Выходов может быть два: либо купить в том же музыкальном магазине микрофонный предусилитель (который может оказаться довольно дорогой игрушкой) и подключить его выход уже не к микрофонному, а к линейному входу адаптера; либо использовать микрофон со встроенными предусилителем и питанием (батарейкой). При наличии радиотехнических навыков можно собрать несложный усилитель самостоятельно — варианты схем довольно часто встречаются в книгах и в Интернете.

Кроме того, профессиональные микрофоны обычно имеют разъемы типа XLR, а компьютерные звуковые адаптеры — mini-DIN, так что потребуется переходник; иногда такие переходники продаются в музыкальных магазинах, однако может статься, что придется паять его самостоятельно.

И наконец, вполне может так случиться, что любой профессиональный микрофон будет намного превосходить ваш звуковой адаптер по качественным параметрам и звук, который вы получите с помощью такого микрофона, в итоге будет не лучше того, что может обеспечить простой электретный. Поэтому если у вас есть сомнения в высоком качестве своего адаптера (а простые адаптеры ценой порядка 10 долл., тем более встроенные, имеют весьма посредственные параметры), то вам имеет смысл договориться в магазине о возможном возврате купленного микрофона, если не удастся получить с его помощью достаточно качественный звук.

Технология записи

В отличие от источников фиксированного сигнала, микрофон имеет ряд особенностей, которые необходимо учитывать при работе с ним. Прежде всего, он любит «фонить»: если усиленный сигнал с микрофона поступает на колонки, то микрофон воспринимает его, сигнал вновь усиливается и т.д., то есть образуется так называемая положительная обратная связь, которая «раскачивает» звуковой тракт, вводит его в режим самовозбуждения, что проявляется посредством громкого свиста, звона или рокота. Даже если тракт не войдет в режим самовозбуждения, положительная связь может давать звенящий или свистящий призвук, который заметно портит сигнал. При этом чувствительный микрофон может успешно ловить сигнал даже с наушников, если звук в них достаточно громкий, а наружная звукоизоляция слаба. Поэтому необходимо экспериментальным путем определить такое положение/направление микрофона и громкость усиленного звука, при котором положительная связь проявляется меньше всего. Окончательную запись рекомендуется производить при отключенных или хотя бы максимально приглушенных колонках.

Чувствительные микрофоны, особенно простые и дешевые, отлично воспринимают посторонние звуки вроде шороха пальцев по корпусу микрофона или легкого поскрипывания самого корпуса даже от незначительного сжатия (наверняка вам приходилось слышать подобные звуки при телефонных разговорах). Чтобы избежать таких помех, микрофон лучше установить на удобной подставке либо держать его свободно, не сдавливая пальцами.

Плохая экранировка соединительного кабеля и самого капсюля облегчает проникновение в сигнальную цепь разного рода электромагнитных наводок — от частот строчной/кадровой развертки монитора до фона сети переменного тока, наводимого рукой, держащей микрофон. Первое устраняется изменением ориентации микрофона и удалением его от источника наводок, второе может потребовать переделки самого микрофона (в крайнем случае можно попробовать просто обернуть его фольгой, чтобы образовался замкнутый виток, поглощающий паразитные токи).

Еще один неприятный момент в использовании микрофона — так называемое заплевывание потоком воздуха, которое особенно ярко проявляется на взрывных согласных, таких как «п», «б», «т» и им подобных. В результате попадания на мембрану интенсивного звукового импульса образуется резкий бросок амплитуды сигнала, перегружающий усилитель и/или АЦП. Профессиональные микрофоны имеют против этого ветрозащиту — сетку или мягкую прокладку, расположенную на некотором расстоянии от капсюля, но даже она не всегда спасает, поэтому к каждому микрофону приходится приноравливаться, привыкая держать его либо под правильным углом, чтобы прямые воздушные потоки проходили мимо, либо на достаточном расстоянии, чтобы они достигали микрофона в уже ослабленном состоянии.

Экспериментируя с микрофоном, вы обнаружите, что тембр записанного голоса довольно сильно зависит от расстояния ото рта до микрофона и от угла наклона микрофона относительно лица. Это вызвано тем, что низкочастотные составляющие голоса больше всего рассеиваются и ослабляются с расстоянием, тогда как высокочастотные ослабляются меньше, зато имеют более выраженную направленность. Наиболее сочный и бархатистый тембр голоса можно получить, расположив микрофон непосредственно у рта, но тогда придется изрядно повозиться с углом наклона и немало потренироваться, чтобы избежать «заплевывания».

Запись посредством внешних устройств

последнее время появились весьма экзотические способы записи звука с микрофона и переноса его в компьютер. Так, Creative выпускает цифровой проигрыватель Jukebox, содержащий миниатюрный накопитель на жестком диске, автономный контроллер и интерфейс USB. Основная функция проигрывателя — воспроизведение звуковых файлов, которые перекачиваются в него из компьютера, однако встроенный микрофон позволяет использовать его в качестве автономного диктофона: звук записывается на жесткий диск, что обеспечивает непрерывную запись в течение нескольких часов, а впоследствии фонограмма может быть перенесена в компьютер. Другое изделие Creative — PC Cam представляет собой гибрид цифрового фотоаппарата, видеокамеры и диктофона и позволяет записывать звук во встроенную Flash-память, откуда он извлекается с помощью того же интерфейса USB.

Удаление шумов и помех

оскольку голосовой сигнал имеет достаточно узкий спектр (сотни герц — единицы килогерц), к нему можно применять операцию удаления шума с большей глубиной, чем в случае произвольного музыкального сигнала. При записи может также оказаться, что в наиболее удачно записанном фрагменте (с художественной точки зрения) микрофон все-таки оказался «заплеванным» в одном или в нескольких местах и попытки повторить фразу или куплет песни со столь же удачной расстановкой акцентов не дают желаемого результата. В таких случаях можно попробовать скруглить импульсы перегрузки, сохранив или уменьшив их амплитуду. При незначительном количестве импульсов это удобно делать вручную, укрупнив изображение до появления узловых точек, которые можно цеплять мышью.

Методы обработки голоса

ак мы уже говорили, сложный музыкальный сигнал содержит множество разнородных составляющих, на которые большинство методов обработки звука воздействует с различным эффектом, поэтому спектр универсальных методов обработки сигнала весьма узок. Наиболее популярен метод реверберации, имитирующий множественное отражение звуковых волн и создающий эффект пространства — комнаты, зала, стадиона, горного каньона и т.п.; реверберация позволяет придать «сухому» звуку сочность и объем. Остальные универсальные методы обработки сводятся к манипуляции АЧХ (эквалайзер), чистке фонограммы от шумов и помех.

В отношении же первичного, простого звукового сигнала может быть достаточно успешно применен весь спектр существующих методов обработки — амплитудных, частотных, фазовых, временных, формантных и т.п. Те методы, что на сложном сигнале рождают неблагозвучную какофонию, на простых сигналах нередко способны привести к созданию очень интересных и ярких эффектов, широко используемых в звуковой индустрии.

Монтаж

Компьютерный монтаж речевых фонограмм — типичное занятие журналиста после записи интервью — одновременно и прост, и сложен. Поначалу он кажется простым, благодаря удобной для визуального анализа структуре речи, наличию заметных пауз между словами, всплескам амплитуды в местах акцентов и т.п. Однако при попытке, например, переставить местами две фразы, разделенные буквально секундами, выясняется, что они не желают стыковаться — успели измениться интонация, фаза дыхания, фоновый шум, и на стыке отчетливо прослушивается сбивка. Такие сбивки легко различимы практически в любом радиоинтервью, когда записывается речь человека, не являющегося профессиональным радиожурналистом и, следовательно, не умеющего говорить только то, что должно пойти в эфир. Из речи вырезают лишнее, некоторые фрагменты переставляют местами для большего соответствия смыслу, в результате чего слух постоянно «удивляется», поскольку в потоке естественной человеческой речи таких интонационных и динамических переходов не бывает.

Для сглаживания эффектов перехода можно воспользоваться методом взаимоперекрытия (crossfade), хотя он позволит состыковать фрагменты речи лишь по амплитуде, но не по интонации и фоновым шумам. Поэтому считаем нужным предостеречь тех, кому компьютерный монтаж покажется удобным способом фальсификации записи, например, переговоров: экспертиза способна без труда выявить даже неразличимые ухом места склейки, как и в случае с подделкой документов при помощи сканера и принтера.

Амплитудная обработка

Простейший вид динамической амплитудной обработки голоса — модуляция его периодическим сигналом, когда амплитуды сигналов перемножаются и голос приобретает амплитудные характеристики модулирующего сигнала. Модулируя низкочастотным (единицы герц) синусоидальным сигналом, получаем «булькающий» голос, повышая частоту сигнала — вибрирующий. Используя вместо синусоидальной формы прямоугольную, треугольную или пилообразную, можно придать голосу металлические, искаженные, «роботизированные» интонации.

Амплитудная модуляция выделенного фрагмента фонограммы выполняется как часть операции генерации периодических сигналов Generate g Tones. В поле Base Frequency задается основная частота сигнала в герцах, в поле Flavor — вид импульса, в поле Duration — длительность в секундах. Регуляторы Volume задают уровень сигнала.

Группа движков Frequency Components определяет уровни гармоник основного сигнала с указанными при движках номерами. Частотную модуляцию сигнала можно получить, используя поля Modulate By — смещение от основной частоты в герцах — и Modulation Frequency — частота модуляции. При помеченном поле Lock... все эти параметры, включая основную частоту, стационарны; при снятии пометки можно задать их начальные/конечные значения в закладках Initial/Final Settings — они будут линейно изменяться в течение генерируемого отрезка.

Группа полей Source Modulation определяет, как будет использоваться сгенерированный сигнал. По умолчанию, когда ни одно из этих полей не отмечено, сигнал вставляется в фонограмму или заменяет собой выделенный фрагмент; в противном случае он используется для выполнения заданной операции с выделенным фрагментом: Modulate — обычная модуляция (перемножение), Demodulate — демодуляция (деление), Overlap (mix) — простое смешивание сигналов. Последовательные модуляция и демодуляция с одним и тем же сигналом восстанавливают исходный сигнал (возможно, с измененным общим уровнем). Эксперименты с различными сочетаниями параметров порой дают весьма забавные и неожиданные результаты.

Временная обработка

Этот вид обработки основан на сдвиге исходного сигнала во времени и смешивании результата с исходным сигналом, после чего снова могут применяться сдвиг и смешивание. При сдвигах на малые промежутки времени, сравнимые с длительностью периода исходного сигнала, возникают фазовые эффекты типа интерференции, отчего звук приобретает специфическую окраску; этот эффект получил название фленжера (flanger) и используется как с фиксированной величиной сдвига, так и с периодически изменяющейся или даже вовсе со случайной. При сдвигах на интервалы, превышающие длительность периода, но не более 20 мс, возникает хоровой эффект (chorus). Благодаря общности технологии, эти два эффекта нередко реализуются одним программным блоком с различными параметрами.

При множественных сдвигах с интервалами 20...50 мс возникает эффект реверберации (reverb) — гулкости, объема, оттого что слуховой аппарат трактует задержанные копии сигнала как отражения от окружающих предметов. При интервалах свыше 50 мс ухо перестает четко связывать отдельные копии между собой, вследствие чего возникает эффект эха (echo).

В Cool Edit 2000 эффекты, основанные на временных задержках, объединены в группу Transform g Delay Effects. Эффекты flanger и chorus создаются операцией flanger:

Движок Original/Delayed управляет соотношением исходного и задержанного сигналов (интенсивность, или глубина эффекта). Initial/Final Mix Delay — начальная и конечная задержка копии — изменяется в этих пределах циклически. Stereo Phasing — угол фазового сдвига между каналами — позволяет создать любопытный эффект «скручивания» звука, особенно в наушниках. Feedback — глубина обратной связи (количество результирующего сигнала, подмешиваемого к исходному перед применением операции) — позволяет управлять выраженностью, резкостью эффекта.

Группа Rate задает параметры цикличности эффекта. Period — интервал времени, за который фленжер проходит от начальной задержки до конечной и обратно; Frequency — обратная величина, частота проходов туда-обратно; Total Cycles — количество полных проходов по выделенному фрагменту. Задание любого параметра вызывает автоматический пересчет остальных.

Группа Mode управляет особенностями эффекта: Inverted — инверсия задержанного сигнала, Special EFX — дополнительная инверсия исходного и задержанного сигналов, Sinusoidal — синусоидальный закон изменения задержки от начальной до конечной (если он отключен — задержка изменяется линейно).

Набор пресетов позволяет наглядно изучить особенности операции. Попробуйте выбрать несколько пресетов, меняя в каждом из них предустановленные параметры и не забывая всякий раз «откатываться» (Undo), чтобы сравнить влияние на звук различных комбинаций параметров.

Эффект реверберации в Cool Edit 2000 может быть реализован двумя способами: с помощью Echo Chamber — имитатора комнаты с заданными размерами и акустическими свойствами, и Reverb — генератора эффекта объема на основе встроенного в редактор алгоритма имитации множественных отражений в пространстве. Поскольку данный вид обработки является универсальным и применяется к любому звуковому материалу, опишем кратко второй способ как наиболее популярный.

Поле/движок Total Reverb Length определяет время реверберации, в течение которого отраженные сигналы полностью затухают; оно косвенно связано с объемом пространства, в котором распространяется звук. Attack Time — время нарастания глубины реверберации до номинального уровня; служит для плавного проявления эффекта на протяжении обрабатываемого фрагмента. High Frequency Absorbtion Time — время поглощения объемом высокочастотных составляющих, пропорционально «мягкости» и «заглушенности» объема. Perception — степень разборчивости: меньшие значения (smooth) — слабые и мягкие отражения, не перебивающие основного сигнала, большие значения (echoey) — четкие и сильные, отчетливо слышимые отражения, способные ухудшить разборчивость речи.

Движки/поля Mixing определяют соотношение исходного (dry) и обработанного (wet) сигналов в результирующем.

Эффект эха реализуется операцией Echo и добавляет к сигналу его постепенно затухающие копии, сдвинутые на равные промежутки времени. Регулятор Decay задает величину затухания — уровень каждой очередной копии в процентах от уровня предыдущей. Initial Echo Volume — уровень первой копии в процентах от уровня исходного сигнала. Delay — задержка между копиями в миллисекундах. Группа регуляторов Successive Echo Equalization управляет эквалайзером, через который пропускается каждая очередная копия, что позволяет задавать различные акустические характеристики имитируемого пространства.

Поскольку эффект является «продолжающимся» во времени, он может создать звуковой фрагмент, по длительности превышающий исходный. Для этого предусмотрен пункт Continue echo beyond selection — разрешение подмешивать эхо-сигнал к участку фонограммы, продолжающемуся за границей выделенного фрагмента. При этом в качестве исходного сигнала будет взят только выделенный фрагмент, а оставшаяся часть фонограммы будет использована исключительно для размещения «хвоста». Если в фонограмме не хватает места для «хвоста» — будет выдано сообщение об ошибке и придется добавить в конец фонограммы участок тишины операцией Generate g Silence.

Эффект лучше всего воспринимается на относительно коротких звуках. На длинных словах или фразах, чтобы исключить возникновение «тарабарщины» — множественных повторений различных слогов или слов, перебивающих друг друга, эффект лучше делать «концевым», выбирая для повторения только короткий завершающий фрагмент фразы или даже последний ударный слог слова. Попробуйте поэкспериментировать с различными словами и фразами, чтобы почувствовать, какую завершающую часть лучше использовать для «размножения» в каждом конкретном случае.

Спектральная обработка

Наиболее ярким и интересным эффектом из этого класса, реализованным в Cool Edit 2000, является изменение высоты и скорости. Всем известен эффект повышения или понижения высоты сигнала при изменении скорости протяжки ленты в магнитофоне или вращения пластинки. С развитием цифровых методов обработки сигналов стало возможным правдоподобно реализовать каждый из этих эффектов по отдельности — изменение высоты при сохранении временных характеристик либо наоборот.

Обработку этого типа в Cool Edit 2000 осуществляет операция Transform g Time/Pitch g Stretch. Возможно два варианта — с постоянным (constant) либо со скользящим (gliding) коэффициентом. Коэффициенты задаются полями Initial/Final Ratio, которые связаны также с движками для удобства изменения. Коэффициент может, кроме того, задаваться косвенно полем Transpose в виде количества музыкальных хроматических полутонов вверх (диез) или вниз (бемоль). В режиме изменения длительности наряду с этим доступно поле Length, в котором можно задать требуемую длину результирующего фрагмента.

Переключатель Precision задает точность обработки: низкую (Low), среднюю (Medium) и высокую (High) — это необходимо потому, что операция спектральной обработки требует множества вычислений и снижение точности позволяет добиться ускорения обработки — хотя бы на этапе экспериментов. Переключатель Stretching Mode задает вид обработки: Time Stretch — ускорение/замедление во времени, Pitch Shift — сдвиг по высоте, Resample — простая передискретизация, аналогичная изменению скорости ленты/пластинки.

Группа параметров Pitch and Time Settings управляет особенностями операции. Обработка выполняется путем разбиения фрагмента на маленькие звуковые блоки; параметр Splicing Frequency задает количество таких блоков в одной секунде фрагмента. Увеличение этой «частоты дискретизации» делает блоки более мелкими, повышая натуральность обработки, но одновременно усиливается и эффект дробления, порождая неприятные призвуки. Параметр Overlapping задает степень перекрытия соседних блоков при сборке результирующего сигнала — небольшое взаимное перекрытие позволяет сгладить призвуки от их стыковки. Пункт Choose appropriate defaults служит для автоматической установки этих параметров в наиболее подходящие, с точки зрения редактора, значения.

Эта статья завершает краткий цикл, посвященный записи и обработке звука на домашнем компьютере.

КомпьютерПресс 12'2002

1999	1	2	3	4	5	6	7	8	9	10	11	12
2000	1	2	3	4	5	6	7	8	9	10	11	12
2001	1	2	3	4	5	6	7	8	9	10	11	12
2002	1	2	3	4	5	6	7	8	9	10	11	12
2003	1	2	3	4	5	6	7	8	9	10	11	12
2004	1	2	3	4	5	6	7	8	9	10	11	12
2005	1	2	3	4	5	6	7	8	9	10	11	12
2006	1	2	3	4	5	6	7	8	9	10	11	12
2007	1	2	3	4	5	6	7	8	9	10	11	12
2008	1	2	3	4	5	6	7	8	9	10	11	12
2009	1	2	3	4	5	6	7	8	9	10	11	12
2010	1	2	3	4	5	6	7	8	9	10	11	12
2011	1	2	3	4	5	6	7	8	9	10	11	12
2012	1	2	3	4	5	6	7	8	9	10	11	12
2013	1	2	3	4	5	6	7	8	9	10	11	12