Информация взята с официального сайта компании ООО "КОРТМИ" www.cortmi.ua


«Четкая» речь Печать этой страницыПечать этой страницы

Источник Информационно-технический журнал «Звукорежиссер» 6/2009

«Четкая» речь

Ирина Алдошина

Как уже было отмечено в моей предыдущей статье «Потери слуха у музыкантов и звукорежиссеров – проблема ХХI века» («Звукорежиссер», 4/2007), в настоящее время в связи с резким возрастанием уровней звуковых сигналов в окружающей среде (шума, музыки, речи), на рок-концертах, дискотеках, в системах озвучивания концертных помещений и площадок, на производстве и транспорте наблюдается значительное ухудшение слуха в первую очередь у людей молодого и среднего возрастов. Кроме того, в индустриальных странах значительно увеличивается доля пожилого населения, у которых параметры слуха изменяются в силу возрастных физиологических причин.


В результате среди слушателей телевизионных передач, посетителей кинотеатров и концертов процент таких людей достигает 57% (как показали последние исследования, проведенные в Англии). Поэтому специалисты и фирмы-производители звукового оборудования для записи и воспроизведения звука (при активной поддержке государства в виде грантов на разработку, а также создания соответствующих законов) приступили к разработке и выпуску специальной аппаратуры – процессоров для обработки звука, обеспечивающих «обогащение» слуха для таких категорий людей. Эти устройства предлагаются в виде приставок к телевизорам, специальных приборов в театрах и кинотеатрах и пр.

Данное направление является настолько важным, что по нему на последнем 125 конгрессе AES работала специальная секция. Поскольку эта проблема не менее важна и для нашей страны, а, насколько мне известно, разработкой и установкой такой аппаратуры у нас никто не занимается, представляется полезным рассказать об основных идеях в этой области –может быть, это поможет поднять интерес к чрезвычайно важной проблеме у разработчиков и звукорежиссеров (поскольку это требует других приемов записи и обработки звука).

Ухудшение свойств слуха (в силу возрастных причин или в результате внешних воздействий) проявляется прежде всего в увеличении порогов слуха на высоких частотах (низкие и средние частоты страдают меньше). Как указано в международном стандарте ISO 7029 (2000) «Статистическое распределении еслуховых порогов как функция возраста», уменьшение чувствительности (т.е. увеличение порогов слуха) на высоких частотах приводит к тому, что значительная часть спектра речевых сигналов теряется при восприятии (рис.1).

Кроме того, обычно люди с ослабленным слухом стараются слушать передачи на более высоких уровнях громкости, а поскольку верхние (болевые) пороги слуха обычно не меняются, то значительно сужается динамический диапазон. Поэтому резкое увеличение громкости во время передачи, на пример рекламной информации, вызывает у таких слушателей особенно сильное раздражение.

Во время просмотра телепередач, кино и спектаклей люди с ослабленным слухом жалуются на недостаток громкости, слишком быструю речь, перемешивание звуков, плохую разборчивость и пр. Все это приводит к тому, что существенно ухудшается способность понимать смысл речи, при этом значительная информация теряется и при восприятии музыкальных сигналов.

Современная аудиоиндустрия создает технологии и аппаратуру для записи, передачи и воспроизведения речевых и музыкальных сигналов через средства телевидения, радиовещания, звукоусиления, которые в значительной степени работают на восприятие вышеуказанной категории слушателей. Учитывая это, на целом ряде известных фирм (например, DolbyLabs) были осуществлены комплексные исследования, направленные на выяснение основных причин потери смысловой информации и создания алгоритмов для процессорных устройств, компенсирующих эти причины.

Принципиально важным для смыслового распознавания речи является «чистый» вход, т.е. отсутствие потерь информации (спектральных, динамических и временных) в периферических отделах слуховой системы (во внешнем, среднем и внутреннем ухе). Распознавание речи происходит в высших отделах слуховой системы (левой височной доле мозга). При этом мозг может, используя накопленный опыт, достраивать «недостающую» информацию для понимания смысла предложений путем сравнения с имеющимися образцами. Для этого в рабочей памяти должна накапливаться поступающая информация для ее сравнения и распознавания. Чем больше потери информации произошли на периферии, тем сложнее и медленнее идет процесс распознавания с привлечением больших объемов мыслительных ресурсов. Поэтому люди с ослабленным слухом не успевают распознавать речь в быстром темпе.

Потеря информации на периферии происходит как за счет потери чувствительности к высоким частотам, так и за счет значительного снижения способности к распознаванию формант. (Как известно, формантами называются резонансы голосового тракта, на которых происходит усиление отдельных спектральных составляющих звукового источника). Примеры расположения формант для некоторых звуков речи даны на рис.2.

Расположение и структура формант (соотношение их амплитуд, добротностей и др.) являются основным признаком различения гласных звуков и в значительной степени согласных. При обработке звука во внутреннем ухе происходит спектральный анализ сигнала, при этом разрешающая способность этого анализа зависит от ширины «слуховых» фильтров на базилярной мембране («критических полос слуха»). Ширина этих фильтров зависит от частоты: примерно до 1 кГц она равна 100 Гц, выше – меняется по закону:
Δ=24,7(4,37 fср + 1), где fср – центральная частота в каждой полосе.

При ослаблении слуха (за счет возрастных изменений или других причин) ширина этих слуховых фильтров увеличивается и разрешающая способность слуха падает, что приводит к ухудшению различимости формант и, соответственно, ухудшается восприятие как гласных, так и согласных звуков.

При ослаблении слуха также теряется разрешающая способность к временным интервалам, в частности к распознаванию коротких пауз в речи. Поскольку «категорийность» восприятия значений согласных звуков в большой степени определяется короткими паузами до или после них, то ухудшение способности к их распознаванию неизбежно ухудшает распознавание согласных звуков, определяющих понимание смысла речи. Кроме того, периодичность звуков позволяет определить их высоту (частоту). Механизм распознавания периодичности сигналов основывается на распознавании периодичности электрических разрядов в слуховых нервах от каждого участка базилярной мембраны (эффект«фазового запирания») – рис.3.

Потери чувствительности в распознавании временных интервалов ухудшают способность распознавать мелодии, а также различать голоса при конкурирующем шуме (то есть наличии других голосов), поскольку каждый голос имеет специфическую интонацию, которая определяется звуковысотными соотношениями в нем.

Все это значительно усложняет мыслительный процесс распознавания слов в условиях шума, особенно тех, которые не удается определить из предыдущего контекста предложения. Кроме того, перегрузка рабочей (кратковременной) памяти приводит к ухудшению процессов запоминания текста, прослушанного в предыдущие моменты времени. Все это существенно затрудняет понимание монологов в телевизионных передачах, кино и театральных постановках.

Все вышеизложенное поставило вопрос о необходимости преобразования обычной речи в так называемую «четкую» речь с помощью процессорной обработки. Специальные исследования показали, что существует несколько принципиальных различий между обычной и «четкой» речью: во-первых, скорость произнесения звуков должна быть в два раза медленнее, чем в обычной речи; во-вторых, в обычной речи присутствует так называемая коартикуляция, когда фонемы не произносятся четко и иногда «наползают» друг на друга. В четкой речи должна быть отчетливая артикуляция, согласные должны иметь более высокий уровень и большую длительность, особенно взрывные (поскольку они обычно тихие и короткие по сравнению с гласными). Кроме того, должна быть подчеркнута разница между формантными максимумами различных гласных. Надо отметить, что такое преобразование речи полезно не только людям с проблемным слухом в кинотеатрах, на телевидении, радиовещании и пр., но также иностранцам при восприятии беглой речи на чужом языке.

Анализ существующих алгоритмов сжатия и растяжения речи во времени оказался малоэффективным для разработки систем повышения разборчивости речи. Компания Dolby Labs предложила свой алгоритм для процессорной обработки звукового сигнала в многоканальных телевизионных приемниках для создания «четкой» речи при прослушивании телевизионных передач в домашних условиях. Все высказанные выше соображения относятся к изменению восприятия речи при ослаблении слуха в силу возрастных или других изменений, однако имеется очень мало работ, посвященных исследованию изменения восприятия музыки при таких изменениях слуха. Известно, например, что такие изменения приводят к ухудшению оценки мелодических интервалов и др. Однако, поскольку данных еще мало, то предложенный алгоритм относится только к обработке речевых сигналов.

При создании алгоритма использовалось два базовых предположения:
  • при прослушивании телевизионных программ потери разборчивости происходят потому, что некоторые части речи маскируются другими сопровождающими звуками программы (музыкой, шумами, спецэффектами и др.);
  • другие части речи оказываются ниже порогов слышимости.
При микшировании сигналов для современных многоканальных систем в телевидении обычно центральный канал используется для передачи речевых сигналов, остальные каналы используются для передачи других сигналов (музыки, шумов и пр.). Для максимальной разборчивости речи необходимо, чтобы уровень сопровождающих звуков был на 6 дБ ниже речевого сигнала (правда, слушатели с хорошим слухом считают, что при этом снижается эстетическое восприятие программы, поскольку нарушается соотношение уровней разных сигналов, заложенных в программу изначально).

Общая схема алгоритма для 5-канальной системы воспроизведения представлена на рис.4: обработка сигналов идет по разным схемам для центрального (речевого) канала и остальных четырех каналов.

В речевом канале поканально выбирается коэффициент усиления в зависимости от величины коэффициента разборчивости, который подсчитывается в каждой полосе как отношение S/N, где S–речевой сигнал из центрального канала, N–фоновый сигнал (музыка, шум и др.). Если коэффициент разборчивости становится ниже заданного значения усиления, уровень N в канале уменьшается.

Эта операция производится только тогда, когда в центральном канале действительно идет речевой сигнал, для этого на входе стоит процессор распознавания речи, информация от которого идет на сумматор. Кроме того, в центральном канале стоит блок определения относительного уровня речевого сигнала по отношению к пороговым значениям, блок расчета спектральной мощности сигнала и блок поканального усиления.

Разумеется, представленный процессор не решает всех проблем создания «четкой» речи, но значительно улучшает условия прослушивания телевизионных программ.

В рамках общеевропейского проекта «Обогащенное цифровое кино» (IST-038454) в Фраунгоферском институте (Германия) был проведен большой комплекс исследований по разработке цифровых процессоров для создания систем «четкой речи» для кино. Процессор, построенный с использованием регрессионных нейронных сетей, проходит специальный этап «обучения» с целью распознавания речи в общем звуковом потоке, затем выполняется этап поканального взвешивания отношения «сигнал/шум» и выбора коэффициентов усиления (рис.5).

Отрезок звукового сигнала до и после обработки этим процессором показан на рис. 6. Как показали субъективные экспертизы, для слушателей с пониженным слухом разборчивость речи значительно улучшается. Этот процессор можно использовать при прослушивании на очень тихих уровнях в условиях домашнего кинотеатра, когда при снижении общего уровня громкости разборчивость падает и для людей с нормальным слухом.

Субъективные экспертизы показывают, что у людей с пониженным слухом значительно увеличиваются уровни маскировки речи при наличии шума (или другого звукового сопровождения), поэтому для обеспечения разборчивости необходимо, чтобы разница в уровнях громкости между речью и звуковым фоном составляла 9±3 фона. В Японии разработан новый измеритель громкости, позволяющий в реальном времени оценивать разницу в уровнях громкости полезного речевого сигнала и шума, который может использоваться как составная часть в общих системах «четкой» речи.

Как уже было сказано выше, одной из причин снижения разборчивости речи является ухудшение частотной селективностии, как следствие этого, ухудшение различимости формант. Одним из путей решения этой проблемы является применение специальных многоканальных устройств спектральной обработки, подавляющих небольшие пики на огибающей и выделяющих наиболее значимые (формантные) максимумы. Пример речевого сигнала до и после обработки таким устройством показан на рис.7.

Полученная таким образом речь становится значительно более четкой, правда, для лиц с очень хорошим слухом она будет звучать резковато и пронзительно.

В настоящее время во многих европейских государствах и в США считается обязательной установка специальных дополнительных систем AHS (assistive hearing systems), помогающих восприятию звуковых сигналов, во всех общественных местах, где воспроизводится речь.

Общая структура системы показа на рис. 8: полезная речь записывается с помощью микрофонов, при этом она маскируется шумами и реверберационными процессами в помещении. Затем она передается по инфракрасным (IR) и радиоканалам (RF) или с помощью индукционной петли обратной связи (AFILS) (в этих каналах передачи тоже имеются дополнительные шумы), после чего сигнал обрабатывается с помощью вышеназванных или других процессорных устройств и передается через слуховые аппараты или стерео телефоны слушателям с ослабленным слухом (или любым желающим).

Передача информации по каналам IR и RF широко используется в беспроводных микрофонах и стереотелефонах, а передача с помощью системы AFILS применяется только для систем AHS. Принцип их действия показан на рис.9.

По периметру помещения укладывается петля из изолированной проволоки. Сигнал с микрофона или другого источника подается на усилитель, который усиливает его и передает на петлю в виде переменного тока. Как известно из физики, вокруг проводника с переменным током возникает переменное магнитное поле, которое в любом другом проводнике, помещенном в это поле, индуцирует переменный ток. Если в приемнике (например, слуховом аппарате слушателя) поставить катушку индуктивности (см. рис. 9), то в ней возникает переменный ток, который с помощью встроенного громкоговорителя преобразуется в звуковой сигнал. Преимуществом такой системы является то, что в нее подается сигнал, неподверженный воздействию значительной части шумов в помещении (от освещения, вентиляции и др.), что значительно облегчает восприятие речи.

Такими системами уже оборудовано в Америке и Европе большинство театров, кинотеатров, лекционных залов, аэропортов, вокзалов и др. Создан международный стандарт на требования к таким системам.

Для оценки всех систем AHS известным специалистом П. Маппом была предложена специальная методика, основанная на измерении коэффициента разборчивости STI (Speech Transmission Index), который рассчитывается с помощью оценки модуляционной передаточной функции MTF (Modulation Transfer Function).

Идея метода заключается в том, что речевой сигнал можно приближенно рассматривать как некоторый широкополосный сигнал (с полосой 125…8000 Гц), модулированный другим сигналом с низкой частотой. Частота модуляции определяется скоростью, с которой человек произносит форманты (скоростью артикуляции). Эксперименты показали, что частоты модуляции в обычной речи находятся в диапазоне от 0,63 Гц до 16 Гц, причем наиболее вероятные – в области 5…7 Гц.

Уменьшение глубины модуляции делает речевой сигнал более похожим на шумовой и, следовательно, приводит к уменьшению его разборчивости. При прохождении речевого сигнала через любой тракт передачи или помещение за счет реверберации, искажений и шумов происходит уменьшение разборчивости сигнала, что может быть оценено по степени уменьшения его глубины модуляции (изменении формы огибающей сигнала).

Поэтому в работах Хоутгаса и Стинекена был предложен следующий метод оценки разборчивости: весь речевой диапазон от 125 до 8000 Гц разбивается на семь октавных полос. На вход испытуемой системы, например на акустическую систему, установленную в точке помещения, где должен находится диктор, подается октавный шумовой сигнал с центральными частотами 125, 250, 500Гц, 1, 2, 4 и 8 кГц, распределение интенсивности которого по октавным полосам совпадает с распределением интенсивности речевого сигнала. Сигнал этот модулируется гармоническим сигналом, частоты которого меняются в пределах 0,63 Гц до 12,5 Гц с третьоктавным интервалом (всего четырнадцать частот). В точке, где должен располагаться слушатель, сигнал принимается ненаправленным микрофоном, при этом за счет шумов и процессов реверберации в помещении форма сигнала изменяется и глубина модуляции его уменьшается. Коэффициент m, характеризующий уменьшение глубины модуляции, является функцией частоты модуляции F и зависит от времени реверберации в помещении Т (с) и отношения сигнал/шум S/N (дБ) следующим образом:

Зависимость величины 20 lgm (F) от частоты модуляции F называется модуляционной передаточной функцией.

В предлагаемом методе измерения проводятся для семиоктавных полос подаваемого шума и 14 значений частот модуляции. Полученная матрица из 98 точек используется для расчета индекса передачи речи STI (speech transmission index) путем взвешивания среднего значения m (F) в каждой полосе частот в соответствии с их общим вкладом в разборчивость.

Методы измерения разборчивости с помощью STI введены в международный стандарт IEC268-16. Этот метод предполагает проведение измерений в широком диапазоне частот и учитывает частотную зависимость времени реверберации, неравномерность АЧХ и другие частотно-зависимые эффекты, поэтому он дает достаточно хорошую корреляцию с субъективными оценками.

Для того чтобы иметь возможность сравнить результаты оценок разборчивости, полученных различными методами, была разработана общая шкала разборчивости CIS (стандарт IEC-60849), позволяющая пересчитывать значения разборчивости, полученной разными методами (как субъективными, так и объективными), из одного в другое. Например, значение STI, равное 0,7, соответствует 94 % слоговой разборчивости и обеспечивает хорошую разборчивость речи в помещении. Пределы изменения STI для обеспечения хорошей разборчивости составляют 0,6…1,0.

Поскольку расчет разборчивости вышеуказанным методом представляет собой довольно трудоемкую процедуру, фирмой Bruel&Kjaer был разработан альтернативный упрощенный метод, предусматривающий измерения только в двухоктавных полосах 500 Гц при частотах модуляции 1,02, 2,03, 4,07 и 8,14Гц, а также 2 кГц при частотах модуляции 0,73/1,45/2.90 Гц/5,81/11,63 Гц. Дальше процедура измерений происходит, как и в предыдущем случае: строится матрица, рассчитывается усредненное значение модуляционной передаточной функции в полосах частот и по нему определяется нормализованный индекс RASTI. Для реализации этого метода компания Bruel&Kjaer разработала соответствующую аппаратуру (B&K 3361 RASTI Meter) и программное обеспечение, поэтому данная методика принята практически во всех международных стандартах. Однако поскольку измерения проводятся только в двухоктавных полосах, то они дают несколько завышенные значения (не учитывают неравномерность АЧХ и ФЧХ в системе).

С целью еще большего ускорения процедуры измерений фирма предложила метод, при котором сигналы предъявляются одновременно в двухоктавных полосах со всеми модулирующими сигналами одновременно. Измерения производятся в непрерывном режиме и позволяют проводить параллельный анализ в двухоктавных полосах. Для анализа необходим временной интервал не менее 8 с. Для хорошей разборчивости нужно, чтобы значения RASTI в разных точках помещения были не ниже 0,6. Для его оценки измерения проводятся в разных точках помещения и строятся кривые распределения.

Оба эти метода были модифицированы П. Маппом для оценки разборчивости речи в системах AHS, создающих «четкую речь» с помощью процессорной обработки.

В системах AHS основное влияние на величину коэффициента разборчивости оказывают следующие факторы: расстояние между оратором (певцом, актером и др.) и микрофоном, а также характеристики направленности микрофона. Если используется петличный микрофон, то расстояние мало и коэффициент разборчивости получается достаточно большим, однако в театрах и других подобных местах микрофон может стоять достаточно далеко от источника, при этом разборчивость падает. Влияние расстояния до микрофона и его характеристики направленности на коэффициент разборчивости показано на рис.10.

В передающих каналах существенное влияние могут оказывать магнитные шумы, они могут создаваться кабелями, трансформаторами, источниками питания и др. Кроме того, системы (AFILS) могут воспроизводить только ограниченный частотный диапазон. В силу всех этих причин достижимый коэффициент разборчивости в современных системах AHS лежит обычно в пределах 0,5…0,7, что позволяет достаточно надежно понимать речевые сообщения. Дальнейшее развитие таких систем предполагает использование цифровых каналов связи и цифровых преобразователей, что может существенно улучшить качество передаваемой музыки и речи.