Автокорреляционный метод линейного предсказания

Автокорреляционный метод линейного предсказания

Маркел Дж. Д., Грэй А. Х.
Перевод с английского
Под редакцией Ю. Н. Прохорова и В. С. Звездина

ЛИНЕЙНОЕ ПРЕДСКАЗАНИЕ РЕЧИ

ФPAГMEHT КНИГИ (. ) 11.1. ИДЕНТИФИКАЦИЯ И ВЕРИФИКАЦИЯ ДИКТОРОВ
Параметры линейного предсказания вычисляются просто и эффективно, и, как показали эксперименты, синтезируемый по ним речевой сигнал в значительной степени сохраняет натуральность исходной речи. Эти факторы побудили к исследованиям применения линейного предсказания для идентификации и верификации дикторов. Задача идентификации состоит в том, чтобы определить принадлежность образца речи неизвестного человека к одному из наборов речевых образцов заранее известных дикторов. Целью верификации дикторов является установление подлинности личности диктора по его речи. В силу бинарного характера классификации при верификации возникает более простая задача, которая может быть решена с большой надежностью на основе сравнительного’ анализа одиночных тестовых выражений [33, 78].
Пфейфер [126] исследовал целесообразность использования коэффициентов фильтра, коэффициентов отражения и спектральной характеристики обратного фильтра для идентификации дикторов на основе невзвешенной меры эвклидова расстояния (. )
Здесь г является /-м эталонным вектором, a t—тестовым вектором. Размерность векторов равна порядку фильтра М для каждого набора коэффициентов, за исключением спектральной характеристики фильтра, размерность которой определяется размерностью БПФ, используемого для определения спектра.
Аналоговые записи отфильтровывались фильтром нижних частот до частоты 3,25 кГц и затем подвергались дискретизации. Сегменты, соответствующие определенному звуку, устанавливались вручную, а затем проводился анализ центральной части звука. Применялся автокорреляционный метод с параметрами: fs = 6,5 кГц, N — = 128, М = 10. Перед анализом использовались предыскажение и взвешивание данных с окном Хэмминга. К коэффициентам фильтра применялось БПФ для получения 256 равноотстоящих значений функции In | А [ехр (/0) ] |.
Эталоны включали десять образцов каждого звука для различных дикторов. Мера расстояния вычислялась в соответствии с (11.1). При определении диктора выносилось однозначное решение. По результатам анализа трех различных звуков — /г/, /п/ и /э/ — была достигнута 100%-ная правильная идентификация для десяти дикторов мужчин.
Использование коэффициентов фильтра или коэффициентов отражения в качестве компонент указанных векторов приводит к значительно худшим результатам (процент распознавания в лучшем случае снижается до 80%) несмотря на то, что в этих наборах параметров содержится та же самая информация. Причина состоит, вероятно, в том, что мера расстояния, определяемая выражением (11.1), не является адекватным критерием для этих параметров. Атал [13] исследовал свойства взвешенной меры эвклидового расстояния для задач идентификации и верификации дикторов.
Он рассмотрел ряд наборов параметров, включая коэффициенты фильтра, импульсную реакцию фильтра с характеристикой \jA(z), автокорреляционную функцию, функцию площадей акустической трубы, кепстральные коэффициенты обратноге фильтра. Все эти наборы параметров однозначно, но нелинейным образом, связаны друг с другом, как показано в гл. 10. Применяемая мера расстояния представляла собой квадратичную взвешенную меру вида (. )
Эталонные векторы находились путем усреднения всех измеренных векторов для каждого отдельного диктора. Если х?-; представляет собой i-e высказывания /-го диктора, то (. )
Мера (11.2) обладает следующим важным свойством: она неизменна при несингулярных (обратимых) линейных преобразованиях векторов измерения. Этот результат можно получить из принципа максимального правдоподобия, если предполагать, что статистика наблюдаемых векторов — гауссова.
Исходные данные из шести повторений выражения May we all learn a yellow lion roar десятью дикторами служили в этом эксперименте в качестве опорных. Пять повторений каждым диктором этой фразы использовались для получения г,-, а шестое—в качестве контрольного. Каждое выражение было разделено на 40 отрезков равной длины (около 50 мс каждый) с целью получения примерно одинаковой длительности выражений. Каждый временной отрезок (сегмент) имел, таким образом, различный набор эталонных векторов и свою ковариационную матрицу W.
Анализ проводился с помощью ковариационного метода с параметрами: fs= 10 кГц, М= 12. На рис. 11.1 показана точность идентификации каждого отдельного временного сегмента при различном выборе наборов параметров. Усреднение по сегментам показывает, что кепстральные коэффициенты обеспечивают самую высокую точность идентификации. Поскольку кепстр линейно связан с логарифмической спектральной характеристикой обратного фильтра, результаты Атала согласуются с результатами Пфен-фера.
Если усреднение проводить для отдельного сегмента, то точность идентификации для всех наборов параметров возрастает. Атал получил 80%-ную точность для сегментов длительностью 0,1 с и 98%-ную — для сегментов, длительность которых превышает 0,5 с.
11.2. РАСПОЗНАВАНИЕ ИЗОЛИРОВАННЫХ СЛОВ
Итакура в [68] исследовал целесообразность использования логарифма отношения правдоподобия, построенного на основе энергии сигнала и ошибки, описанной в гл. 10, для задачи распознавания изолированных слов. При этом для каждого речевого сегмента минимальная энергия сигнала ошибки предсказания сравнивается с энергией сигнала на выходе опорного обратного фильтра, генерирующего сигнал ошибки.
Алгоритм распознавания изолированных слов был реализован на ЭВМ DDP-516. Он позволяет распознать 200 изолированных слов, произнесенных отдельными дикторами, речь которых была использована для обучения. Каждое произнесение вводилось в ЭВМ по стандартному телефонному каналу. Частота дискретизации была равна 6,667 кГц, а длительность каждого слова была в пределах фиксированного временного интервала 1,2 с. Анализ проводился с 200-точечным окном Хэмминга, перемещаемым с шагом в 400 отсчетов с помощью автокорреляционного метода.
Рис. 11.2. Структурная схема полной системы распознавания цифр [141] 282
Для коррекции возможных искажений спектра, вызванных различными физическими причинами, такими, как характеристики преобразователя и линии связи, психическое состояние человека, речевой сегмент большой длительности пропускается через обратный фильтр второго порядка для выравнивания спектра. Затем первые шесть коэффициентов автокорреляции предварительно обработанного речевого сигнала используются для определения опорного обратного фильтра. Эта система при реализации ее на ЭВМ DDP-516 работает не в реальном масштабе времени (время обработки примерно в 22 раза превышает реальное время) и обеспечивает коэффициент распознавания, равный 97,3%. Такие результаты были получены за трехнедельный период испытаний 200 тестовых записей определенных дикторов.
Самбур и Рабинер [141] разработали систему распознавания цифр, не зависящую от дикторов, в которой каждое сказанное слово — это цифра. Структурная схема такой системы представлена на рис. 11.2. В ней использовались методы линейного предсказания второго порядка [87], совместно с анализом чаcтоты пересечения нулевого уровня, энергии, а также полной квадратической ошибки а.
После определения конечных меток для выделения интервалов, содержащих по одному слову, речь анализируется каждые Ю мс с цепью получения требуемых параметров. Линейный фильтр-предсказатель второго порядка обычно настраивается па резонанс, расположенный между первой н второй формантами. Поскольку первая форманта изменяется в меньшем диапазоне частот, чем вторая, вычисленный полюс линейного предсказания стремится следовать движению второй форманты. Нормированная ошибка а2/а0 обычно минимальна для звонких согласных, больше для гласных и максимальна для фрикативных звуков.
Среди трех типов гласных звуков для «задних» гласных получается наименьшая нормированная ошибка, а для «передних» — наибольшая. На рис. 11.3 представлены графики нормированной ошибки, частоты пересечений нулевого уровня, частоты полюса и энергии сигнала для слова two. После участка, соответствующего фрикативному звуку /t/ и характеризующегося большой ошибкой и малой энергией, нормированная ошибка равномерно уменьшается. Основной подход к распознаванию в этом случае заключается пе в простом определении меры расстояния, а скорее в сочетании различных мер.
Каждый интервал сегментируется, а алгоритм, реализующий правило предварительного решения, относит каждое слово в некоторый класс цифр. Окончательное решение выносится на основании наличия пли отсутствия ключевых характеристик в выражении. Экспериментальная проверка этой системы проводилась в течение пяти недель для пяти мужчин и пяти женщин, причем каждая запись повторялась 10 раз для десяти цифр. При этом средняя частота ошибок составляла 2,7%.
11.3. АКУСТИЧЕСКОЕ ОПРЕДЕЛЕНИЕ ПАТОЛОГИИ ГОРТАНИ
Койк и Маркел [74] исследовали применимость линейного предсказания к определению патологии органов речи. Хотя предшествующие исследования методов спектрального _анализа показали, что спектр речевого сигнала изменяется в больших пределах [171, 172], но они в то же время навели па мысль о возможности использования акустического сигнала для обнаружения патологии гортани. Одна из задач, связанная с таким видом исследований, заключается в определении влияния изменений речевого тракта на изменение акустической волны, распространяющейся от голосовой щели к губам. Установить по спектру речи изменения, вызванные патологией гортани,— не простая задача.
Косвенным методом получения информации о колебательном поведении органов речи является обратная фильтрация волны от голосовой щели [111]. Этот подход к изучению речи больного имеет два серьезных недостатка. Во-первых, на его основе трудно выделить необходимые параметры модели, и, во-вторых, результирующая форма волны содержит информацию только о нижних частотах. При исследованиях сонограмм было обнаружено, что при патологии голос часто отклоняется от нормального в диапазоне верхних частот выше 1 кГц.
Сигнал ошибки или остаток на выходе обратного фильтра, полученный с помощью линейного предсказания, содержит, с другой стороны, все частотные компоненты с одинаковым весом в том смысле, что его спектр равномерный. На основании линейной модели речеобразования можно ожидать, что при нормальной 284
вокализованной речи для сигнала ошибки характерны отчетливые пики в начале каждого периода. При наличии патологии, которое выражается в неполном закрытии голосовой щели, предположение о возможности разделения характеристик речевого тракта и источника в линейной модели речеобразования становится неправильным. Следовательно, в зависимости от степени патологии можно было бы ожидать менее отчетливую картину периодических пиков. Для одиночного небольшого узелкового утолщения на поверхности голосовой связки следует ожидать небольшую разницу между нормальным голосом и патологическим. Но и в .серьезном случае потери подвижности голосовой связки, когда закрытие голосовой щели неполное, остаток не будет иметь периодический характер.
С помощью автокорреляционного метода были проанализированы записи десяти нормальных и десяти патологических голосов с целью определения характеристик остаточного сигнала. Части звука /а/ (ah) длительностью 100 мс анализировались при использовании 40-миллисекундных окон. Речевой сигнал и остаток, соответствующие нормальному мужскому голосу с основной частотой в 130 Гц, показаны на рис. 11.4а и б. Очевидно, что в этом случае форма акустического сигнала довольно регулярна и содержит приблизительно восемь периодов ОТ. При этом наблюдается лишь незначительная амплитудная модуляция пиков речевого сигнала.
Остаточный сигнал состоит из острых пиков в начале периодов ОТ, причем его поведение между пиками нерегулярно, а амплитуда относительно мала. Периодические колебания внутри периодов ОТ речевого сигнала эффективно удалены путем обратной фильтрации. Шумоподобное или нерегулярное поведение остаточного сигнала затухает таким образом, что во второй половине каждого его периода амплитуда во много раз меньше пиков в начале периодов ОТ. Для нормального голоса наиболее важной характеристикой сигнала остатка является большое отношение пикового значения сигнала (амплитуды пиков) к шуму (во второй половине периода ОТ).
Речевой сигнал и сигнал остатка больного с прогрессирующим случаем рака гортани представлены на рис. 11.5. Запись была сделана за несколько дней до полного поражения гортани. Анализ осциллограмм показывает, что в акустическом сигнале присутствует мало каких-либо периодических компонентов, хотя и можно заметить некоторое периодическое поведение, вызванное резонансами речевого тракта. Речь в этом случае крайне непонятна и груба. В сигнале остатка исчезают периодические компонеп-286
ты, так что он представляет собой шумоподобный непериодический процесс. Сравнение рис. 11.4 6 с 11.5 б позволяет говорить о высокой степени отличия между голосом нормального человека и голосом больного с повышенной патологией. Эти отличия очевидны как для акустических сигналов, так и для сигналов остатка. Большой интерес представляет определение ранних стадия развития патологии.
Пример патологического голоса, по которому, вероятно, не была бы обнаружена патология горла, если бы исследовался один акустический речевой сигнал, представлен на рис. 11.6а. Соответствующий ему остаток предсказания показан на рис. 11.6 6. Больной, как показала косвенная ларингоскопия, имел небольшое узелковое утолщение на левой голосовой связке и уменьшенную гиперемию окончаний голосовых связок. При восприятии голос по оценкам слушателей был слегка хриплым. Акустический сигнал строго периодичен, а периоды ОТ весьма схожи, причем к концу анализируемого интервала наблюдается небольшой спал амплитуды. Так как патология находится здесь в своей ранней стадии, то следует ожидать, что форма этого сигнала будет лежать между формами для нормального и патологического голосов. Это легко определить по сигналу остатка на рис. 11.6 6. В начале
каждого периода ОТ наблюдаются умеренные пики. Однако для некоторых из них характерны довольно большие колебания. Уровень шума сказывается здесь несколько выше, чем для нормальных голосов. В недавно проведенном Дэвисом [31] исследовании те же самые десять нормальных и десять патологических голосов были правильно классифицированы на основе изменений характеристик сигнала остатка с помощью ЭВМ, реализующей алгоритм распознавания образов. Хотя такие наблюдения и результаты носят предварительный характер, можно надеяться, что сигнал ошибки или остаток при анализе с помощью линейного предсказания действительно содержит ценную информацию о состоянии голосовых связок.
11.4. ОЦЕНКА ПОЛЮСОВ И НУЛЕЙ 1
В предыдущих главах было показано, что линейное предсказание представляет собой мощный инструмент для обработки речи, хотя анализ и ограничивался только полюсной моделью. Атал [14] предложил, что ощущаемая даже в настоящем случае разница между реальной и синтезированной речью, полученной на основе методов линейного предсказания, частично определяется ограничениями модели, имеющей только полюсы. Это наиболее заметно при анализе назальных звуков, таких, как /п/ в слове linear, когда теоретичски должны иметь место нули передаточной функции модели вследствие влияния носовой полости на образование звука [41, с. 77—80]. Кроме этого, коартикуляция при произнесении слов, подобных слову linear, приведет к тому, что соединения с назальным звуком будут также назализированы. Поэтому представляется целесообразным рассмотреть обобщение полюсной модели линейного предсказания с целью включения в нее и нулей. К сожалению, даже в простейших случаях прямая оценка по методу наименьших квадратов приводит к нелинейным уравнениям для коэффициентов числителя передаточной функции. Решения таких уровней обязательно будут итеративными н не могут гарантировать сходимость к глобальному минимуму.
Разработаны подходы, которые в принципе могут быть использованы для получения на основе линейной модели идеальной синтезированной речи. Об одном из них упоминалось при обсуждении метода Прони в гл. 2. Там предполагалось, что в пределах периода ОТ последовательность отсчетов речевого сигнала приближенно описывается г-преобразованием, определяемым выражением (2.25), которое можно переписать в следующем виде:
Полином A(z) был получен приближенно согласно tметоду Прони, который, как I было показано, эквивалентен коварйационному методу. Если точность вычислений достаточна, то Л (г) находится точно при условии, что последовательность отсчетов действительно имеет г-преобразование, определяемое выражением
(11.5). Если корни Л (г) обозначить через гь z2. zM, то последовательность х(п), соответствующая (11.5) и описываемая выражением (2.34), может быть записана в виде (. )
Для определения коэффициентов <ц4>или , минимизирующих сумму квадратов т](и), можно применить метод наименьших квадратов к (11.6) либо к (11.7). При этом в случае отсутствия ошибки получаются точные результаты, т. е. (11.5) оказывается точным, так как будет существовать набор коэффициентов, который сводит к нулю последовательность <тДп)>.
Этот подход вполне успешно был проверен на многих сегмен-
тах чистой синтезированной речи. Однако в случае реальной речи результаты оказывались бессмысленными. Оценки спектров содержали острые пики (изломы) и были совершенно неудовлетворительными. Та же самая процедура использовалась Шенксом [146] для расчета цифровых фильтров на основе их отклика на-единичный отсчет. Если последовательность исходных данных, речи или отклика на единичный отсчет действительно имеет г-преобразование, определяемое дробью (11.5), то числитель и знаменатель могут быть точно найдены на основе ковариационного метода обработки по меньшей мере 2М соседних отсчетов, взятых в любом месте такой последовательности.
Как было отмечено выше, метод Шенкса предполагает, что-анализ проводится синхронно с одним периодом ОТ. Действительно, что предположение является общим для всех методов анализа модели, содержащей полюсы и нули. При этом необходимо знать как входной, так и выходной сигналы идентифицируемой системы. Одни из способов удовлетворения этому требованию основывается на методе гомоморфной развертки (11.7). Оставляя только низкочастотную часть кепстра речевого сегмента, выделенного с помощью временного окна, можно оценить минимально-фазовую аппроксимацию импульсного отклика речевого тракта, включая источник возбуждения. По определению минимальнофазовый сигнал не содержит линейного фазового компонента и,
следовательно, соответствующим образом синхронизирован для анализа методом Шенкса или каким-либо другим методом.
Этот подход лежит в основе нового метода описания речевого сигнала с учетом полюсов и нулей, называемого гомоморфным предсказанием [120]. Оно обладает устойчивостью методов линейного предсказания, так как предполагает непосредственное применение для оценки как полюсов, так и нулей. Основная стратегия заключается в преобразовании нулей исходного сигнала в полюсы и в последующем использовании линейного предсказания для определения их местоположения. Один из способов выполнения этой обработки основывается на следующих наблюдениях [75]. Пусть х(п) означает сигнал, a X(z) —его z-преобразование.
Инвертируя спектр сигнала х(п), можно получить новый сигнал х

1(п), z-преобразование которого l/X(z). Полюсы функции 1/X(z) являются нулями X(z) и наоборот. Инверсия спектра сигнала может быть выполнена с помощью кепстра. Когда линейное предсказание применяется к х

1(п), корни получаемого при этом полинома являются оценками нулей X(z).
При анализе речи последовательность х(п) соответствует оценке импульсного отклика речевого тракта, получаемого от низкочастотной части кепстра речевого сигнала, подвергнутого обработке с применением временного окна. Эффективность такого метода повышается, если вначале применить линейное предсказание к х(п), а затем отфильтровать х

х (п) с помощью полученного фильтра. Такая процедура позволяет приближенно исключать нули из л

Источник

Читайте также:  Семерка кубков таро значение предсказание
Оцените статью