популярно о природе звука

Синтез речи

В отличие от машин для распознавания речи машины, которые могут «говорить», общеизвестны. Например, «говорящие часы» сообщают нам по телефону время, а вычислительные устройства, стоящие на линии Нью-Йорк- Лондон, буквально через минуту после телефонного запроса дают информацию об уровне цен на бирже. Эти два устройства, несомненно, являются говорящими машинами. Но, подобно фонографу, их принцип работы основан на записи человеческой речи: небольшой запас слов записывается на магнитном барабане, а устройство, осуществляющее прямой контроль, определяет, какие из записанных слов следует воспроизвести. В настоящее время многие лингвисты, психологи, фонетики, инженеры по электронике и акустике работают над новой усовершенствованной говорящей машиной, по сравнению с которой названные устройства окажутся столь же архаичными, как говорящая кукла.

Наиболее выгодно использование говорящих машин совместно с ЭВМ. Тогда ЭВМ получала бы указания в разговорной форме через устройство для распознавания речи, а затем через устройство для. синтеза речи давала бы ответ в той же форме, подобно Хэлу, говорящему роботу, в фильме Стэнли Кубрика «Космическая Одиссея: 2001». Мы уже говорили о том, какими преимуществами обладают машины, с которыми можно вести диалог. Возможно, наиболее интересной является машина, способная читать печатный текст. В настоящее время некоторые исследователи, среди них Чомский, известный американский специалист в области языкознания, занимаются разработкой преобразователя, который сможет превращать написанный текст в разговорную речь. Уже показано, что такой прибор больше не является научной фантастикой. И наконец, сейчас уже имеются перспективы автоматического перевода. Существует машина, которая может переводить с русского языка на английский (в основном прозу). Такая машина, снабженная устройством для распознавания и синтеза речи, могла бы быть предтечей «преобразователя языка». Она читала бы русский текст, а говорила по-английски, или наоборот.

Очевидно, что ни в одном из этих устройств уже нельзя использовать принцип записи речи на пленку, как это делается в «говорящих часах». Словарный запас таких приборов должен быть огромным. Но более важным является следующее обстоятельство: в разговорной речи одно и то же слово может появляться в совершенно различных по типу предложениях и произноситься с различной степенью выразительности и разным тоном. Кроме того, как уже упоминалось выше, в разговорной речи на звук произносимого слова накладывается звук предшествующего слова. Поэтому необходимо при конструировании такого устройства учесть все тонкости речи. Оно должно без всяких записей на магнитную ленту произносить слова, по звучанию подобные разговорной речи человека. Только такое устройство можно считать синтезатором речи.

Говорящие машины известны давно. Но, подобно аппарату, построенному Вольфгангом фон Кемпеленом еще в конце XVIII столетия, они являются механическими моделями голосового аппарата человека, в них имеются воздуходувные мехи, язычки и акустические резонаторы, имитирующие соответственно легкие, голосовые связки и голосовой тракт. Существует также система для контроля работы этих устройств. Некоторые из таких механических аппаратов довольно-таки хорошо произносили слова. В 1920 году сэр Ричард Пэйджет показал, что гласные звуки с высоким качеством звучания можно воспроизводить с помощью колеблющихся язычков и резонансных полостей, изготовленных из глины. Ему даже удалось воспроизвести простые предложения (такие, как «Алло, Лондон, вы слышите меня?» или «О, Лейла, я вас люблю»).

В современных синтезаторах речи в основном использован тот же принцип воспроизведения звука. Отличие заключается лишь в том, что теперь вместо механических устройств применяются электронные. Голосовые связки заменяются импульсным генератором, служащим источником гласных звуков, источником же согласных звуков, таких, как «с», «ф», является генератор шума. Электрические аналоги реальных звуков далее направляются в электронное устройство. Последнее бывает двух типов.

Устройство первого типа основано на моделировании артикуляции, то есть на непосредственной замене различных частей голосового тракта человека соответствующими электронными устройствами. Голосовой тракт представляет собой набор связанных между собой секций, каждая из которых состоит из коденсатора и индуктивности. Контрольные сигналы в синтезаторах этого типа устанавливаются по аналогии с физиологической картиной положения языка и губ. Первая говорящая машина такого типа, способная произносить целые предложения, была построена в 1957 году американским ученым Розеном и получила название ОАУО 1. Она содержала 13 контрольных устройств, каждое из которых выполняло лишь простую функцию имитируемого им участка голосового тракта. Несмотря на это, качество речи, воспроизводимой ОАУО, было превосходным.

Устройства для синтеза речи второго типа основаны на акустическом моделировании. Здесь мы уже не следуем физиологической структуре голосового тракта, а используем для синтеза речи такие понятия, как формантная частота, амплитуда, продолжительность звучания и т.д. В отличие от метода моделирования артикуляции, связанного с изучением голосового тракта, при акустическом подходе воспроизводится звук, записанный на спектрограмме. Первый такой акустический синтезатор, который публично демонстрировался в Лондоне, был построен английским ученым Лоуренсом в 1952 году. Принцип работы этого прибора заключался в том, что он сканировал звуковое поле, записанное на спектрограмме, а полученные электрические сигналы контроля использовались для трех формантных частот и специфических параметров источника звука.

До сих пор наиболее успешно синтез речи осуществлялся ручным способом. Этот способ включает в себя непрерывную проверку и перепроверку всех параметров системы и их подгонку к тем значениям, которые позволяют синтезировать разговорную речь, понятную окружающим. Необходимость дополнительного прослушивания и перепроверки каждого слова или предложения, произнесенного таким прибором, осложняет применение прибора. Его обычно используют лишь для исследования основных факторов, которые требуется учитывать при проектировании синтезаторов речи, пригодных для практического использования. Для создания говорящей машины, подобной Хэлу из фильма «Космическая Одиссея: 2001», требуется синтезатор речи, способный действовать строго в соответствии с определенными правилами. Синтез речи по установленным правилам можно понимать как метод преобразования дискретного набора входных сигналов (фонем, знаков препинания, ударения) в некие контрольные сигналы, которые можно направить в синтезатор речи и получить на его выходе обычную беглую речь.

В различных лабораториях мира работают в настоящее время над проблемой синтеза речи по некоторым установленным заранее правилам. Но основная задача в этой области - найти и идентифицировать правила человеческой речи, которые точно определяют, как фонемы воздействуют друг на друга и как осуществляется переход между отдельными фонемами. К этим правилам следует также добавить те, которые делают нашу речь разумной, с правильной расстановкой ударений и четким ритмом. Большие успехи, достигнутые несколько лет назад в идентификации этих правил, позволили создать ряд синтезаторов. Следует добавить, что, несомненно, машины для синтеза речи получат распространение значительно раньше, чем устройства, распознающие непрерывную речь. И по-видимому, ЭВМ начнет «разговаривать» с нами много раньше, чем мы сможем научиться отвечать ей в такой же разговорной форме.