популярно о природе звука

Проблемы распознавания речи

Прежде всего кратко рассмотрим основные требования, которым должны удовлетворять машины, распознающие речь. По мнению некоторых специалистов, о машинах, способных распознавать разговорную речь разных людей, пока не стоит говорить серьезно - это дело далекого будущего. Если даже иметь в виду речь только какого-то одного человека, то и здесь достигнутые успехи очень скромны. Однако в последние годы уже появились приборы, которые могут распознавать небольшое количество отдельных односложных слов, произнесенных одним человеком. Сегодня все усилия ученых направлены на то, чтобы расширить «словарный запас» машин и «научить» их понимать голоса разных людей. Поистине идеальной была бы машина, понимающая слова независимо от того, в каком эмоциональном состоянии, с каким акцентом, мужчиной или женщиной они произносились. Другие, менее существенные трудности состоят в том, что сегодня человек еще находится в подчиненном положении по отношению к машине, является ее придатком: чтобы быть понятым, он должен «разговаривать» с машиной на ее языке, осуществив предварительно массу подготовительных операций.

Оказывается, что человеческий мозг мгновенно может распознать лишь одну- единственную фонему, которая в действительности представляет собой чрезвычайно сложный набор звуков различной частоты и продолжительности. Причем мозг без труда выделяет из массы параметров именно те, которые определяют фонему. Несмотря на многочисленные исследования, до сих пор еще не удалось установить взаимно однозначной связи между звуковой картиной и воспринимаемой мозгом фонемой. Это объясняется чрезмерной сложностью и многообразием звуковых картин, которые можно «нарисовать» на основе различных комбинаций амплитуд, частот и продолжительностей звучания.

Сравнительно легко создать прибор для распознавания речи, который может понимать несколько слов, произнесенных одним и тем же голосом. В 1950 году такой прибор был изготовлен в США.. С точностью, близкой к 100%, он узнавал 10 цифр, которые по телефону сообщал ему один и тот же человек. Однако когда эти же самые цифры произносил совершенно четко и с соблюдением всех положенных пауз уже другой человек, точность прибора падала до 50%. Принцип работы прибора заключался в выделении первой и второй формант, образующих гласные звуки. При дальнейшем усовершенствовании прибор мог уже распознавать звуки (цифры от 1 до 10), произнесенные другими людьми, которые подражали голосу, привычному для прибора. Однако увеличить его словарный запас и восприимчивость к различным голосам оказалось невозможным.

В США наиболее успешно в этой области работает фирма RCA. В 1956 году группой, руководимой Олсоном, была построена машина, которая с точностью 98% могла распознавать 10 односложных слов, произнесенных одним голосом. От говорящего при этом требовалось тщательное произношение слов и строгое соблюдение интервалов между ними. Машина могла работать в пяти различных временных интервалах и имела восемь частотных полос: получалась матрица (8 X 5) из сорока ячеек. Если энергия сигнала, поступающего в любую ячейку, больше некоторого порогового значения, то на ячейке загорается цифра «1», если же меньше - то «О». Таким образом, каждый слог оказывался закодированным. Закодированная информация посылается на хранение в блок памяти, откуда ее при желании можно извлечь и отправить в блок печатающего устройства. В результате различных усовершенствований, но с использованием тех же принципов удалось к 1961 году повысить фонетический запас прибора до 100 слогов, а к настоящему времени - до 2000 слогов.

В начале 60-х годов группой японских ученых был построен прибор, удовлетворительно распознающий японскую речь. Повышенный интерес, существующий в Японии к такого рода исследованиям, вполне понятен: хотя японская письменность намного сложнее, например, английской, фонетическая структура японского языка гораздо проще.

Английские ученые Бездел и Бридл предложили более простой, первоначально имевший некоторый успех подход к проблеме распознавания речи. Они заметили, что ухо и мозг способны распознавать речь даже в том случае, когда гребни и впадины звуковых волн речи являются частично «подрезанными». Они предложили измерять временные интервалы между точками, соответствующими нулевым значениям звуковой волны. Устройство, изготовленное ими в 1969 году, могло распознавать 10 слов, произнесенных 12 произвольно выбранными людьми, с точностью 91-98%. Однако, несмотря на очевидные и весьма обещающие результаты, исследования по этой программе были прекращены. Несколько в ином виде они были продолжены другим английским ученым Лэвингтоном, который, кроме временных интервалов, ввел в рассмотрение амплитуду модуляции звуковой волны и производную ее по времени. Измерения этих трех параметров производились каждые десять миллисекунд. Испытания показали, что 10 цифр, которые произносили 19 различных людей, устройство распознавало с вероятностью 97-98%. В настоящее время Лэвингтон с учетом уже полученных экспериментальных данных разрабатывает новый усовершенствованный прибор, пригодный для практического применения.

Значительные успехи в решении проблемы распознавания речи достигнуты фирмой RCA (США). Кроме прибора, сконструированного Олсоном, там изготовлен ряд других приборов для распознавания речи. Один из них, созданный Мартином, Нельсоном и Заделем, впервые предназначен для практического применения. Это устройство предполагается использовать на сортировке корреспонденции в почтовом департаменте США. Оно включает в себя аналоговые логические элементы, имеющие некоторый порог срабатывания и моделирующие нервные ячейки человека. Элементы изготовлены на транзисторах и реагируют как на «положительные», так и «отрицательные» входные сигналы. Отметим, что аналоговые элементы включаются лишь тогда, когда величина входного сигнала превышает некоторый установленный пороговый уровень. Несколько сотен таких элементов соединены со сложным частотным анализатором, который разлагает звуки речи на определенные полосы частот. Выделение фонемных картин производится с учетом различных особенностей речи. Еще в 1965 г. с помощью этого прибора удавалось распознавать с точностью в 82 - 99 % 22 различные фонемы, включающие гласные, взрывные и сонорные звуки, произнесенные 6 различными людьми.

Основной задачей такой машины, предназначенной для использования на крупных почтамтах, является повышение эффективности работы сортировочных пунктов, на которых обычно работают бригады по два человека. Один из них сортирует корреспонденцию и кладет затем пачки на конвейер, другой же в это время прочитывает индекс и с помощью «ключа» сообщает этот индекс прибору, запускающему сортировочно-упаковочную систему, которая направляет упаковку в соответствующий почтовый мешок. Для работы же с сортировочной машиной, изготовленной фирмой RCA, достаточно одного человеку. Действительно, всю работу, которую делал второй сортировщик, теперь без труда может выполнять первый, поскольку почтовый индекс корреспонденции он может сообщить в микрофон. Работа с машиной происходит следующим образом: сортировщик сообщает индекс корреспонденции машине, затем кладет пакет на конвейер. Поскольку машина «понимает речь», то, получив приказ, она включает сортировочно-упаковочное устройство. Для страховки перед сортировщиком стоит монитор, на экране которого загорается названный им индекс. Если же машина «ослышалась», то сортировщик может поправить ее устно, сообщив ей еще раз сказанное ранее. В лабораториях RCA был изготовлен «космический робот», который понимал и выполнял 14 команд, таких, как «вверх», «вниз», «вправо», «влево» и т. д., которыми обычно пользуются космонавты и летчики.

Основнойже проблемой, так и не решенной на сегодняшний день, по-прежнему остается распознавание обычной разговорной речи. Здесь существуют по крайней мере две дополнительные трудности, которые необходимо преодолеть. Во-первых, произнесенные слова в отличие от написанных не отделены друг от друга, поскольку звук предшествующего слова частично накладывается на звук последующего. Услышанную фразу человек без труда разделяет на слова; для машины же такая задача оказывается чрезмерно сложной. Во-вторых, чтобы машина могла распознавать и понимать речь, необходимо, чтобы она запоминала не только акустическую картину речи, но и очень большое количество лингвистической информации. Только это позволит ей понять смысл услышанного. Другими словами, машина должна знать грамматику и синтаксис так же хорошо, как и громадное количество слов.

Первая проблема (рассечение речи на распознаваемые единицы - фонемы и слова) наиболее успешно решается группой американских ученых из Стэнфордского университета под руководством Редди. Решение второй проблемы, как отметил на совещании инженеров и ученых по проблеме распознавания речи профессор Пьер Делаттр, зависит от того, насколько хорошо инженеры и ученые смогут познать природу языка. «Может оказаться, - сказал он, - что девять десятых всей работы уже сделано».