популярно о природе звука

Распознавание речи машинами

Знание всех тонкостей процесса формирования речи сегодня представляет собой не только академический интерес. Ведь общение человека с машиной становится все более непосредственным. Правда, сейчас оно в основномРаспознавание речи осуществляется с помощью клавиатур, перфокарт и магнитных лент.По мнению многих, именно эти моменты в процессе связи человека с машиной затрудняют практическое применение последних. Слишком много времени тратится на подготовительную работу, а машинное время очень дорого. Следует также отметить, что неподготовленные люди не могут обращаться с машиной, а подготовка программистов требует дополнительных средств. Как было бы хорошо, если бы мы могли беседовать с машиной по телефону!

Можно много говорить о пользе машин, умеющих распознавать или синтезировать речь. В частности, они, например, позволяют передавать по любому каналу связи значительно больше сообщений. Мы уже говорили о том, что для удовлетворительной передачи речи необходимо посылать примерно в 1000 раз больше информации по сравнению с той, которую может воспринимать слушатель. Следовательно, если бы мы могли каким-то образом выделять из звуковых сигналов речи полезную информацию и передавать слушателю только ее, то мы освободили бы 99,9% информационного объема канала. Иными словами, теперь мы могли бы передавать по каналу связи вместо одного нормального акустического сигнала 1000 закодированных посланий. Естественно, что на выходе канала закодированные сигналы с помощью синтезирующего прибора необходимо преобразовать в обычную речь. К сожалению, в практику такие устройства еще не вошли, хотя значение их несомненно.

Рассмотрим первенца приборов такого типа, называемого вокодером (от voice coder, что означает кодирующий голос). Он был построен в 1939 году сотрудником лаборатории Белл телефон Гомером Дадли и показан на Всемирной выставке в Нью-Йорке. Этот вокодер предназначался для повышения емкости передающих каналов. Анализ частотных компонентов речи осуществлялся в нем с помощью 10 полосовых фильтров, покрывающих всю область частот человеческой речи. С выхода каждого фильтра сигнал (измерялась интенсивность сигнала в полосе частот, которую пропускает фильтр) поступал в аналогичный фильтр на выходе вокодера. С помощью этого фильтра и воспроизводилась первоначальная речь. Недавно фирма IBM разработала устройство, реагирующее непосредственно на голос человека, которое используется с электронно-вычислительной машиной типа IBM-360.

Попытка осуществить анализ и синтез речи с помощью вокодера чем-то напоминает блуждание по темным закоулкам, так как вокодер передает речь, но сам ее «не понимает».