популярно о природе звука

Речь

Огромные достижения человека в области искусства и литературы, политики и философии, науки и техники во многом зависят от его способности использовать звук как средство общения. Дело в том, что человеческая речь по своей емкости превосходит другие способы передачи информации. Язык дает человеку возможность формулировать понятия, необходимые для сложных взаимоотношений в обществе. Кодируя свои мысли словами, человек можетРечь думать более рационально. (Попытайтесь, например, думать о работе автомобильного двигателя без слов!) Тем самым уже в наших мыслях как бы заложены акустические образы.

Каждый произнесенный нами звук создает в воздухе невероятно сложные и тонкие картины давлений. Окончательная форма звука, образующего речь, может быть много сложней первоначальной мысли, породившей его. Наша речь несет избыточную информацию по сравнению с информацией, содержащейся в первоначальной мысли. Такая избыточная информация позволяет распознавать речь каждого отдельного человека. Для описания с достаточной степенью точности картины звуковых давлений речи требуется объем информации около 35000 бит в секунду. Заметим, что средний человек способен воспринимать или воспроизводить только около 45 бит в секунду.

При произнесении почти всех звуков воздух из легких сначала поступает в гортань (хрящевую трубку, открытую с обоих концов и служащую «воздухопроводом»), а затем выходит через рот или нос. Выдыхаемый из легких воздух либо беспрепятственно проходит голосовой тракт, либо вынуждает колебаться голосовые связки. В первом случае могут создаваться согласные звуки речи, например «с»; во втором - гласные звуки или согласные типа «л» и «н».

Голосовые «связки» расположены в верхней части гортани и состоят из мышечных волокон, переплетенных между собой. Под действием проходящего воздуха голосовые связки начинают «гудеть», изменяя тем самым поток воздуха и образуя понятные нам гласные звуки речи. Энергия колебаний голосовых связок (как и других колебательных процессов) не сосредоточена на одной основной частоте, а распределена по целому спектру высших гармоник. Затем при прохождении звука через резонансные полости горла, рта и носа выделяются и усиливаются звуки, соответствующие определенным частотам. Звуковая энергия оказывается сосредоточенной в некоторых полосах частот, называемых формантами). Частоты, на которых происходит усиление звуков, в результате чего и возникает формантная картина звуков речи, определяются формой и размерами резонансных областей, образующих голосовой тракт.

Впервые наличие нескольких частотных диапазонов в речи человека удалось обнаружить английскому ученому Пэйджету. В настоящее время благодаря спектрограммам распознавание формант намного упростилось. Несомненно, формантная картина является самым важным признаком речи. Каждому гласному и большинству согласных звуков соответствует определенная формантная картина, которая сохраняет некоторые общие черты независимо от того, кто произносит данный звук: мужчина, женщина или ребенок. Однако наблюдаются и существенные различия, в частности по продолжительности звучания. Все это, естественно, усложняет создание прибора для распознавания речи. И над этой задачей мучаются в настоящее время многие ученые и инженеры.

Распознавание речи машинами

Проблемы распознавания речи

Синтез речи