Филолингвия
Понедельник, 18.11.2024, 20:34
Приветствую Вас Гость
 
Главная страница Информация о сайтеРегистрацияВход
Меню сайта
  • Главная страница
  • Информация о сайте
  • Новости
  • Каталог статей
  • Рейтинг статей
  • Каталог ресурсов
  • Каталог ссылок
  • Как выучить английский
  • Форум
  • Фотоальбом
  • Рефераты по языкам
  • Гостевая книга
  • TOP 100
  • Методы.
  • Методики.
  • Новости языков
  • Новости английского
  • Прямой эфир.
  • Доска объявлений
  • Гостевая книга
  • TOP 100
  • Категории каталога
    Учим английские слова [382]
    Применение технических средств [120]
    Советы преподавателей [262]
    Практические советы [384]
    Английский грамматика. [101]
    Фонетика - английское произношение [52]
    Истории успеха [250]
    Секреты успеха. [105]
    Английский чтение [54]
    Тайм-менеджмент [5]
    Секреты полиглотов. [63]
    Развитие памяти [19]
    Советы психологов [59]
    Мышление на языке [55]
    Сейчас на сайте
    Онлайн всего: 7
    Гостей: 7
    Пользователей: 0
    С днем рождения!
    Khanda(31), diyosha21(37), серж(43), Matvej1(34), Омина(45), Debbra(41), ramenofroman(36), miss_eliot(38), Сергеевич(38)
    Сегодня сайт посетили
    Система Эффективного Самостоятельного Изучения Языков
    [28.08.2024]
    Тайное знание элиты: Структурный Дифференциал Коржибского (0)
    [06.02.2019]
    Прекращение поддержки домена filolingvia.ru (0)
    [14.08.2018]
    Английский без правил! (1)
    [13.08.2018]
    Прогнозирование - это не чудо, а технология или зачем искусство стратегии тем, кто учит английский язык? (0)
    [08.03.2018]
    Тридцать два самых красивых английских слова! (0)
    [06.01.2018]
    Доброе Поздравление - 2018 от Студии Языков (0)
    [23.11.2017]
    Набор для игры "88 8опросо8" с глаголом "to buy" (0)
    [20.11.2017]
    Pushing the button - Динамика действия в реальности (0)
    [15.11.2017]
    Скачать Бесплатно Лингвокарты (0)
    [15.11.2017]
    В четверг, 16 ноября, 19.00 МСК - Интерактивная Лингвокарта. Виталий Диброва представляет новый мастер-класс на Марафоне. (0)
    [15.11.2017]
    В четверг, 16 ноября, 19.00 МСК - Интерактивная Лингвокарта. Виталий Диброва представляет новый мастер-класс на Марафоне. (0)
    [23.09.2017]
    Говорящий тренажер с "живой" Лингвокартой на 2-х языках (0)
    [20.09.2017]
    ТАВАЛЕ фестиваль: 13 - 22 октября 2017 в Харькове. Студия Языков на крупнейшем фестивале тренингов и методов развития человека! (0)
    [15.09.2017]
    You'll get the power! (0)
    [11.09.2017]
    10 лайфхаков для изучения английского каждый день (1)
    [07.09.2017]
    Прямая Линия Поддержки. (0)

    Начало » Статьи » Как выучить английский » Применение технических средств

    Анализ параметров речевого сигнала создающих восприятие элементарных звуков речи

    Анализ параметров речевого сигнала создающих восприятие элементарных звуков речи

    Analysis of the voice parameter signal to give a speech perception of elementary sounds

    Э.Г. Кнеллер вице - президент некоммерческого партнерства “Консорциум “Российские Речевые Технологии”, генеральный директор ЗАО ”ИстраСофт”

    Рассматривается новый подход к первичной обработке сигнала, выделению и измерению его параметров, непосредственно отвечающих за восприятие звуков речи естественных языков.

    We are presenting a new approach to the initial signal processing of speech. This approach will allow  the extraction and measurement of those  signal parameters, which represent  the perception of sounds of speech.

     


     

    В настоящее время системы распознавания речи главным образом основаны на формально-математическом аппарате скрытых Марковских моделей. В них  используется недостаточная первичная обработка сигнала для выделения признаков звуков. Этот подход обеспечивает минимально приемлемую надежность распознавания  - около 90% только в строго фиксированных условиях, - но отличается неустойчивостью по отношению к помехам внешней среды и каналу связи, что существенно сужает область его применения.

    Фирмой «ИстраСофт» (www.istrasoft.ru) разработан новый подход к первичной обработке сигнала, позволяющий выделить и измерить его параметры, непосредственно отвечающие за ощущение того или иного звука речи соответствующего языка. Он основан на математической модели улитки, как первичного анализатора акустофонетической информации, и классификации измеренных параметров речевого сообщения для получения полной транскрибации речи. Полная транскрибация (Rich transcriptions) - это процесс преобразования звуковых сигналов к полно аннотируемому текстовому представлению (слова + метаданные). В отличие от  речевых технологий, разработанных другими компаниями, наша позволяет выделить и измерить в речевом сигнале фонемы, независимо от особенностей голоса говорящего, что дает хорошие результаты даже при высоком уровне фонового шума.

    Под фонемами мы понимаем только ту часть речевого сигнала, которая создает ощущения  элементарного звука речи естественного языка.

    В процессе исследований были определены и измерены первичные характеристики и границы зон параметров речевого сигнала, передающих (создающих) ощущения звуков речи соответствующего языка. Как известно ощущение звуков речи можно создать, генерируя их как  естественными  системами (речь человека или, например, попугая),  так и искусственными. При естественной или искусственной генерации речи в речевом сигнале изменяются физические параметры, которые, воздействуя на мембрану уха, возбуждают группы рецепторов. Изменения этих параметров во времени создают звуковые образы (траектории параметров во времени), воспринимающиеся как соответствующие звуки языка.

    Поставленная задача заключалась в исследовании речевого сигнала, определении и визуализации параметров, создающих ощущения звуков (фонем), измерении и классифицировании этих параметров.

    При исследовании были рассмотрены следующие аспекты:

    ·         обработка сигнала

    ·         слуховые модели

    ·         артикуляторные модели

    ·         модели произношения

    ·         алгоритмы поиска

    ·         обучающиеся алгоритмы

    и возможные способы извлечения метаданных из речевого сигнала, включающих информацию о:

    ·         акценте и эмоциях

    ·         стилях говорения

    ·         интонации речи (например, вопрос или утверждение)

    Как известно, звуки речи человека генерируются, как правило, артикуляционным аппаратом. В общем, его математическую модель можно представить в виде возбуждающих генераторов тонового и белого шума и группы фильтров, модуляторов и ключей (рот, нос, язык, губы), обеспечивающих фильтрацию и формирование определенного ощущения звука. При генерации речи речевым аппаратом  человека для получения различных типов звуков используются следующие физические принципы:

    ·         генерация голосовой щелью периодических звуковых  импульсов (сигналов), в этом случае получается "гласный" звук

    ·           формирование артикуляционным аппаратом шумового сигнала (в этом случае голосовая щель отключена), получается “шипящий согласный”

    ·          смешанные  шипяще-тоновые звуки типа “З”и “Ж”, где одновременно присутствует шумовая составляющая, модулированная голосовой щелью, или типа “Р”, где модулируется тоновый сигнал

    ·          перекрытие потока воздуха артикуляционными органами и последующим акустическом ударе, генерируется “взрывная согласная”

    ·         отсутствие звука-“пауза”

    ·         изменение параметров артикуляции  в процессе  генерации звука, создающее ощущение определенного звука (дифтонги, аффрикаты).

    ·         относительное изменение основного тона, определяющее интонацию.

    Наиболее известной характеристикой речевого сигнала является основной тон. Эта характеристика представляет собой обычную частотную модуляцию сигнала, параметры которой легко измеряются. Классифицируются относительное изменение частоты и траектория во времени при произнесении слова или фразы. Относительное изменение частоты может достигать 15%, что в европейских языках передает эмоциональную составляющую речи, а в некоторых восточных - смысловую. Так, в русском языке различные траектории вызывают ощущение до 28 типов эмоций. Установлено, что период основного тона разных людей (мужчин и женщин, взрослых и детей) находится в диапазоне  50-250 Гц.

    Согласно теории распознавания речи, основанной на формантной модели, по формантам можно определять звук. Наши исследования показали что, форманты это только один из способов генерации звука, служащий для получения соответствующих физических характеристик сигнала создающих ощущение звука. Так, например звук “А” у различных людей может состоять как из одной, так и из двух формант. Положение формант на частотной оси у голосов различных людей (мужчин и женщин, детей и взрослых) также прямо не коррелирует с соответствующими звуками. Кроме того, некоторые форманты присущи индивидууму, создают ощущение его индивидуальности (узнаваемости) и не влияют на формирование ощущения звуков речи. Такие форманты могут использоваться при идентификации личности.

    Известно, что ухо преобразует акустический сигнал в спектральную область. Этот преобразователь имеет хорошо исследованные характеристики чувствительности по частоте и линейности преобразования в зависимости от энергетики в спектральных зонах, времени воздействия сигнала, его динамики и времени восстановления чувствительности после воздействия (эффект маскирования, спектральные зоны – барки и т.п.)

    Поэтому алгоритмы, используемые для преобразования сигнала в спектральную (частотную) область должны иметь характеристики частотной чувствительности и линейности, близкие к таким при естественном преобразовании звукового сигнала ухом. Это требование является необходимым  для правильной интерпретации значений этих характеристик при распознавании и синтезе речи.

    Обычно для первичного частотного преобразования в спектральную область в существующих алгоритмах применяется Фурье преобразование. Его недостатком является сворачивание временного отрезка  в точку, что не позволяет выделить и измерить динамические параметры взрывных звуков. Вайвлет – преобразования, наоборот, имеют большое разрешение во временной области, что не нужно при измерении  других типов звуков и их комбинации.

    Нами была разработана математическая модель спектрального преобразователя. Эта модель основана  на выделении спектра гребенкой рекурсивных фильтров с настройкой параметров выделения в соответствии с характеристиками чувствительности, близкими к естественному преобразователю звукового сигнала, каким является ухо.

     Проведенные нами исследования показали, что определяющими характеристиками, создающими ощущения звуков речи (фонем), вне зависимости от типа возбуждающего сигнала шумового, тонового или их комбинации, являются некоторые параметры (Рис. 1), в том числе динамические, речевого сигнала, воздействующие в течение значимых отрезков времени (5-20мс, 20-50мс. 50-100мс). Это:

    ·         относительная энергетика спектрального воздействия в определенных зонах

    ·         количество зон относительного спектрального воздействия

    ·         ширина зоны относительного спектрального воздействия

    и параметры, которые определяют ширину зоны воздействия:

    ·         частота среза спектрального воздействия

    ·         наклон частоты среза спектрального воздействия

    ·         добротность воздействия сигнала


     

    Рис. 1  Характеристики  речевого сигнала, создающие ощущения звуков речи.


     

    Имеются несколько типов вышеперечисленных характеристик, описывающих изменения этих физических параметров во времени в зонах воздействия:

    ·          статические

    ·          динамические,

    ·          взрывные.

    Под статическими нами понимаются характеристики, параметры которых незначительно изменяются в течении  30-100 мc и более

    Под динамическими понимаются характеристики, параметры которых изменяются по определенным траекториям в течение 30-100 мс, причем траектории могут иметь разный знак, но величина производной одинакова (важна динамика, а не ее знак).

    Под взрывными понимаются характеристики, параметры которых изменяются по определенным траекториям в течении 10-20 мс.

    Зон воздействия может быть одна, две или три.

    Разработана методика определения граничных параметров значащих характеристик сигнала, отвечающих за ощущения звука. Предложены алгоритмы измерения этих параметров. Критерием определения соответствия характеристики тому или иному звуку, правильности определения границ параметров, служила оценка звука, который генерировался на основе выделенных  параметров, экспертами.

    В настоящее время разработанные алгоритмы используются для визуализации фонем и получения оценки произношения звуков в известных языковых обучающих программах серии “Профессор Хиггинс”, выпускаемых фирмой “ИстраСофт”, для сжатия звуковых файлов с целью уменьшения их, а также для работы программы в сети Интернет.

    Создан DLL модуль, на основе которого разрабатываются  программы для

    ·        передачи речи и музыки через Интернет

    ·        голосовой почты

    ·       компрессии звуковых баз данных

    ·       компактной записи речи и музыки.

    Написаны  демонстрационные программы Sound Squeezer” (сжатие музыки и речи),”SF6 player” (проигрывание сжатых файлов), IstraSoft Voice Commander" (командное голосонезависимое распознавание).



    Другие материалы по теме


    Источник: http://www.istrasoft.ru/Analysis.htm
    Категория: Применение технических средств | Добавил: tivita (08.11.2007) | Автор: istrasoft.ru
    Просмотров: 5319 | Рейтинг: 0.0 |
    Вы овладеете английским!
    • Вы верите, что всего за несколько часов можно понять, как поставить правильное произношение, не изучая долго и нудно теоретическую фонетику, а всего-лишь поймав "фокус" языка?
    • Вы верите, что за несколько часов можно понять всю систему английских времен, которую безуспешно учат годами в школе, институте или на курсах?
    • Вы верите, что вместо скучных учебников можно заниматься по Вашим любимым фильмам и сериалам, испытывая при этом восторг и наслаждение от занятий английским?
    Мы не только верим, а и твердо убеждены, так как уже сотни людей прошли по этому пути и поделились с нами своми успехами и достижениями!
    И мы верим в Вас, потому что Вы легко научились говорить на языке, который на порядок сложнее английского!
    Поэтому более простым и логичным английским Вы овладеете гораздо быстрее и легче! Конечно,если будете делать это правильно, естественным путем - моделируя носителей языка.
    Руководствуясь при этом не громоздкими правилами, а простыми и понятными визуальными моделями!


    Получите бесплатно материалы - подпишитесь на рассылку!
    Подписка на рассылку
    Никакого спама, гарантируем!


    Получите результат немедленно - приступайте к занятиям прямо сейчас!

    Получить Лингвокарты
    Никакого спама, гарантируем!

     


    Всего комментариев: 0
    Добавлять комментарии могут только зарегистрированные пользователи.
    [ Регистрация | Вход ]

    Подпишись на RSS ленту
    RSS лента
    Форма входа
    Рекомендуем
        

    Друзья сайта
    Статистика
    Прямой эфир
    Copyright Filolingvia © 2007-2009
    Сайт управляется системой uCoz