Назначение и области использовния
Комплекс предназначен для создания оперативных фоноучетов и автоматической идентификации дикторов по фонограммам телефонных переговоров
Функциональные возможности
Идентификация дикторов по фонограммам телефонных переговоров, в т.ч. низкого качества, на основе сравнения «дикторских карточек». «Дикторская карточка» содержит в концентрированном виде индивидуальные, идентификационно значимые, характеристики голоса и речи диктора, а также текстовые комментарии пользователя Комплекса и ссылку на звуковой файл с речью диктора.
Создание фоноучетов объемом до 100 000 дикторов
Возможность работы с одной фонотекой одновременно нескольких пользователей
Отличительные особенности
Высокая эффективность работы с реальными сигналами, свободной речью дикторов, а не только с парольными фразами.
Возможность идентификации дикторов по сигналам низкого качества.
С учетом того, что во многих странах мира, включая Россию, до сих пор широко используются аналоговые АТС и линии, проложенные еще в начале прошлого века, это является немаловажным фактором.
Максимальная автоматизации процесса идентификации, что позволяет минимизировать требования к уровню подготовки обслуживающего персонала и повышает скорость принятия решения.
Возможность хранения в фонотеке, наряду со звуковыми, текстовых и графических файлов
Собственно процедура идентификации заключается в автоматическом попарном сравнении так называемых «дикторских карточек», в которых закодированы индивидуальные характеристики голоса и речи диктора.
Основные характеристики
Показатели надежности при идентификации «дальнего» диктора: (данные показатели получены при тестировании системы на официално зарегистрированной телефонной базе фонограмм русской речи: по 6 телефонных сообщейний с использованием различных телефонных линий от каждого из 100 дикторов различного пола и возраста)
91% при сравнении пары речевых сигналов длительностью каждого не менее 96 сек
85% при сравнении пары речевых сигналов длительностью 16 сек и 96 сек соответственно
82% при сравнении пары речевых сигналов длительностью 16 сек каждый
не менее 90% при сравнении пары речевых сигналов длительностью 16 сек и 96 сек передаваемых по одному и тому же каналу связи
Время создания одной «дикторской карточки» – 3…4 сек
Время сравнения одной пары «дикторских карточек» (принятия решения о принадлежности голоса и речи конкретному лицу) – не более 0.7 сек (при использовании ПК на базе Pentium III/1ГГц)
Максимальное количество эталонов («дикторских карточек») для проведения автоматического сравнения – 100 000
Состав
Комплекс включает две или более связанных в сеть ПЭВМ с установленным программным обеспечением, работающим в режиме клиент-сервер:
SpeechMarker – программное обеспечение для сегментирования сигнала
FormeBuilder – программное обеспечение для создания фонотек (баз данных), регистрации пользователей Комплекса и управления ими, а также задания структуры фонотеки
Server — модуль, необходимый для обеспечения хранения и использования «дикторских карточек» в рамках Комплекса
Operator – программное обеспечение для создания, просмотра и редактирования разделов фонотеки, добавления «дикторских карточек» и работы с ними