X-PDF

Обзор разработок мультимодальных корпусов и изучение их структуры

Поделиться статьей

Первым учебным корпусом устной речи стал корпусLINDSEI.Он является разговорной копией ICLE. Первая версия корпуса была составлена на CECL и содержала стенограммы пятидесяти 15-минутных интервью со студентами 3-4-го года обучения. Она содержала приблизительно 100 000 слов. База данных в настоящее время наполняется дополнительными компонентами, представляющими другие языки, включая болгарский, китайский, итальянский, японский, испанский, и шведский. Поскольку большинство учебных корпусов использовало только письменные данные, этот тип данных дает новое исследование относительно широкого диапазона особенностей устного языка межнационального общения.

В России среди мультимодальных корпусов текстов самым популярным является подкорпус Национального Корпуса Русского Языка (НКРЯ). Мультимедийный русский корпус (МУРКО) – это подкорпус Национального корпуса русского языка, который содержит устные русские тексты, выровненные с соответствующими аудио- и видеофрагментами. МУРКО позволяет изучать устную речь, используя не только ее письменную фиксацию, но и ее реальное звучание и жестовое сопровождение. МУРКО рассчитан, прежде всего, на фонетистов, интонологов, специалистов по жестикуляции, но будет также полезен преподавателям русского языка, прежде всего, как иностранного.

Рисунок 2. Мультимедийный корпус НКРЯ

В настоящее время основу корпуса составляют видеоматериалы из отечественных фильмов и аудиозаписей публичной и непубличной устной речи. Технология подготовки материалов для корпуса предполагает расшифровку видео и аудиоматериалов, произведенную с высокой степенью подробности (т.е. включая не только собственно слова, но и междометия, возгласы, а также оговорки) . фрагментирование видео и аудио материалов на относительно самостоятельные отрезки (длительностью от10 до 20секунд) . фрагментирование текстовых расшифровок, или транскриптов . выравнивание мультимедийных и текстовых фрагментов между собой.

Клипотексты снабжены принятой в НКРЯ аннотацией – морфологической, семантической, социологической, акцентологической. Поскольку разметка клипотектов стандартная, то по ним возможен обычный для Национального корпуса поиск – по морфологическим, семантическим категориям, по социологическим параметрам и по их комбинации.

Наряду с метатекстовой разметкой, которая относится к тексту как целому, каждый клипотекст или клип считается отдельным текстом и описывается как отдельный текст с точки зрения его автора, названия,даты создания, жанра, хронотопа и некоторых других. [23]

Однако, кроме того, добавляются и другие, дополнительные характеристики, которые и раскрывают в полной мере своеобразие мультимедийного корпуса по сравнению, например, со стандартным устным подкорпусом. Прежде всего, предлагается некоторая система параметров, характеризующая речевую составляющую клипотекста.

· тип ситуации .

· тип речевых действий (вопрос, просьба, извинение, совет и пр.) .

· полнота речевого действия (полное, незаконченное, прерванное) .

· манера говорения (нормальная речь, шепот, крик, диктовка) .

Представленная информация была полезной?
ДА
58.6%
НЕТ
41.4%
Проголосовало: 988

· наличие и типы повторов однократный, многократный, переспрос, цитирование, передразнивание) .

· наличие и типы междометий и вокальных жестов (причмокивание, цоканье, присвистывание, подзывание и под.) .

· характеристика говорящих (количество, пол, язык, на котором говорят).

Уникальный материал и система разметки делают мультимедийный корпус мощным исследовательскими обучающим ресурсом. Его особенность в том, что методика использования существующих пособий ограничивается учебными задачами и предполагает в основном имитационные или имитационно-аналитические упражнения. Что касается корпуса, то в нем аудио- и видеоматериалы, выровненные с текстом, снабжены сложной лингвистической и металингвистической разметкой и снабжены инструментом поиска – и это расширяет возможности их использования. Корпус благодаря этому можно использовать не только в учебных курсах, но и в научно-исследовательских целях.

Еще один пример устного корпуса – проект «Один речевой день». Данный проект является первой попыткой серьезного изучения реального русского языка, на котором не написано ни одной книжки, но на котором мы все говорим. Корпус «Один речевой день» (ОРД) представляет собой один из блоков Звукового корпуса русского языка (ЗКРЯ), работа над которым ведется на факультете филологии и искусств СПбГУ. Принцип, положенный в основу организации этой части корпуса, условно можно назвать «принципом невода»: забрасываем широкую сеть в среду носителей языка, вытягиваем все, что в нее попало, и делаем это объектом многоуровневого анализа. Принцип невода позволяет увидеть реальную, естественную, а не искусственно созданную в лабораторных условиях, жизнь, отраженную в речи. В целом корпус ОРД характеризуется в настоящее время такими количественными показателями: 320 часов звучания, полученные от 40 информантов (20 мужчин и 20 женщин). Звукозаписи переформатированы, убраны длительные (больше 5 минут) шумовые фрагменты, не содержащие речи. Звукозаписи разрезаны на коммуникативные эпизоды по принципу общих условий коммуникации и качества звукозаписи. В результате было получено 994 файла-эпизода общей продолжительностью 268 часов. Подготовлены методики многоуровневого аннотирования данных на лингвистическом и паралингвистическом уровнях. Осуществлена расшифровка 34 часов звукозаписей для 40 информантов и их многоуровневое аннотирование в профессиональной программе ELAN. В результате расшифровки получены тексты общим объемом в 244 075 словоупотреблений на уровне Frase (реплики говорящих), которые относятся к 125 эпизодам и соответствуют 33,87 часам непрерывной звучащей речи. Для 20 информантов-мужчин получено 106 109 словоупотреблений на уровне реплик, что соответствует 15,10 часам непрерывной речи, для 20 информантов-женщин – 137 966 словоупотреблений, что соответствует 18,77 часам. [21]

Реплики говорящих содержат синтагматическое и фразовое членение.

По материалам расшифрованных записей 40 информантов был получен частотный словник всех использованных в речи словоформ и выполнен первичный анализ этих данных. Начато сегментирование речевого материала на лексическом уровне. Осуществлена сегментация 14 884 слов для 5 информантов (S01, S19, S24, S35, S37) (147 минут звучания). Расшифрованный материал корпуса включает более чем 32 000 фраз. Подавляющее большинство высказываний в материале исследования оказались утвердительными (23 494), восклицательных и вопросительных высказываний встретилось около девяти тысяч

Получена выборочная реальная транскрипция для 1000 словоизменительных морфем из речи 4 информантов. Морфемное аннотирование включает три уровня – орфографическую запись морфемы, её функциональный тип и реальную фонетическую транскрипцию.

По мере сбора и обработки материалы ЗКРЯ традиционно передаются в устный подкорпус Национального корпуса русского языка («Из материалов корпуса “Один речевой день”, подготовленного группой А. С. Асиновского»), что делает их доступными для самого широкого круга пользователей.

Корпус устных рассказов на русском языке был создан для того, чтобы показать, какие отдельные признаки жестов-иллюстраторов указывают на наличие границ сегментов дискурса. Стимулом написания рассказов послужил 6-ти минутный видеосюжет «Фильм о грушах» (“Pear film”). Об этом фильме студентами МГУ было написано 8 рассказов общей продолжительностью 20 минут. В целом, в корпусе было 595 элементарных дискурсивных единиц, которые обычно совпадают с простым предложением, и 327 иллюстративных жестов, которые понимаются как носители информации, выступая в качестве знаковых кинетических единиц выражения и передачи информации. На примере из корпуса исследователям удалось показать, как отдельные признаки жестов и положения рук могут добавлять дополнительную информацию касательно организации дискурса, состояния говорящего и передачи информации [8].


Поделиться статьей
Автор статьи
Анастасия
Анастасия
Задать вопрос
Эксперт
Представленная информация была полезной?
ДА
58.6%
НЕТ
41.4%
Проголосовало: 988

или напишите нам прямо сейчас:

Написать в WhatsApp Написать в Telegram

ОБРАЗЦЫ ВОПРОСОВ ДЛЯ ТУРНИРА ЧГК

Поделиться статьей

Поделиться статьей(Выдержка из Чемпионата Днепропетровской области по «Что? Где? Когда?» среди юношей (09.11.2008) Редакторы: Оксана Балазанова, Александр Чижов) [Указания ведущим:


Поделиться статьей

ЛИТЕЙНЫЕ ДЕФЕКТЫ

Поделиться статьей

Поделиться статьейЛитейные дефекты — понятие относительное. Строго говоря, де­фект отливки следует рассматривать лишь как отступление от заданных требований. Например, одни


Поделиться статьей

Введение. Псковская Судная грамота – крупнейший памятник феодального права эпохи феодальной раздробленности на Руси

Поделиться статьей

Поделиться статьей1. Псковская Судная грамота – крупнейший памятник феодального права эпохи феодальной раздробленности на Руси. Специфика периода феодальной раздробленности –


Поделиться статьей

Нравственные проблемы современной биологии

Поделиться статьей

Поделиться статьейЭтические проблемы современной науки являются чрезвычайно актуальными и значимыми. В связи с экспоненциальным ростом той силы, которая попадает в


Поделиться статьей

Семейство Первоцветные — Primulaceae

Поделиться статьей

Поделиться статьейВключает 30 родов, около 1000 видов. Распространение: горные и умеренные области Северного полушария . многие виды произрастают в горах


Поделиться статьей

Вопрос 1. Понятие цены, функции и виды. Порядок ценообразования

Поделиться статьей

Поделиться статьейЦенообразование является важнейшим рычагом экономического управления. Цена как экономическая категория отражает общественно необходимые затраты на производство и реализацию туристского


Поделиться статьей

или напишите нам прямо сейчас:

Написать в WhatsApp Написать в Telegram
Заявка
на расчет