X-PDF

Национальный корпус русского языка

Поделиться статьей

Современные корпуса текстов

Типы корпусов

Существуют различные подходы к классификации корпусов текстов в зависимости от типа текстов, способов их организации, языка и т.д.

С точки зрения их использования лингвистами наиболее значимы следующие виды корпусов:

1) исследовательские – создаются с целью изучения различных аспектов функционирования языка .

2) иллюстративные – служат для выделения в них лингвистических примеров, подтверждающих те или иные языковые факты, обнаруженные иными лингвистическими приемами .

3) статические – содержат тексты какого-то небольшого временного промежутка .

Представленная информация была полезной?
ДА
60.89%
НЕТ
39.11%
Проголосовало: 1552

4) в динамические корпуса включают письменные источники большого временного периода, они предназначены для проведения различных диахронических исследований.

Если в корпус включены тексты только на одном языке, то это одноязычный корпус. Существуют также многоязычные корпуса, которые объединяют несколько одноязычных корпусов с приблизительно одинаковой выборкой текстов и репрезентативностью. Также разрабатываются корпуса параллельных текстов: в них включаются тексты с их переводами на другой язык (или языки).

Корпусная лингвистика в России развивается с некоторым отставанием. Первые электронные корпуса РЯ начали появляться не в России, а в Европе. Самым известным из таких корпусов является Упсальский корпус русского языка, созданный в Швеции. Сегодня этот корпус хранится на сервере Тюбингенского университета в Германии.

Национальный корпус русского языка (https://www.ruscorpora.ru /) – общедоступный для поиска электронный онлайновый корпус русских текстов – был создан недавно (2004 г.) и находится в стации разработки.

В Корпус входят как письменные тексты (художественные, мемуары, публицистика, научная, религиозная литература, повседневная печатная продукция), так и записи устных текстов (публичной речи и частных бесед). В корпус также входят подкорпуса поэтических и диалектных текстов, русско-английский, англо-русский и немецко-русский корпуса параллельных текстов, синтаксический, акцентологический и обучающий подкорпуса. Объём Национального корпуса русского языка составляет свыше 70 тыс. текстов общим объемом свыше 150 млн словоупотреблений. На сегодняшний день в корпусе используется четыре типа разметки: метатекстовая, морфологическая, акцентная и семантическая. Поиск можно осуществлять как во всем массиве текстов, так и в текстах, отобранных по определенному критерию (жанр, автор, время написания и др.).


Поделиться статьей
Автор статьи
Анастасия
Анастасия
Задать вопрос
Эксперт
Представленная информация была полезной?
ДА
60.89%
НЕТ
39.11%
Проголосовало: 1552

или напишите нам прямо сейчас:

Написать в WhatsApp Написать в Telegram

Электроэнергетические системы и сети

Поделиться статьей

Поделиться статьейПоделиться статьей Автор статьи Анастасия Задать вопрос Эксперт Представленная информация была полезной? ДА 60.89% НЕТ 39.11% Проголосовало: 1552


Поделиться статьей

Электроснабжение производственных объектов

Поделиться статьей

Поделиться статьейПоделиться статьей Автор статьи Анастасия Задать вопрос Эксперт Представленная информация была полезной? ДА 60.89% НЕТ 39.11% Проголосовало: 1552


Поделиться статьей

Электроснабжение

Поделиться статьей

Поделиться статьейПоделиться статьей Автор статьи Анастасия Задать вопрос Эксперт Представленная информация была полезной? ДА 60.89% НЕТ 39.11% Проголосовало: 1552


Поделиться статьей

Электрооборудование и электрохозяйство предприятий организаций и учреждений

Поделиться статьей

Поделиться статьейПоделиться статьей Автор статьи Анастасия Задать вопрос Эксперт Представленная информация была полезной? ДА 60.89% НЕТ 39.11% Проголосовало: 1552


Поделиться статьей

или напишите нам прямо сейчас:

Написать в WhatsApp Написать в Telegram
Заявка
на расчет