Электронные ресурсы корпусной лингвистики

28-31 октября в Башкирском государственном педагогическом университете им. М.Акмуллы (г. Уфа)  прошла конференция «Информационные технологии и письменое наследие» El’Manuscript-10, организованная сообществом «Письменное наследие». На конференции были представлены электронные ресурсы, созданные группами специалистов по корпусной лингвистике.

Национальный корпус русского языка.
Ресурс создан лингвистами из разных городов России и содержит корпус современного русского языка объемом более 140 млн слов. Общий объём представленных материалов разделён на разделы: корпусы письменных, устных, диалектных, поэтических текстов и другие. Представленные тексты содежат специальную лингвистическую разметку, что позволяет средствами ресурса получать выборки текстов с помощью мощной запросной системы.

Манускрипт
Корпус древнейших и средневековых славянских и русских текстов. Тексты, хранящиеся на этом ресурсе, представлены в виде электронного размеченного текста, что позволяет получать доступ непосредственно к содержанию документов. Уделено большое внимание обеспечению шрифтового отображения древних документов. Реализованы широкие поисковые возможности по корпусу, необходимые для лингвистического исследования текстов.

Фонд знаменных песнопений
Ресурс фонда предоставляет открытый доступ к корпусу древнерусских певческих рукописей. Представлены тексты богослужебных песнопений в текстовой и крюковой записях. Помимо непосредственного сбора и разметки текстов, создателями ресурса проводится разработка компьютерных средств работы с данными текстами: рассматриваются вопросы кодировки текстов, специальных способов разметки, разрабатывается специальное программное обеспечение.

Многоязычная библиотека diglossa
Электронное собрание философских текстов на русском, английском, французском, немецком, греческом и др. языках. Особенностью данного ресурса является возможность синхронного просмотра текстов на разных языках. Для каждого текста выполнена специальная разметка, устанавливающая поабзацное соответствие между разноязычными вариантами текста.

Рубрика: Без рубрики | 3 комментария