Введение в корпусную лингвистику. Михаил КопотевЧитать онлайн книгу.
содержит 13 древнерусских текстов с возможностью поиска по токену, лемме и по части речи.
3) Рукописные памятники Древней Руси
Сайт содержит корпус древнерусских берестяных грамот, корпус русских летописей и некоторые древнерусские переводные тексты. Основная часть текстов доступна в формате PDF (c возможностью поиска), но часть содержит грамматическую разметку.
4) Великие Четьи-Минеи митрополита Макария
Электронное издание 12 книг, содержащих жития, поучения и апокрифы, написанные на восточнославянском варианте церковнославянского языка.
5) Проект «Манускрипт»
Корпуса древнерусских и среднерусских текстов, написанных в основном на церковнославянском языке, включает жития, служебные тексты, летописи и т. д. Существует возможность поиска по токену.
6) Корпус северно-русских житий СКАТ
Корпус текстов XV–XVII веков объемом ок. 500 тыс. единиц с возможностью поиска токенов в словоуказателе и перехода к фрагментам текстов.
В 1985 году в Институте русского языка им. В. В. Виноградова РАН был создан Отдел Машинного фонда русского языка. Это был масштабный проект, объединивший усилия ученых из десятков университетов. К началу 1990-х годов была собрана коллекция текстов художественной литературы, создана программа автоматической обработки текстов (UNILEX) и подготовлено несколько новых, по сути корпусных, словарей. Если бы проект был осуществлен в соответствии с задуманным, корпусные лингвисты уже в 1990-е годы получили бы прекрасные ресурсы и инструменты для работы. К сожалению, этого не произошло по внешним причинам, но менее чем через десять лет корпусные работы вновь стали активно развиваться. Уже в самом начале 2000-х годов возникли проекты БОКР (Большой корпус русского языка, руководитель – С. А. Шаров) и «Русский стандарт» (руководитель – В. А. Плунгян), которые позже стали основой Национального корпуса русского языка. Ниже кратко представлены основные русскоязычные корпуса (подробнее см. Копотев, Резникова 2005; Копотев, Янда 2006).
1. Национальный корпус русского языка (НКРЯ)
Ресурс является крупнейшей коллекций русскоязычных корпусов, сопоставимой с национальными корпусами других языков. Коллекция включает диалектные и литературные, исторические и современные, письменные и устные, оригинальные и переводные тексты. Лингвистическая разметка представлена морфологической, синтаксической и семантической аннотациями. Общий объем доступных корпусов – около 500 млн слов. Дополнительной (и даже уникальной) особенностью этого корпуса является наличие стиховедческой разметки, позволяющей искать стихотворные тексты с заданными параметрами. В настоящее время работа над корпусом активно продолжается.
2. Тюбингенский корпус (ТК)
www.sfb441.uni-tuebingen.de/b1/rus/korpora.html
В основе корпуса лежит старейший общедоступный русскоязычный Упсальский корпус русских текстов (www.slaviska.uu.se/korpus.htm), к материалам которого