Введение в корпусную лингвистику. Михаил КопотевЧитать онлайн книгу.
Однако исследования показывают, что иногда достаточно корпуса в пару тысяч слов, иногда не может помочь и корпус в миллионы слов. Все зависит от поставленной задачи: для анализа стихотворения О. Мандельштама «Мы живем, под собою не чуя страны» может быть достаточно текста этого стихотворения, для анализа языка романов XIX века нужны тексты романов – не всех, но в достаточном количестве. Корпус, который представляет все разнообразие определенного языка или его подъязыка, называют представительным (англ. representative). Еще раз подчеркну: представительный корпус не обязательно содержит все тексты, но их должно быть достаточно, чтобы судить об общих закономерностях. За корпусами, представляющими весь язык в целом во всех его жанрах и разновидностях, закрепилось название национальные корпуса.
«Национальный» не значит, что корпус принадлежит какой-то нации. Это значит, что корпус представляет национальный вариант какого-то языка. Такое употребление является производным от англ. national corpus (то есть корпус национального варианта какого-то языка, например, British National Corpus «корпус британского варианта английского языка» или НКРЯ – Национальный корпус русского языка).
Национальные корпуса готовятся много лет, часто по государственным программам и в рамках больших проектов. При всей их сбалансированности и полноте такие статичные корпуса не успевают реагировать на быстрые, текущие изменения в языке, особенно в лексике. Для решения этих задач создаются мониторинговые корпуса (англ. dynamic/monitor corpus), которые позволяют следить за языком в режиме реального времени, день в день.
Словечко PR приобрело новое значение летом 2012 года. Как это установить? Информационная система Интегрум (www.integrum.ru) – гигантская ежедневно пополняемая коллекция журнальных текстов – позволяет отслеживать самые новые или очень мелкие движения языка, иногда с точностью до одного дня.
Наконец, существуют относительно маленькие иллюстративные корпуса (англ. corpus of examples), задача которых не представлять весь язык, а лишь иллюстрировать те или иные явления. Такие инструменты незаменимы, например, в учебной аудитории при работе со школьниками или иностранными студентами.
Хельсинкский аннотированный корпус ХАНКО содержит всего 100 тыс. текстоформ. Очень маленький по современным меркам. Но он, единственный в своем роде, содержит разметку в терминах самой популярной синтаксической теории – школьного учения о частях речи и учитывает такие сложные для автоматического анализа формы, как читал бы или буду писать.
Я сторонник копилефта (англ. copyleft, принципы лицензирования свободно распространяемых продуктов – не путать с пиратством!) и считаю, что все данные, которые могут быть публичными, должны быть публичными. Принцип открытости данных хорошо бы распространить не только на прогноз погоды или статистику рождаемости, но и на языковые тексты, разрешив ученым свободно их использовать. Естественно, не для перепродажи, а для улучшения качества преподавания и