Введение в корпусную лингвистику. Михаил КопотевЧитать онлайн книгу.
предложений или абзацев (выравнивание, алайнмент, англ. alignment). Особым типом корпуса является сравнительный корпус (англ. comparable corpus), в котором по определенным одинаковым критериям собраны тексты на разных языках или вариантах языка.
Самая переводимая книга – Библия. Число языков, на которые она переведена целиком или частично, приближается к трем тысячам. Параллельный корпус переводов Библии уже много лет создается в Университете Мэриленд (США) и пока не закончен.
Следующее важное разделение – по типам текстов. Исторически первыми были корпуса письменных текстов – статей или художественных произведений, и вам, наверное, понятно, почему так произошло. Однако лингвисты постепенно избавляются от «письменной» и «литературоцентричной» зависимости. Конечно, в корпусе могут храниться тексты как письменной, так и устной речи, разговорные и публицистические, современные и исторические, такие и сякие. К настоящему времени корпусные лингвисты научились собирать не только письменные тексты, но и аудиозаписи и даже видеозаписи.
В Санкт-Петербурге создается звуковой корпус «Один речевой день» (model.org.spbu.ru). Для сбора материала создатели корпуса предложили 40 добровольцам повесить на шею диктофоны и записывать все (ну или почти все) разговоры в течение целого дня. В корпус войдут как сами аудиозаписи, так и их снабженные аннотацией расшифровки. Уже сейчас известно, что самым частотным словом в этом корпусе оказалось местоимение «я», что легко объяснимо.
Перевод в цифровую форму исторических документов существенно расширяет список текстов, представленных в корпусах. Собственно коллекции исторических текстов существуют уже много веков. У исследователя древнего языка нет возможности уточнить что-то у носителя или обратиться к собственной языковой интуиции, поэтому сбор всех доступных текстов представляется необходимой задачей. Эти коллекции, по сути «доцифровые корпуса», часто становились основой для настоящих электронных диахронических корпусов (англ. diachronic corpus).
Корпус древнейших старославянских текстов включает десяток рукописных книг и несколько надписей и отдельных листков, хранящихся в разных странах по всему свету. Большая часть этого корпуса известна еще с XIX века, но сбор их в единый электронный корпус стал возможен только в наше время. Этот корпус называется Corpus Cyrillo-Methodianum Helsingiense.
Вообще при создании корпуса никаких ограничений на тип текста, кроме технических, не существует. Единственный критерий для отбора – задача, для которой собран корпус. И даже самый странный и маргинальный языковой материал заслуживает внимания лингвиста.
The HCRC Map Task Corpus
Этот корпус был собран в Шотландии и состоит из диалогов, в которых один собеседник объясняет другому маршрут. Все бы ничего, но говорящие разделены непрозрачной перегородкой (то есть не могут использовать жесты) и не имеют общей карты.
К предыдущей части примыкает и разделение текстов, входящих в корпус, на разные жанры. Корпус может состоять не только из литературных произведений