Введение в корпусную лингвистику. Михаил КопотевЧитать онлайн книгу.
баз данных Интегрум
Коммерческий интернет-ресурс, который включает большинство выходящих в настоящее время публицистических текстов (включая радиопередачи), законодательные документы, справочники, а также некоторое количество художественных текстов. В силу достаточно хорошо развитого языка запросов и удобного разделения материала по типам источников эта поисковая система вполне может быть использована как ежедневно пополняемый мониторинговый корпус. Опыт использования Интегрума в исследованиях разного рода представлен в книге (Никипорец-Такигава 2006).
7. Русский интернет-корпус (I-RU)
Составленный С. Шаровым русский интернет-корпус является частью многоязыковой и многожанровой коллекции корпусов. Этот корпус содержит богатую метаразметку, а также морфологическую и частично синтаксическую и словообразовательную разметки, выполненные автоматически (Sharoff 2006).
Следующая таблица обобщает основные особенности описанных корпусов.
Таким образом, в распоряжении лингвиста, изучающего русский язык, имеется ряд возможностей обращаться к разным текстовым материалам, обладающим своими преимуществами и недостатками. Интегрум несопоставимо больше по объему, чем все остальные ресурсы (например, слово корпус в разных значениях встречается в нем свыше 2 млн раз; в Национальном корпусе – ок. 20 тыс., в ХАНКО – 3 раза). Однако Интегрум не предназначен специально для изучения русского языка и содержит только сплошные тексты без морфологической разметки. В Национальном корпусе можно осуществлять поиск на представительной выборке текстов XVIII–XXI веков, используя морфологические и семантические параметры и богатую систему жанровых и функциональных признаков текста. ХАНКО лучше подходит для целей преподавания, поскольку содержит более качественное и традиционное аннотирование.
1. Mitrenina О. The Corpora of Old and Middle Russian Texts as an Advanced Tool for Exploring an Extinguished Language // Scrinium. Revue de patrologie, d’hagiographie critique et d’histoire ecclésiastique. 10 (2014) [forthcoming]
2. Mustajoki A. The Integrum database as a powerful tool in research on contemporary Russian // Integrum: mочные меmоды и гуманиmарные науки. М., 2006. С. 50–75.
3. Sharoff, S. Open-source corpora: Using the net to fish for linguistic data // International Journal of Corpus Linguistics. 2006. № 11(4). P. 435–462. Доступно по адресу: corpus.leeds.ac.uk/serge/publications/ijcl06-11-4-proof.pdf
4. Xiao R. Z. Well-known and influential corpora // Corpus Linguistics: An International Handbook. Vol. 1. Handbooks of Linguistics and Communication Science / Lüdeling A. & Kytö M. (eds.). Berlin: Mouton de Gruyter, 2008. P. 383–457.
5. Грановский Д. В., Бочаров В. В., Бичинева С. В. Открытый корпус: принципы работы и перспективы // Компьютерная лингвистика и развитие семантического поиска в Интернете: Труды научного семинара XIII Всероссийской объединенной конференции «Интернет и современное общество». Санкт-Петербург, 19–22 октября 2010 г. / Под ред. В. Ш. Рубашкина. – СПб., 2010.
6. Копотев М. В., Мустайоки А. Принципы создания Хельсинкского аннотированного корпуса русских текстов (ХАНКО) в сети Интернет // Научно-техническая информация. Сер. 2: Информационные системы и процессы. № 6. Корпусная лингвистика в России. 2003. Т. 2. С. 33–36.
7. Копотев М. В., Янда Л. [Рецензия на НКРЯ] // Вопросы языкознания. 2006. № 5. С. 149–155.
8. Резникова Т. И. Славянская корпусная лингвистика: