Почему современная лингвистика должна быть лингвистикой корпусов
Лекция Владимира Плунгяна Мы публикуем полную стенограмму лекции, прочитанной известным российским лингвистом, доктором филологических наук, членом-корреспондентом РАН, завсектором типологии и ведущим научным сотрудником Института языкознания РАН, заведующим сектором корпусной лингвистики и лингвистической поэтики Института русского языка РАН, профессором МГУ Владимиром Александровичем Плунгяном 1 октября 2009 года в клубе – литературном кафе Bilingua в рамках проекта «Публичные лекции Полит.ру».
То, что я сегодня собираюсь рассказывать, относится сугубо к сфере компетенции лингвистики. Ничего сенсационного, что могло бы перевернуть жизнь каждого присутствующего, я рассказать не намерен, но для самой лингвистики это очень важно.
В истории всяких наук бывают такие события, о которых полезно знать не только представителям этой науки. Разумеется, внутри науки мы следим за тем, что происходит, что-то нас волнует больше, что-то меньше, мы откликаемся на статьи своих коллег, это всё внутреннее дело тысячи, может быть, нескольких тысяч человек, не более того, но всё-таки иногда происходит нечто, о чем бывает полезно сообщить более широкому кругу. Что-то из этого может проникнуть в школьные учебники лет через сто, обычно школьные учебники лет на сто отстают от фронта науки, как известно, что-то - в вузовские постепенно.
Появление корпусов – на мой взгляд, это одно из таких событий. Человек образованный знает, например, слово «словарь». Слово «словарь» ведь всем известно, даже неспециалистам по языку, теперь такой человек должен знать слово «корпус». Знать, что это такое, для чего это нужно, почему это важно. Вот сегодня у вас будет возможность узнать о том, что такое корпус, и почему важно это знать. Почему это важно для лингвистики. Люди, настроенные романтически, даже могли бы сказать, что в лингвистике произошла корпусная революция. После появления корпусов эта наука стала совсем другая. Мы можем этот пафос немного убрать, чуть-чуть снизить градус, но степень значимости всё-таки примерно такая.
Я кратко расскажу о том, что такое корпус, немного о создании корпуса, расскажу, какие в принципе бывают корпуса, чтобы ввести в предмет, и закончу ответом на поставленный в заглавии вопрос, как существование этого инструмента изменило науку о языке – или изменит науку о языке, или изменяет, можно в любом времени говорить.
Итак, что такое корпус? Корпус – это очень простая, может быть, даже бесхитростная вещь. Это собрание текстов, существующих на некотором языке в электронной форме, прежде всего. То, с чем в повседневной жизни каждый из нас сталкивается. Строго говоря, то, что я сейчас обозначил, это еще не совсем корпус, это протокорпус. Собрание текстов в электронной форме само по себе лучше называть другим словом. Словом «корпус» его иногда называли, называют иногда и сейчас, но лучше это назвать электронной библиотекой. Это правильное название для любого количества текстов, большого или маленького, в электронном виде. Электронные библиотеки известны всем – например, знаменитая библиотека Мошкова, – но любой человек может собрать собственную электронную библиотеку. Электронные библиотеки обычно используются для того, чтобы эти тексты читать, как тексты любой библиотеки. Корпус для этого не используется.
Тексты, входящие в корпус, не предназначены для чтения. Их можно читать, но корпус создается не ради этого. Корпус создается для того, чтобы эти тексты изучать, но для этого с ними надо провести некоторые операции. Их надо специальным образом обработать, внести туда некоторую информацию. Эта информация обычно на техническом языке, в корпусной лингвистике называется разметка, или аннотация. Собрание текстов в электронном виде, сопровожденное разметкой, называется корпусом, независимо от его объема.
Что за информацию мы можем вносить в тексты? Любую информацию о тексте, которая нам будет интересна с той точки зрения, с которой мы эти тексты намереваемся изучать. Порой мы можем изучать тексты исключительно с точки зрения хронологии их появления. В этом случае мы должны приписать каждому тексту дату его создания – той степени точности, которая нас устраивает. Это будет корпус, хронологически размеченный. И тогда мы можем изучать статистику, любые характеристики текста в зависимости от даты создания. Если дата создания не известна, то такая задача теряет смысл. Это такой простой, маленький пример, а вообще информацию можно вносить любую, как о самом тексте, так и об авторе, все характеристики автора (даты жизни, пол, возраст, место рождения) и многое, многое другое, всё, что может прийти в голову. Не только дату создания текста, но и место создания, объем текста, количество слов, опять-таки – всё, что мы захотим изучать, и всю информацию о словах этого текста, плюс то, что называется грамматической информацией.
Каким образом это делается, я сейчас говорить не буду, есть разные процедуры, есть автоматические, есть полуавтоматические, это некоторая техническая задача. Обработка текста может быть достаточно трудоемкой, может быть относительно простой, но после того, как эти тексты мы обработали, снабдили их нужной нам информацией, у нас получается корпус. Это собрание текстов в электронной форме, в котором мы можем искать то, что нам нужно. Мы можем искать тексты о спорте, созданные женщинами между 1983 и 1993 годами. Если, конечно, нам такая странная задача придет в голову, то сможем. В этих текстах мы можем искать все формы прошедшего времени глаголов. Мы можем написать исследование об особенностях употребления прошедшего времени у глагола женщинами, авторами спортивных текстов. Я намеренно привел странный пример, хотя любая задача легитимна. Если вы докажете, что именно у этой группы авторов есть особенности, то будет очень интересное лингвистическое наблюдение. На этом примере понятно, какого рода задача может ставиться. Вообще говоря, это задача вполне традиционная. Люди, изучавшие язык, изучали его именно с этой точки зрения, исследуя особенность употребления слов в разных текстах. Собственно, наука о языке ровно это и делает. Но легко видеть, что даже для традиционных задач, то есть для того, чем лингвисты всю жизнь занимались, корпус предоставляет совершенно ни с чем не сравнимые технические возможности.
Как работал лингвист раньше? В докорпусную, докомпьютерную эпоху? Это почти синонимы. Появление корпуса, появление Интернета, появление персональных компьютеров – это почти одновременное событие. Может быть, кто-то знает или помнит, я еще вполне хорошо помню эти времена. Поскольку основной наш объект – это тексты, никаким другим образом изучать язык мы не можем, об этом я поговорю чуть подробнее чуть позже, потому что это имеет непосредственное отношение к нашей теме. Так вот, если я намерен изучить, например, прошедшее время, я должен найти как можно больше текстов, где есть как можно больше примеров прошедшего времени, и их проанализировать. Как это делали лингвисты в докорпусную эпоху? Открывали книгу, находили, прочитывали, находили форму, выписывали ее, одну, другую, третью, сотую, на это уходило много дней, недель, месяцев. Иногда даже лет, иногда можно было услышать рассказ о таких подвижниках от науки, о человеке, который всю жизнь что-то откуда-то выписывал – и ему был почет, уважение коллег. Даже если он ничего потом с этим не сделал, он уже оставил человечеству много сотен карточек, на которых было его рукой что-то написано.
В корпусе такая задача решается за секунды, если он у нас, конечно, правильно размечен. Например, формы прошедшего времени, если придерживаться этого примера, в действительно существующих корпусах. За секунды можно найти десятки, сотни, тысячи, десятки тысяч примеров, настолько много, что даже не очень понятно исследователям становится, что же делать с таким богатством. То есть для традиционных задач лингвисты получили в свое распоряжение очень мощный современный инструмент, типа передвижения на самолете по сравнению с передвижением пешком. Корпус – это все-таки инструмент. Только ли это инструмент – об этом чуть позже. Я думаю, примерно понятно, что такое корпус, это вещь простая, скажу несколько слов о том, как появились корпуса и какие сейчас есть.
Первые корпуса появились в Америке, что неудивительно, в шестидесятые годы, на самой заре компьютерной эры. Так называемый брауновский корпус считается первым. Они выглядели с современной точки зрения довольно странно, это были небольшие фрагменты текстов, незаконченные, но одинаковой длины. Нарезанные на кусочки фрагменты английских текстов. Позже появился ряд других корпусов, это были корпуса английского языка, и, как ни странно, теоретическая лингвистика особенно этим не интересовалась, даже не очень знала об их существовании. Использовались эти корпуса для очень специальных прикладных задач. Вот такая странная игрушка, удел очень уж больших любителей компьютеров. Так было примерно до конца 80-х – начала 90-х годов, когда всё-таки положение стало меняться, и лингвисты стали понимать, что корпус – это такой колоссальный, но неожиданный им подарок, потому что появление компьютера и возникновение Интернета диктовалось совершенно другими потребностями человечества.
Можно спорить о том, что принес Интернет, что это, благо или зло, как всякое изобретение человечества, но лингвисты колоссально выиграли от этого появления. Они на это не рассчитывали, они этого не ожидали и некоторые из них до сих пор не готовы к этому подарку и даже пытаются от него отказаться. Тем не менее, когда это было осознано, стали появляться большие корпуса многих языков. Большой корпус принято называть национальным корпусом. Есть национальный корпус русского языка, например. Но почему национальный? Этот термин звучит немного странно, национальный корпус – с точки зрения неподготовленного человека заставляет думать о каких-то армейских соединениях. Термин восходит к английскому языку, первым был британский национальный корпус, созданный в начале 90-х годов. Британский национальный, чтобы отличить его от американского варианта английского языка. Здесь прилагательное имеет вполне четкую дифференцирующую функцию. «Наш британский» то есть не путать, например, с канадским, с австралийским. Он и сейчас существует, доступен в Интернете, и считается образцовым корпусом, хотя уже немножко устаревшим по современным меркам. Британский корпус стал эталоном корпуса в 90-е годы, поэтому национальным корпусом стали называть всякий большой корпус данного языка. То есть корпус, который данный язык представляет некоторым исчерпывающим образом.
Что для этого нужно? Корпус должен быть большим. Отражать если не все тексты, написанные на данном языке, хотя такую задачу тоже можно поставить, но наиболее важные, наиболее представительные, пропорционально устроенные. Скажем, корпуса современных языков должны изучать не только художественную литературу, но и газетные тексты, блоги и т.д.
Для хранения, разметки и обработки подобных массивов информации необходимо все передовые технологии ставить ему на службу. Помимо всего прочего, корпус – это довольно затратное, трудоемкое предприятие. Прозаически - нужно довольно много денег, чтобы создать корпус, и довольно много усилий – и программистов, и лингвистов и других специалистов. Некоторые страны охотно идут на такие жертвы, некоторые другие – не очень. В частности, в Германии, конечно, интерес к немецкому языку велик, исследований много, но до недавнего времени такое предприятие, как корпус, не могло найти большой поддержки, всё общегерманское не очень приветствовалось. Это особенно заметно в послевоенной истории Германии. Баварский корпус – сколько угодно, или северно-немецкий, а «немецкий национальный корпус» – такое в контексте немецких реалий не прозвучало бы. В принципе, такие работы ведутся в институте немецкого языка в Мангейме, сейчас можно даже в Интернете что-то найти, но это появилось совсем недавно.
Во Франции есть хорошие специалисты по корпусной лингвистике, но вот такого общедоступного национального корпуса нет. Но вообще довольно много языков имеют более или менее хорошие корпуса. Из славянских стран Чехия долгое время была бесспорным лидером, никто даже не пытался конкурировать, но сейчас последние лет пять-семь – бум славянской корпусной лингвистики, создана даже Ассоциация славянской корпусной лингвистики, существует вот и национальный корпус русского языка. Мы долгое время отставали, даже позорно отставали, но теперь корпус есть, он, кстати, один из лучших в мире по стандартам, и он доступен в Интернете, им несложно пользоваться.
Теперь давайте попробуем ответить на главный вопрос, что нам это дало. Корпус – это не просто инструмент, это больше, чем инструмент, потому что использование этого инструмента очень сильно меняет наше представление о языке. Прежде всего, помимо традиционных задач науки о языке, корпус дает возможность ставить и решать совершенно новые задачи, которые в докорпусную эпоху если и приходили в голову лингвистам, то просто отбрасывались за неисполнимостью. Это, прежде всего, задачи, связанные с обследованием больших массивов текста – всё, что раньше было сверхтрудоемко или зависело от случая, сейчас может быть свободно исследовано.
Когда и как слова входят в язык? В какой момент истории языка мы начинаем фиксировать данное слово, или данную конструкцию, или данное значение? Это, конечно, до корпуса изучалось, но во многом тут полагались на волю случая. А вдруг лингвист не нашел такого текста, где как раз нужное ему употребление и есть, как узнать? Если корпус наш хороший и полный, не найти там нужного примера мы не можем, значит, вся динамика языковых изменений у нас как на ладони, особенно если в корпус включены тексты за достаточно большой период, скажем, за несколько столетий, такое вполне можно сделать, такие корпуса существуют. Для языка это не такой большой срок, но все-таки изменения происходят.
Или, скажем, тексты, созданные в разных регионах бытования языка. Их очень важно сравнить на предмет особенностей. То, что раньше было предметом огромной технической работы, сейчас делается простым нажатием кнопки. Мы можем узнать о языке гораздо больше, чем раньше. Здесь начинается самое интересное, такой парадокс внутреннего развития лингвистики. Можем мы узнать многое, мы, лингвисты, а вот хотим ли мы это знать? Оказывается, что не всегда и не все лингвисты этого хотели, это очень интересный факт. Огромный массив данных, которые буквально хлынули на нас, во многом может заставить пересмотреть существующие представления о языке, о том, что это такое, как он существует, как он изменяется. Понятно, что это не всем может понравиться, у всех представлений могут быть авторы, эти авторы как-то существуют в науке, а тут появляется вдруг какой-то корпус, из которого следует, что всё не так, что нужны новые идеи, новые теории. Лучше уж мы будем как раньше, психологически это вполне понятно.
Чуть более специальные вещи я хочу рассказать. Мне придется немножко углубиться в философию современной лингвистики, в то, как в двадцатом веке разные теории языка понимали язык, что это такое. Я постараюсь, чтобы это было не очень сложно, кроме того, я думаю, многое из того, что я буду говорить, люди, следившие за историей идей двадцатого века, в том или ином отношении знают.
Вообще-то теоретическая лингвистика, изучение языка как самодостаточного феномена – что это такое, каким образом человек им пользуется, – это наука очень молодая, может быть, одна из самых молодых гуманитарных наук. Тут было сказано, что это такая образцовая наука двадцатого – двадцать первого века, это мне очень приятно слышать, лингвисты очень любят цитировать Леви-Стросса, который назвал лингвистику science-pilote, пролагательницей путей гуманитарных наук, и лингвисты никогда не отказываются от этого. Но, тем не менее, сама лингвистика почти что в двадцатом веке и возникла как теоретическая дисциплина. Почему это так, почему человечеству прежде не нужно было этого знать – это отдельный вопрос, пока я не буду на него отвечать. А в двадцатом веке лингвистика возникла на волне течения не чисто лингвистического, хотя лингвистика в нем сыграла очень большую роль, а общегуманитарного, такого философско-гуманитарного течения, которое называется структурализм.
Первая научная лингвистика, которая возникла, была структурной лингвистикой. Она очень сильно повлияла на структурализм в гуманитарных науках в других областях, в изучении литературы, этнографии, практически везде. Есть Фердинанд де Соссюр, основатель современной лингвистики, есть европейские, американские школы структурализма, которые вслед за ним возникли. Структурализм в языкознании господствовал примерно до конца 50-х годов, когда стал медленно сходить со сцены, уступая место другим направлениям. В каком-то смысле и до сих пор существует идеология структурализма. Она не центральная, это уже критикуемая область, но она есть.
Почему это важно для того, о чем мы говорим? Структурализм сделал лингвистику наукой во многих отношениях: точная, с определенным предметом, с какими-то исходными зафиксированными положениями, с понятными задачами. В общем, многое из того, что требуется науке, и чем лингвистика не располагала или располагала в очень малой степени, появилось благодаря структурализму. Это колоссальный прогресс, почти равный созданию науки «на пустом месте». Но это произошло ценой многих жертв и потерь.
Какую главную цену заплатил структурализм за то, что он создал науку о языке? Структурализм понимал язык довольно упрощенно и, грубо говоря, структурализм велел лингвистам заниматься очень ограниченным кругом задач: «Вот это вот ваше, а всем остальным интересоваться не надо». Структурализм провел очень жесткие границы: это лингвистика, а это не лингвистика, это наука, а это не наука, этим заниматься надо, а этим заниматься не надо.
Первым это сделал Соссюр, филологам известно, он поделил науку о языке на язык и речь, на синхронию и диахронию, на систему и норму, как потом говорили. И велел лингвистам заниматься языком, системой, нормой, синхронией, и больше ничем. То есть язык понимался как нечто неизменное, существующее в головах всего социума в совершенно одинаковом виде, некоторое такое абстрактное знание, которое позволяет людям порождать тексты, говорить. Мы наблюдаем тексты, но изучаем то, как они сделаны, это мы и называем языком. То, как сделаны тексты, мы называем языком. Но структурализм объяснил нам, что не тексты главное, а вот этот самый язык, которого никто не видел, он не доступен, его нельзя ни потрогать, ни увидеть, это что-то, что содержится у нас в голове и позволяет нам порождать тексты.
Лингвистика находится в парадоксальной ситуации, никакая другая наука в такой ситуации не находится. Всякая наука имеет свой объект, который она может предъявить. Биология может предъявить живые экземпляры, их можно поймать, разрезать, даже ископаемых животных мы находим и видим, что они существовали. Химия, физика, даже астрономия имеет дело с объектами, доступными для наблюдения в той или иной степени, а лингвистика нет. Объект лингвистики, тот объект, который нам велели считать главным наши классики, нематериален, недоступен. Мы должны о нем всё знать, но доступа к нему у нас нет, у нас есть доступ к текстам. Мы должны, изучая тексты, понять, как они сделаны. Это примерно такой степени сложности задача, как если бы представить, что вы сидите где-нибудь в запертой комнате, вам приносят современный компьютер и говорят: «Разбери его на части, можешь делать с ним, что хочешь, только не общайся ни с кем, а потом напиши инструкцию, как собирать компьютеры». Владимир Плунгян <br> (фото Н. Четвериковой) Владимир Плунгян (фото Н. Четвериковой)
Язык гораздо сложнее современных компьютеров, и вот примерно такая задача перед нами стоит. Вот тексты, сколько угодно их разбирайте, изучайте и напишите грамматику языка. Грамматика – это такая инструкция, как сочинять тексты. Хорошо ли лингвистика с этим справляется, вы можете судить сами по тем грамматикам, которые вам известны. Видимо, всё-таки нет ни одной грамматики, прочтя которую мы свободно заговорим на интересующем нас языке. Мы надеемся, что наши грамматики с каждым годом будут становиться немного лучше, но от конечной цели мы далеки. Далеки по разным причинам. Конечно, объект чудовищно сложен. Язык – сверхсложный объект, но, отчасти, потому что наши теории языка не во всём хороши. В частности, у структуралистских теорий языка было тоже много недостатков, как теперь ясно. Они слишком много запрещали, слишком многое объявляли вне интересов науки о языке.
И вот здесь такой парадоксальный факт. Располагаем мы текстами. Всё, что мы знаем, лингвисты получали из текстов, но лингвисты их не любили, считали, что лучше бы без них, если б язык был материальным, было бы лучше всего. Но раз уж так, поневоле будем заниматься текстами, но при первой возможности мы от них абстрагируемся. Идеология структурализма, очень упрощено, именно такая. Это конечно, не очень хорошо, неправильно. Такая была не только идеология структурализма, но и многих теорий, которые ему непосредственно следовали.
Главный идейный противник структурализма, генеративная лингвистика, лингвистика Хомского, одна из самых популярных сейчас лингвистических теорий, в этом отношении почти ничем от своего смертельного врага не отличается. Хомский не говорит «язык и тексты» или «язык и речь», как говорил Соссюр, он говорит «компетенция и употребление», разные другие употребляет слова, но суть не в этом, а в том, что главное у человека в голове, а тексты – такая же досадная помеха на пути к этой задаче – немедленно постичь устройство человеческих голов. При этом Хомский, в общем-то, так же, как и структуралисты, считает, что во всех головах язык один и тот же, что это такая абстрактная сущность, которая никогда не меняется, не подвержена никакой вариативности, готовые, чеканные правила грамматики, отлитые из бронзы – вот это и есть язык. Такого языка никто не видел, и вряд ли он, конечно, существует. Лингвисты стали слишком много думать о том, чего они наблюдать не могут, и о том, о чем судить они непосредственно не могут, и слишком мало внимания уделяли тому, что у них, так сказать, под ногами. Это привело к тому, что лингвисты мало знали о языке, мало и плохо описывали его свойства, если говорить самокритично.
Корпус в этом отношении произвел колоссальную революцию. Корпус вернул лингвистике ее, может быть, настоящий, полноправный объект. Что такое язык – неизвестно точно. Существует он или нет – неизвестно, может быть существует, но тексты – вот они, их надо изучать. И теперь, благодаря корпусу, это очень легко делать. Теперь уже нельзя сказать: «Конечно, тексты – это очень хорошо и правильно, но у меня вся жизнь уйдет на то, чтобы выписывать, как изменялись формы переходных глаголов в этом языке. Я столько карточек, сколько мне нужно, за всю жизнь не соберу, давайте, я лучше что-нибудь другое сделаю». Теперь так сказать нельзя. Корпус есть, только лень или косность человеческая может помешать им воспользоваться.
Поэтому корпусная лингвистика в узком смысле – это всего лишь наука о том, как создавать корпуса и как ими пользоваться, но она претендует на гораздо большее, на роль новой идеологии науки о языке. Корпус позволяет нам понять, каков язык на самом деле, а не каким мы хотим, чтоб он был. Мы говорим о более сложном и неудобном объекте изучения, но и гораздо более интересном.
Дело в том, что раньше лингвисты не очень любили рассуждать, что в языке бывает, они больше любили рассуждать о том, чего в языке не может быть. Это тоже наследие структурализма и, в особенности, лингвистики Хомского. Хомский особенно любил настаивать на том, что главное для лингвистики – это отрицательный языковой материал, это считалось большим шагом вперед в лингвистической науке. Кто читал лингвистические работы, наверняка помнит, что там есть примеры под звездочкой. Звездочка в начале предложения ставится, если так, с точки зрения автора, сказать нельзя. Положительный материал никто не ценит, его везде много, а вот если мы поймем, как нельзя сказать, то наши грамматические правила будут более точными и полными, потому что они будут объяснять эту невозможность.
Известная логика в этом есть, но логика опасная, даже лукавая. Что значит - так можно или так нельзя сказать? Можно сказать – это значит, так говорят, а нельзя сказать – так не говорят, но как это проверить? Может быть, так можно сказать, но никто так не говорит, или так сказать нельзя, а все говорят. Между возможным и действительным есть некоторая разница. Если начать про это думать, получаются довольно болезненные парадоксы, из которых очень непросто выбраться. Авторы теорий обычно не утруждали себя проникновением во все глубины, они решали вопрос очень просто – если мне кажется, что так сказать можно, значит, можно, а если нельзя – я смело ставлю звездочку. В эпоху господства звездочек такой обычный эпизод на конференции по лингвистике – выходит докладчик к доске, пишет предложение, ставит звездочку, а из зала моментально начинают раздаваться возмущенные голоса: «Нет, так можно сказать!» – и дальше много минут или часов обсуждений. А если я автор теории и мне очень хочется, чтоб так нельзя было сказать, или, наоборот, можно, то легко догадаться, что степень, так сказать, внутренней коррупции здесь очень велика.
Корпус позволяет немножко по-другому подойти к этой проблеме. Есть национальный корпус, мы согласились считать его авторитетным источником. Мы, конечно, можем сказать: «ваш национальный корпус никуда не годится, и русский язык в моем представлении – это другой русский язык», но тогда это будет язык без Пушкина, без Гоголя, без Достоевского, без Набокова, без газеты «Известия», без газеты «Завтра», без дневника школьницы Маши 1983-го года. Всё это есть в корпусе; если вас это не устраивает, значит, ваш русский язык какой-то другой. Если вы убедите человечество в том, что ваш язык лучше, что ж, хорошо, но всё-таки вряд ли это вам удастся. Если в таком огромном национальном корпусе это явление есть, значит, так говорят, а если его нет, что делать? Наш оппонент может сказать: «ну и что, что нет, я могу так сказать, просто ни Достоевскому, ни школьнице Маше почему-то не понадобилось это сказать, а вообще-то по-русски так сказать можно. И вообще, язык нам дан для того, чтобы выражать свои мысли, а мало ли, какие мысли нам придут в голову, количество мыслей бесконечно. Ну, не приходило никому еще в голову таких мыслей, что же, вы отказываетесь их изучать, из-за того, что в вашем корпусе нет такой конструкции?»
Тут какой-нибудь застенчивый лингвист сказал бы: «Ну, как же, не отказываемся», – а корпусная лингвистика говорит довольно твердо: «Да, отказываемся. Сейчас, на данном этапе, если в корпусе из сотен миллионов слов, насчитывающем два-три столетия существования языка, такого не возникло, мы этого изучать не будем. По крайней мере, пусть это явление встает в очередь и скромно дожидается, пока мы изучим то, что в корпусе встречается сотни миллионов раз, миллионы раз, сотни тысяч и тысячи раз. Потом займемся тем, что там встречается единицы раз, а уж потом дойдем до таких потенциальных явлений. И мы будем понимать язык не хуже, а лучше, чем те люди, которые хотят изучать только то, что, может быть, в языке есть, но ни разу не засвидетельствовано».
Это очень глубокое идеологическое разногласие между лингвистикой 60-х, 70-х, 80-х годов, в том числе лингвистикой Хомского, и современной корпусной лингвистикой, ориентированной на текст. Это совершенно разные представления о языке. Раннее, романтическое представление говорило о том, что язык – это такая сверхмощная машина, которая пригодна для всего, любую мысль может выразить и ей совершенно всё равно, какую. Нынешнее представление новой лингвистики немного скромнее оценивает язык. Новая лингвистика говорит, что язык, конечно, прекрасный инструмент, но не всемогущий, и у каждого языка есть свои ограничения.
Язык же обслуживает не отдельного человека, а говорящее на нем общество в целом, и всем в равной степени угодить нельзя. Язык обслуживает, в первую очередь, те потребности, которые в данном обществе наиболее массовые. Есть вещи, о которых мы говорим каждый день и по многу сотен раз, и вот для этого-то наш язык и пригоден лучше всего. Мы это делаем, не задумываясь, это клише, которые мы воспроизводим. Есть какие-то вещи, которые мы говорим реже, но всё равно говорим, и это в языке тоже есть.
На самом деле, язык – это не всемогущий инструмент, который по первому требованию говорящего выполняет его прихоти, а скорее – система клише, шаблонов, которые помогают нам делать то, что каждый из нас много раз делает и делал, это очень хорошо видно с помощью корпусов. Эта мысль не абсолютно новая, она возникала в науке о языке, но всегда была маргинальной. Людей, которые это говорили, не очень слушали. Изучение текстов, которое благодаря корпусам стало доступно, показывает, что слушать их было надо. Тексты разнообразны. Они постоянно нарушают нормы, которые нам бы хотелось считать нормами грамматики. Оказывается, что люди могут сказать и так, и эдак, и всё это прекрасно существует в языке, просто мы этого не видели или не хотели замечать. Жесткость правил очень сильно размывается.
А с другой стороны видно, что эти правила, даже размытые, существуют только для самых ярких областей, наряду с которыми есть и теневые зоны. Бывают вещи, которые сказать трудно, может быть, даже невозможно, но на то и существуют различия между человеческими языками, в противном случае, мы все бы говорили на одном, но мы всё-таки отличаемся друг от друга. Отличия эти в языках закреплены и каждый из опыта знает: что хорошо и легко сказать по-английски, бывает очень трудно сказать по-французски – и наоборот. Это вещь очень тривиальная, и переводчики и просто люди, имеющие опыт двуязычного существования, это прекрасно понимают. Это должно отражаться на нашем знании о языке, в грамматиках.
Язык может быть далеко не так совершенен, как хотелось бы думать, но зато это довольно разнообразный и гибкий инструмент, и теперь корпус дает нам возможность проверить, что в языке действительно есть, а чего в языке, или, по крайней мере, в корпусе нет. И именно поэтому мы ожидаем, что появление корпусов для теоретической лингвистики откроет новые горизонты. Новые теории языка, связанные с корпусом неразрывно, уже появляются, они называются «текстовые модели языка», модели, ориентированные на узус. Такого устоявшегося названия нет, но существенно, что акцент перемещен с языка на тексты, на реальность.
До сих пор я много говорил, чем корпус полезен теоретической лингвистике, отчасти отражая свой собственный интерес. Мне интересна теоретическая лингвистика; может быть, многие, кто занимается теорией языка, не очень хорошо осознают, что эта корпусная революция имеет отношение к теории языка. Но сказанное не значит, что для других областей корпус не нужен. Напротив, корпус очень активно используется, востребован даже скорее в прикладных областях, например в преподавании языка. В обучении языку – и как родному, и как иностранному.
Обучение языку с помощью корпуса – огромная область современной лингвистики, журналы выходят, конференции проводятся. Практики очень быстро оценили корпус как совершенно незаменимый инструмент. Все знают, что есть две вещи, нужные, чтобы овладеть языком, это словарь и грамматика, они нужны и теоретику, и практику. Так вот, если в результате моей лекции вы ничего не поймете и не запомните, это совершенно не страшно. Запомните единственное: теперь для овладения языком человеку нужны не две, а три вещи: словарь, грамматика и корпус текстов данного языка. Потому что и словарь, и грамматика, в общем-то, бесполезны вне этого живого пространства, где язык, собственно, и функционирует.
Более того, и словари и грамматики теперь нужны не традиционные, а нового поколения, то есть не просто словари и грамматики, а словари такого-то корпуса и грамматики такого-то корпуса, что сразу дает нам возможность их проверить – а как проверить было раньше, права эта грамматика, или нет?
Теперь можно проверить. По крайней мере, относительно данного корпуса грамматика или верна, или неверна. Теперь есть три главных результата деятельности науки о языке. Со словарями и грамматиками, я надеюсь, вы умеете обращаться, начните разбираться, как устроен национальный корпус русского языка, чешского, английского, японского, какого угодно, какой вам больше нравится, и привыкайте им пользоваться. В преподавании русского языка корпус довольно активно используется, надо кратко сказать, чем он полезен. Многие преподаватели русского языка за это сразу ухватились.
Дело в том, что преподавание русского языка устроено довольно консервативно. Отдельно существует теория языка, отдельно учебники, особенно школьные, иногда можно даже сказать, что они к науке о языке никакого отношения не имеют. Само обучение русскому языку воспринимается исключительно как обучение правильно писать. Обучения науке о языке в школе не происходит. Но даже в этом случае учащимся сообщают огромное количество сведений, многие из которых совершенно бесполезны, и заставляют иметь дело с какими-то примерами. Не знаю, давно ли вы открывали школьные учебники, но примеры, которые в них содержатся, весьма своеобразны. Конечно, там содержатся примеры из русской классики, и это хорошо, но нельзя забывать, что русский язык девятнадцатого века – это не современный язык. Это язык, который во многих отношениях отличается от языка, на котором мы с вами говорим. Хорошо это или плохо – вопрос отдельный, но это факт. Это происходит с любым языком, и отличия до такой степени сильны, что многие места из классики современный ребенок уже не понимает. Это опять-таки специалистам хорошо известно.
Почему нельзя поменять примеры в школьных учебниках? Это было, может быть, сложно сделать раньше, но с корпусом это сделать крайне просто. На любое слово, конструкцию, явление, тысячи примеров найдутся за пять минут. Преподаватели этим, конечно, пользуются, потому что нужны примеры из современных газет, современной литературы, из разговорного языка. Вы даже не можете себе представить, насколько меняет уроки русского языка простой факт, что школьнику предлагаются предложения на том языке, которым он сам мог бы пользоваться. Эффект потрясающий. От мертвого языка мы переходим к преподаванию живого.
Кроме того, есть известная проблема нормы, рекомендаций. Русский язык относится к тем языкам, где существует норма, она разработана, но норма – это не факт языка, это не явление природы, норма придумана людьми, которые руководствуются какими-то соображениями. Норма должна быть, это удобно для общества, но это не очень естественно для языка. Язык, сейчас никто уже с этим спорить не будет, принципиально вне нормы. В языке существует много всего одновременно, а норма предписывает выбрать что-то одно, всё остальное предписывает преследовать как неправильное, стыдное, неграмотное. Язык как явление природы не может иметь норму. Вы не можете сказать: «дуб – это правильно, а рябина – это неправильно». Или «дуб вот такой толщины – это правильно, а дуб другой толщины – это уже какой-то неграмотный дуб». Человек в принципе не может сказать того, чего в языке нет. Если кто-то уже что-то сказал, значит, так его язык устроен, так говорить «можно» и наше дело это изучить. Но дело общества что-то одно запретить, что-то другое – выбрать. Как это делается, на что опираются творцы нормы,- вопрос отдельный. Но они это делают, и хорошо бы, если б они смотрели в корпус, потому что при прочих равных условиях хорошо бы, чтобы норма приветствовала то, чего в языке много, то, как говорят большинство носителей. Если же мы обратимся ко многим нынешним рекомендациям, мы немедленно увидим, что часть из них нежизнеспособна. Корпус их не подтверждает и не поддерживает, от них вполне можно отказываться. Это немногие примеры, но я думаю, что вы легко дополните их другими.
Еще раз повторяю свою главную мысль: современная лингвистика – это лингвистика корпу
Категория: Лингвистика | Добавил: sveta (30.10.2009)
| Автор: Владимир Плунгян
Просмотров: 3862
| Рейтинг: 0.0 |
Вы овладеете английским!
Вы верите, что всего за несколько часов можно понять, как поставить правильное произношение, не изучая долго и нудно теоретическую фонетику, а всего-лишь поймав "фокус" языка?
Вы верите, что за несколько часов можно понять всю систему английских времен, которую безуспешно учат годами в школе, институте или на курсах?
Вы верите, что вместо скучных учебников можно заниматься по Вашим любимым фильмам и сериалам, испытывая при этом восторг и наслаждение от занятий английским?
Мы не только верим, а и твердо убеждены, так как уже сотни людей прошли по этому пути и поделились с нами своми успехами и достижениями!
И мы верим в Вас, потому что Вы легко научились говорить на языке, который на порядок сложнее английского!
Поэтому более простым и логичным английским Вы овладеете гораздо быстрее и легче! Конечно,если будете делать это правильно, естественным путем - моделируя носителей языка. Руководствуясь при этом не громоздкими правилами, а простыми и понятными визуальными моделями!
Получите бесплатно материалы - подпишитесь на рассылку!
Получите результат немедленно - приступайте к занятиям прямо сейчас!
Всего комментариев: 0
Добавлять комментарии могут только зарегистрированные пользователи. [ Регистрация | Вход ]