Звуковые «отпечатки пальцев»
Доктор физико-математических наук Виктор Введенский из российского научного центра «Курчатовский институт» утверждает, что он разгадал структуру всех языков на свете, включая язык глухонемых. Возможно, это заявление слишком сильное, он в этом смысле и сам делает оговорку. Во-первых, не для всех языков, а только для двадцати двух – остальные еще следует проверять. Во-вторых, некоторые, возможно, начнут спорить насчет структуры, тем более общей, но, так или иначе, те вещи, которые он открыл, позволили ему понять, как сделать то, что он хочет.
А хочет он ни больше ни меньше научить компьютер разговаривать.
Вообще-то компьютеры давно уже разговаривают, но это не тот уровень разговора. Они не говорят, они просто включают магнитофон в ответ на ту или иную внешнюю команду. А как научить компьютер разговаривать так, как говорим мы? У языка есть свои правила, своя логика, но это, как говорят математики, «нестрогая логика», ее так просто в компьютер не всунешь. Здесь требуется искусственный интеллект (ИИ) – особым образом настроенные нейронные сети, важнейшее самообучающееся достояние современной науки об искусственном интеллекте.
Искусственный нейрон – это электронный слепок с нейрона мозга, некоего черного ящика, имеющего множество входных и выходных клемм да еще Бог знает чего, который методом проб и ошибок, плюсуя, минусуя, уменьшая воздействие того или иного входа в зависимости от того, удачно или нет выполнена задача… Словом, это микросистема, принимающая решения и меняющая их в следующий раз, если решение оказалось неправильным. Примерно так…
Наверное, главным при выборе этой задачи было то, что Введенский – полиглот, знает огромную кучу языков и вообще интересуется этой стороной жизни. Так была выбрана проблема – научить компьютер говорить. И так Введенский сразу же уткнулся в трудно решаемую проблему – как загрузить в компьютер необходимую лингвистическую информацию? Волей-неволей Введенский превратился в лингвиста.
Лингвистика – весьма почтенная, немолодая и популярная наука. Тайны языка привлекают многих, хотя, казалось бы, здесь все и так ясно. На этом поле работает огромное количество исследователей – от простых до великих. «Все, что я здесь открыл раньше профессиональных лингвистов, – говорит Введенский, – было открыто не потому, что я чем-то лучше их, а просто потому, что мы решали разные задачи. Мы шли параллельно. Мне всего лишь надо было формализовать языковые правила так, чтобы их смог бы «понять» компьютер».
Словом, обычное дело – открытия часто рождаются именно на стыках наук.
А открыл он следующее. Во-первых, ядро. Ядро – это нечто вроде набора самых важных слов, которые обязательно есть в любом языке. Говоря математически, пересекающееся множество слов. «Дай», «возьми», «кушай», «иди», «дерево», «человек», «мать», «отец» и так далее. Таких слов оказалось на удивление мало – всего около двух тысяч. И едва только Введенский стал исследовать это самое ядро, начали открываться совершенно неожиданные закономерности.
Человек, даже очень далекий от лингвистики, почти наверняка читал рассказ Эдгара По «Золотой жук». Там, если читатель помнит, герой рассказа Легран расшифровывает некий текст, состоящий из цифр, скобок и различных математических символов. Он начинает с того, что подсчитывает частоту повторения этих знаков. «В английской письменной речи, – говорит он, – самая частая буква – e. Далее идут в нисходящем порядке a, o, i, d, h, n, r, s, t, u, y, c, f, g, l, m, w, b, k, p, q, x, z».
Введенский вольно или невольно последовал примеру Леграна. Правда, работал он не с буквами, а с фонемами – элементарными звуками, из которых составляются все слова, – и исследовал только те слова, которые входят в ядро. Поэтому последовательности у него получились несколько иные, чем у Эдгара По – для каждого языка своя.
«Я проверил частоту повторения звуков, – говорит Введенский, – на ядрах 22 языков, причем каждый раз исследовал 1300–1800 слов. Получил последовательности фонем. Так, для русского языка самый употребительный звук – «о», для французского – «р», для английского – «т». Но частота их повторения – ОДНА И ТА ЖЕ!»
И так было с каждой фонемой. Введенский построил 22 графика частот их повторения (по нисходящей, как у Эдгара По). Звуки на этих графиках расположились произвольным образом, но сами графики СОВПАЛИ. То есть получается, что каким-то непонятным, вероятностным образом мозг человека формирует ядро самых важных слов так, что частоты повторения звуков оказываются в него крепко-накрепко вшиты.
«Любой язык непостоянен. В нем все время рождаются новые слова и отмирают старые. Постоянно только ядро. Слова, в него входящие, и правила, по которым они употребляются, составлялись на протяжении множества поколений. Говоря высоким штилем, это действительно национальное достояние», – подчеркивает Введенский.
Иными словами, Введенский нащупал общие принципы построения любого языка, построил, следуя «фонемному» принципу, многомерные графики для каждого из них. Слово в таких графиках отображается точкой в многомерном пространстве, где каждая координатная ось – число звуков, встречающихся в этом слове. Скажем, слову «дом» соответствует точка с координатами – 1 для «д», 1 для «о», 1 для «м» и нули для всех остальных фонем.
«Карты» для каждого языка получились разные, словно отпечатки пальцев, их еще следует каким-то образом изучать, но главное – их уже можно вводить в машину, машину уже можно на основе такой карты обучать языку, отталкиваясь не от слов, а от звуков. Чем Введенский со своим аспирантом в данный момент и занимаются.
«Мне кажется, – говорит он, – что я наткнулся на что-то чрезвычайно важное, выходящее далеко за пределы моей работы. И это только начало. Полученные выводы надо еще проверить для всех языков без исключения, чего в одиночку, конечно, не сделаешь – никто не может знать все языки Земли. Например, мне очень хотелось бы сравнить «карту» русского языка с языковыми «картами» наших соседей тюрков, чтобы увидеть, какое влияние эти языки оказали друг на друга. Но я не знаю тюркских языков».
Другие материалы по теме
Источник: http://www.ng.ru/science/2004-09-22/14_sound.html |