Антропогенез.РУ / Мир антропологии / Публикации /

Об автоматической реконструкции праязыка

Cтарший научный сотрудник Института востоковедения РАН, д. ф. н.

В марте на сайте журнала PNAS была опубликована статья Александра Бушар-Коте, Дэвида Холла, Томаса Гриффитса и Дэна Клейна Automated reconstruction of ancient languages using probabilistic models of sound change. Работа посвящена разработке программы, которая могла бы строить реконструкцию праязыка (языка-предка той или иной языковой семьи), а заодно и уточнять классификацию.

Филогенетическое древо австронезийских языков. Иллюстрация из обсуждаемой статьи

Применение компьютеров – сейчас очень модная область: во-первых, человеку хочется, чтобы за него как можно больше всего делали машины, а во-вторых, если чему-то можно научить даже машину, то, скорее всего, это что-то объективное, а не выдумки конкретного исследователя.

В качестве модельного объекта авторы выбрали австронезийскую семью – в неё входят более тысячи языков, распространённых на островах Малайского архипелага, в Океании (в том числе и на Новой Гвинее, и на острове Пасхи), и даже на острове Мадагаскар (и это ещё не всё!).

Авторы многое понимают правильно.

Во-первых, они знают, что, если языки родственны, то между их словами будут наблюдаться регулярные фонетические соответствия (а не просто вообще какое-то «сходство»). Понимают, что соответствия эти могут быть устроены по-разному: иногда какой-то звук языка-предка в языках-потомках заменяется на другой звук (или в одних заменяется, в других сохраняется без изменения), иногда – выпадает, а иногда бывает и так, что там, где в праязыке звука не было, в языке-потомке он вдруг появляется.

Для русского языка самый заметный пример такой вставки – это вставка т в сочетание ср, как в слове встреча; другие славянские языки показывают, что раньше никакого т между с и р не было,

и мы можем это видеть по названию церковного праздника Сретение (это слово того же корня, только не исконно-русское, а заимствованное, как и другая православная терминология, из церковно-славянского языка).

Во-вторых, авторы работы правильно понимают, что исследовать дальнее родство можно только методом ступенчатой реконструкции – то есть, нужны реконструкции всех промежуточных уровней между праязыком семьи и засвидетельствованными языками-потомками. Действительно, если праязык семьи распался много тысяч лет назад, то языки-потомки успели с тех пор сильно измениться, так что ни сходства не видно, ни регулярные соответствия не установишь – на каждый звук получается столько правил (и при этом многие из них отсылают к условиям, которые раньше были, а теперь исчезли), что сам себе не поверишь. А если двигаться постепенно – сначала взять языки, родство которых заметно, реконструировать их общий праязык (это не слишком трудно, поскольку общих слов много, любое регулярное соответствие можно показать на большом количестве примеров, условия, вызывающие изменения, тоже ещё не успели полностью утратиться), а потом уже сопоставлять реконструированные праязыки между собой, – то будет проще, поскольку эти праязыки, скорее всего, окажутся заметно родственными, со множеством общих слов и вполне материальными указаниями на условия изменений. И программа, предложенная авторами данной работы, кстати, честно выписывает все изменения, которые соединяют тот или иной узел генеалогического древа с предшествующим и последующими. И ещё авторы понимают, что правила фонетических изменений различаются в разных языках (вот, например, в латыни звук [ц] получался из [к] перед e и i: во времена Цезаря и Цицерона их называли, соответственно, Кайсар и Кикеро, – а в японском [ц] получается из [т] перед [у], это можно увидеть, сравнив глаголы ику «идти», тацу «стоять» и их вежливые формы: икимасу и татимасу), и поэтому в их программе для каждого узла – свои параметры изменений. Правда, тут есть ещё одна небольшая тонкость: звуковые изменения происходят не сразу пачкой, а в какой-то последовательности, и установить правильную хронологию фонетических изменений – подчас непростая задача, и это может даже на итоговую классификацию повлиять (а в данной работе, если я правильно поняла, такая задача даже не ставится).

В-третьих, авторы совершенно правы в том, что взяли транскрипцию, а не орфографию: дело в том, что орфография иногда очень странно обходится со звуками, особенно если для них нет готовых букв (попробуйте записать Щ в латинице!). В разных языках бывают разные конвенции – например, звук [ш] англичане записывают как sh, немцы – как sch, а французы – как ch, – но ещё хуже, когда разные звуки разные языки записывают одними и теми же буквами: машина будет считать, что звуки одинаковы, а на самом деле они различны (и тогда изменений может оказаться на одно больше, что скажется на классификации, или даже вообще слова могут оказаться неродственными). Хотя при ручном анализе орфография бывает полезнее, чем транскрипция: если язык исследует не машина, а человек (естественно, познакомившийся для этого с этим языком), то орфография может рассказать ему о более древнем этапе развития этого языка – том, когда он обзавёлся письменностью (или, в крайнем случае, о времени последней орфографической реформы). Например, польская орфография позволяет очень быстро увидеть, когда бывшее [о] переходило в [у] (пишется ?), сравните: b?b ‘боб’, r?d ‘род’, r?g ‘рог’ и pop ‘поп’, kot ‘кот’, bok ‘бок’. Сразу видно, что дело в звонкости следующего согласного. А если записать в транскрипции, этого будет не видно: [буп], [рут], [рук], [поп], [кот], [бок] – везде согласный после гласного оказывается одинаково глухой (в польском языке согласные на конце слова оглушаются, как и в русском).

В-четвёртых, авторы при определении того, какие слова друг другу родственны, идут от значения, а не от внешней формы слова, – и это очень правильная тактика. Дело в том, что у нас, людей, так мозги устроены, что, если мы захотим увидеть сходство между чем угодно и чем угодно, мы его непременно увидим. Да ещё, убедив себя, что оно есть, пойдём убеждать окружающих (можете почитать работы «лингвофриков», если хотите узнать, как это делается, – и работы борцов с ними, если хотите узнать, как всё это устроено на самом деле). А когда вопрос ставится так: если мы возьмём слова, обозначающие «солнце» (или «видеть», или «тёплый»), будут ли они похожи друг на друга в изучаемых языках, – то тогда субъективных домыслов получается резко меньше, потому что «солнце» можно сравнивать только с «солнцем», а не со словами типа «огонь», «светить», «тепло», «круглый», «лето»... И вероятность случайного совпадения, естественно, сильно падает.

Программа устроена так, чтобы возможные ошибки вели к непризнанию родственными слов, которые на самом деле восходят к одному и тому же слову языка-предка. И, как справедливо отмечают авторы, это лучше, чем наоборот: такая программа несколько занизит уровень родства по сравнению с реальным, и всё.

А программа, которая стала бы ошибаться в сторону признания родственными слов различного происхождения, могла бы «установить родство» совершенно на пустом месте, примерно как Фоменко или Задорнов.

Какие слова друг другу родственны, компьютер определяет автоматически. Как? По так называемому расстоянию Левенштейна: сколько надо заменить букв (а в данном случае – звуков, поскольку используется транскрипция), чтобы из одного слова получить другое. Например, как известно, если в слове хлеб заменить четыре буквы, то получится слово пиво. Такой уровень различий, конечно же, недостаточен для признания слов родственными. А вот если слова различаются всего на одну букву – то с большой вероятностью они восходят к одному и тому же слову языка-предка (хотя и не всегда: например, польское слово [наче?л’ник] всего одной буквой отличается от своего русского перевода, слова начальник, но происхождение у него совсем другое). Внешне этот способ выглядит довольно привлекательно (прежде всего, за счёт своей простоты), но эффективность его не слишком велика. Сам автор идеи применить расстояние Левенштейна к определению языкового родства, Сёрен Вихман, сказал на недавней конференции в РГГУ [ссылка], что этот метод не работает на временны?х глубинах, превышающих 5 000 лет. Вообще, есть более достоверный метод автоматического определения родства, основанный на том, что некоторые звуковые переходы более вероятны, чем другие, о нём можно прочитать, например, в недавно вышедшей книге Г.С. Старостина «Языки Африки. Опыт построения лексикостатистической классификации.Т.1. Методология. Койсанские языки». Хотя, конечно, ещё более надёжные результаты даёт сочетание работы программы и последующей ручной коррекции. Чрезвычайно жаль, что авторы этой статьи (как и авторы многих других зарубежных работ) не знакомы с российскими исследованиями – даже в тех областях, где мы действительно «впереди планеты всей».

Авторы этой работы пошли по другому пути, они используют гипотезу «функциональной нагрузки»: чем меньшее количество слов различают два звука, тем выше вероятность, что эти звуки совпадут. Статистически это, может быть, и верно, но в реальности так бывает далеко не всегда: например, тохарские языки утратили индоевропейское различие по звонкости-глухости (а заодно и по придыхательности) – а это было одно из главных противопоставлений в индоевропейской системе согласных, и слов, различавшихся только звонкостью-глухостью хотя бы одного из согласных, было немало (как и в современных индоевропейских языках). С другой стороны, в английском языке не существует слов, которые бы отличались только звуками h и ? (хотя бы потому, что h бывает только в начальной позиции, а ? – только в неначальной), но в возможность их совпадения как-то не верится.

Для проверки программа, предложенная авторами статьи, порождает современные формы из реконструированных – если совпадёт, значит, реконструкция верна, и правила звуковых переходов тоже. При этом учитывается, что эти переходы происходят не абы где, а в определённой позиции, поэтому при построении формы каждый следующий звук зависит от предыдущего (принцип Марковской цепи). Правда, не очень понятно, почему именно от предыдущего – в языках нередки случаи, когда переход происходит не после чего-то, а перед чем-то (ну, например, в русском г переходит в ж перед е: могу – можешь)

А ещё не очень понятно, как они отсеивают заимствования:

ведь если один язык заимствовал слово из другого, эти слова будут очень похожи – хоть на глазок, хоть по расстоянию Левенштейна, – но если их посчитать родственными, это может довольно существенно исказить общую картину. В своё время, когда идея исключить заимствования ещё не овладела умами компаративистов, критики метода глоттохронологии писали, что, мол, по нему получается, что исландский язык развивался от языка-предка до нынешнего времени 100–150 лет, а норвежский (от того же самого языка-предка!) – примерно 1400 лет. И действительно, если заимствования в списке оставить, то примерно так и выйдет. А если, как показал С.А. Старостин, заимствования таки исключить (и немного подправить саму формулу), то получается всё как надо, датировка общего праязыка норвежского и исландского – Х век, как раз время колонизации Исландии.

И вообще не очень понятно, насколько качественно собраны те списки слов, которые использованы авторами статьи. То есть, конечно, они воспользовались готовыми – но это вовсе не означает хорошего качества, там есть некоторое количество тонких моментов. Один из них – это синонимы: например, в польском языке есть два слова, которые можно перевести на русский как «холодный» (или на английский как «cold»): ch??dny и zimny. Если в список включить первое из них, то с русским языком получится на одно схождение больше, а если второе – то на одно схождение меньше. Г.С. Старостин пишет, что надо непременно выверять значение по контекстам, иначе «синонимов» вылезает столько, что они изрядно портят общую картину.

Так что неудивительно, что, как пишут сами авторы статьи, по сравнению с реконструкциями, сделанными вручную, вероятность ошибки у автоматической реконструкции увеличивается на 12,8%, а классификация совпадает с имеющейся на 85%. Но и эти цифры не очень-то информативны: во-первых, среди австронезийских языков немало таких, которые достаточно фонетически консервативны, так что приблизительную реконструкцию сделать не слишком сложно. А вот точную – уже гораздо сложнее. Поэтому австронезийские реконструкции пока ещё далеки от общепризнанности (даже не только на самом глубоком уровне, но и на уровне праязыков отдельных ветвей) и продолжают уточняться. Дальше. Программа начинает работать эффективно только при наличии не менее, чем 30 языков-потомков – это значит, что, например, сделать славянскую или германскую реконструкцию она не сможет в принципе. Да и вообще, если последовательно проводить принцип ступенчатой реконструкции, там всё время получаются небольшие группы родственных языков – по 5, ну, по 10, но никак не по 30. А тогда зачем программа?

В принципе, авторы работы сами понимают, что их программа не может заменить человека, и у неё есть ограничения, связанные с тем, что не моделируются изменения на уровне фонемных инвентарей, а также нет морфемного анализа. Авторы видят свою задачу в автоматизации установления родства крупных групп языков, – но не очень понятно, зачем это нужно: на уровне «примерно» (то, что видно на глаз) Джозеф Гринберг уже все языки расклассифицировал, а для более тонких вещей нужны более точные методы. Вообще, когда говорят про родство «с вероятностью 85%», мне это как-то непонятно: родство ведь либо есть, либо нет (по крайней мере, на уровне данной семьи).

Представьте, что вы читаете детектив и на последней странице обнаруживаете, что убийца – «дворецкий с вероятностью 85%, а с вероятностью 15% – горничная».

На мой взгляд, это будет говорить лишь о том, что тамошний «шерлокхолмс» плохо выполнил свою работу. О вероятности хорошо говорить, когда речь идёт о будущем – стоит ли делать прививку от энцефалита, имеет ли смысл инвестировать в акции такой-то компании... В этом случае точно вам всё равно никто не скажет, поэтому вероятность – лучше, чем ничего. Но языковое родство – это не тот случай. Оно точно либо такое, либо другое, либо ближе, либо дальше. И установить это вполне можно, правда, придётся потрудиться. А кто ж нынче трудиться любит? Да и некогда трудиться – надо заявки на гранты писать, обещая златые горы (а параллельно – отчёты по предыдущим грантам, что, мол, златые горы успешно выполнены). А кому легче получить грант – тому, кто скажет, мол, я за целый год кропотливого труда сделаю реконструкцию для праязыка вот этих 10 языков, или тому, кто скажет, что за тот же год расклассифицирует целую тысячу?

Авторы статьи говорят, что традиционный метод представляет собой порочный круг: если человек ищет родственные слова между двумя языками, то он уже предполагает их родство, и тем самым, структура генеалогического древа оказывается зависимой от исходных установок исследователя. Но на самом деле, никакого порочного круга тут нет: предположить родство любого языка с любым никто никому не мешает, но если потом посмотреть, какие значения выражаются сходными словами, и сходства между этими словами сложатся в систему регулярных фонетических соответствий – то родство будет доказано. А если сходных слов окажется слишком мало, или сходства будут несистематическими – значит, ни о каком доказательстве родства речи не будет. В принципе, на мой взгляд, это не такая уж сложная идея, у меня даже такой вопрос есть в экзаменационных билетах, и ничего, вполне отвечают студенты.

Источник:

Alexandre Bouchard-C?t? et al. Automated reconstruction of ancient languages using probabilistic models of sound change // PNAS March 12, 2013 vol. 110 no. 11 4224-4229 http://www.pnas.org/content/110/11/4224.abstract

См. также:

Мы в Telegram:
подпишитесь!

Мы в Вконтакте:
добавляйтесь!

Наш канал
на YouTube

Мы в Дзен:
добавляйтесь!

Как помочь
проекту

Публикации Интересные цитаты Критика Книги История антропологии Известнейшие ученые Музеи Антропологические реконструкции Мифы об эволюции человека - видеоИз коллекции Кафедры антропологии Мракобесие

"Жизнь содержит элемент, логически отличный от элементов физики, но совсем не мистический - элемент историчности. Все явления, которые изучает биология, образуют непрерывную цепь событий, и всякое следующее звено может быть объяснено познанием предыдущего. Единство жизни обусловлено ее историей и, следовательно, является отражением ее происхождения".

Джон Бернал. Цит. по: Т. Николов. Долгий путь жизни. М., "Мир", 1986, с. 7.