Сколько слов в языке? (2 часть)



Окончание. Начало статьи - читать.

2.
В моей коллекции есть, например, способы выразить качество (двудомное — о растении), дать имя этому качеству (двудомность), назвать носитель этого качества (двудомные). Но чаще так: качество есть (двулетний, двухатомный), но нет имени (ни двулет-ности, ни двухатомности). Есть двулетник, но нет двухатомника (а почему бы так не могла называться молекула газа?). Не удалось найти примеров употребления слов двуногость, двурукость, двустепен-ность, но повезло с двухвалент-ностыо, двусоставностью, двуцвет-ностью. По аналогии с двуличничать и дебоширничать можно предположить дворничать и, представьте, примеры употребления этого слова есть.
Бросается в глаза обилие в коллекции слов, начинающихся с дву- и двух-: двубортный, двуголовый, двугорбый, двухактный, двухаршинный, двухлемешный и т. п. Их более ста пятидесяти! Но, конечно, это только незначительная часть существующих в языке. В периодически издаваемом справочнике «Новые слова и значения» я обнаружил еще двадцать пять подобных слов, которые составители нашли в литературе, изданной в шестидесятые — семидесятые годы, но которых пока нет ни в одном толковом словаре. Но и эти данные далеко не полны. В более или менее случайно отобранных текстах длиной свыше миллиона словоупотреблений (на основе этих текстов был составлен «Частотный словарь русского языка») встретилось восемь слов, которые не были отмечены и в справочнике «Новые слова». Отсутствие в словарях двух из них — двумерный и двухсерийный — скорее удивительно (впрочем, пропуски в словарях бывают самые поразительные: название части тела лошади — круп — мы заимствовали у французов не позже 1795 года, а в словарь это слово попало только в 1934 году; до сих пор в словари не попало слово нервотрепка).
Итак, слов на дву- и двух-много. Но сколько? Среди этих слов мне встретились двухвесельный и двухмачтовый. По понятной ассоциации я поинтересовался, есть ли в каком-либо из самых больших русских словарей двухтрубный. Оказалось, что мачты лексикографы считали прилежно (есть и одномачтовый и трехмачтовый), а пароходы признавали только трехтрубные. Но тщательнее всего считали года (ни метры, ни тонны, ни версты!): к двулетнему удалось добавить однолетний, трехлетний и так весь первый деся-ток. Во втором были пропущены 11, 18 и 19, в третьем были только 22, 25 и 30, а далее — «по десяткам»: 40, 50, 60, 70 (и 75), но 80 и 90 пропущены. До тысячи — «по сотням»: 100, 200, 300... и еще 250. За 1000 следует 2000, и счет оборвался.   То  есть  из  двух  тысяч   слов на -летний составители поместили только тридцать семь.
Претензий к ним, конечно, нет: что бы это был за словарь, в котором толковалось бы слово четырехсотпятидесятисемилетний или трехтысячесемисотдвадиатидвухмильный? Но слова-то такие есть... И почему мы остановились на 2000? В натуральном ряду нет последнего числа, поэтому подсчет слова на -атомный, -летний, -километровый, -метровый и так далее не закончится никогда. Но подумайте: тогда вообще не важно знать, сколько существует других слов, так как если к бесконечному числу членов натурального ряда добавить еще конечное число других слов, сумма не станет больше!
Сначала эта мысль может показаться дикой. Но, смотрите, в той же коллекции есть слова двуокись, двууглекислый. Что мешает добавить сюда бикарбонат (в словарях нет)? Хотя сейчас по сравнению с углекислым натрием это более распространенное название обычной питьевой соды. Или триэтаноламинлаурилисульфит (я взял это слово не из химического справочника, а с этикетки шампуня). Не так уж сложно показать, что число возможных названий химических веществ не меньше, чем число натуральных чисел. Возьмем очень узкий класс соединений: ациклические углеводороды. Их названия могут включать комбинацию латинских и греческих числительных, соответствующую любому натуральному числу. Название дотриаконтагексан говорит, что в этом соединении 132 атома углерода. И любое из этих названий может понадобиться! Хотя бы для того, чтобы сказать, что такого соединения не существует в природе.
С выводом о том, что слов бесконечно много (хотя математически натуральный ряд — это самая «маленькая» бесконечность), мириться как-то не хочется. Ведь если   слов   бесконечно   много,   то среди них будут слова какой угодно длины, а их не только произнести, но и записать-то нельзя. Это не очень сильное возражение: важно лишь, чтобы мы четко представляли, что значит данное слово и умели отличать его от других. А если нам понадобится вставить его в текст, то мы его просто сократим: даже девятнадцатый век мы записываем как «XIX в.», дезоксири-бонуклеиновую кислоту знаем как ДНК, а в словарях и вовсе помещаем «метаслова»: статьи вроде архи-, двух-, -метровый, -атомный — это не слова, а инструкции, как построить слово, если оно нам нужно.
И все-таки, утверждение, что в языке существует бесконечно много слов, не то чтобы неверный, а какой-то бессодержательный ответ на поставленный «наивный» вопрос. Мы получили его потому, что предположили, что понятие существует имеет один и тот же смысл как по отношению к словам двенадцать, двое, дверь, так и по отношению к двухсотпятидесяти-трехтысяччетырехсотсемидесятитрехмильный или к придуманным писателем В. Набоковым какже-иначностью и ямщикнегонилоша-дейностью. Некоторые подсчеты помогут   нам   понять,   в   чем   изъян такого предположения. Чтобы проделать эти подсчеты, вернемся еще раз к собранной нами коллекции слов.

3.
Я разделил свою коллекцию на четыре списка. В первый вошли восемь слов из словаря-минимума, во второй список — четырнадцать слов, которые были обнаружены в «карманных» словарях, но не в списке 1, подобным образом в третий список я включил сорок слов, которые были в «кратких» словарях, но которых не было в списках 1 и 2, в четвертый — только те слова, которые встретились в наибольших словарях «тетрады».
Но место слова в языке определяется не только числом значений, то есть перенумерованных разделов, на которые разбита словарная статья, но и его сочетаемостью с другими словами, использованием во фразеологических оборотах и т. д. Чем более своеобразна сочетаемость слова, тем больше приходится приводить примеров, тем больше размеры статьи. Поэтому лучше будет, если, кроме числа значений, подсчитать число строк, которое занимает соответствующая словарная статья.
Кроме числа значений и объема статьи, я нашел с помощью уже упоминавшегося «Частотного словаря русского языка» число употреблений данного слова. Так, из миллиона словоупотреблений 277 приходились на слово дверь; двойка встретилась только один раз, а двудомные — ни разу.
Еще слово может быть охарактеризовано своим возрастом, то есть числом лет, которые отделяют наше время от момента появления этого слова в языке. С помощью целого ряда пособий, которые здесь даже перечислить было бы трудно, мне удалось определить возраст почти всех слов в коллекции. Правда, точность датировки была разной. В четвертом списке было, например, слово девонский (о геологическом периоде). До 1844 года в русских текстах нет примеров его употребления,.но в данном случае можно уверенно считать, что если его возраст и превышает 140 лет, то очень ненамного: в английском, откуда это слово было заимствовано, оно возникло в 1839 году (было предложено геологом Р. Мурчнеоном). С 1840 года и позже, конкурируя с девонским, употреблялось слово девоньянский, девонианский, которые совсем буквально воспроизводили термин Мурчисона devonian. Но случай с девонский исключительно прост, а, в общем, определение возраста слова — это сложное искусство. Наконец, я подсчитал число букв в каждом слове — его длину.
В пределах одного и того же списка     все     характеристики   - число значений, частота, возраст и длина слова — могут сильно варьироваться, но средние значения этих характеристик для разных списков обнаруживают уже совершенно отчетливую тенденцию (та же тенденция будет прослеживаться независимо от того, с какого списка слов мы начнем, разве что нам очень с этим списком не повезет).
Как именно изменяются средние характеристики списков, показано на диаграмме. На ней видно, что в каждом следующем по номеру списке среднее число значений у слова сокращается примерно на 0,5 (а в целом — с 2,4 до 1,2), длина словарной статьи — почти вдвое (слова первого списка занимают в словаре по сорок, а четвертого — по пять строк), возраст убывает не меньше, чем на один век, зато длина возрастает почти на одну букву. То есть слова, которые есть в больших словарях, но отсутствуют в маленьких,— редкие, но длинные слова, с небольшим количеством значений, причем эти значения могут быть просто истолкованы. В языке эти слова новички. Нужно еще добавить, что среди них мало слов с грамматическими особенностями, ничтожное число служебных, но много производных, заимствований или буквальных переводов с иных языков. Если краткий словарь включает слова, то большой, кроме них,— массу словечек (иногда, правда, очень длинных). В словаре, как во Вселенной: чем менее яркая звезда, тем больше таких звезд.
Составляя словарь определенного объема, лексикографы, как правило, ничего не измеряют и не считают (исключение - - составление словарей-минимумов). Они интуитивно оценивают «звездную величину» слова и стараются — насколько это позволяют другие требования к словарю, о которых мы здесь умалчиваем,— помещать в словарь слово с данной «звездной величиной» только тогда, когда в него уже включены все более «яркие» слова. «Яркость» слова мы будем называть его статусом, а рассмотренные выше характеристики — число значений, объем словарной статьи, частоту, длину, возраст — будем считать шкалами, по которым количественно (но приблизительно!) можно этот статус измерить.
Теперь мы в состоянии, сформулировать основную гипотезу: возможно, что всего в языке бесконечно много слов, но слов, статус которых ощутимо отличается от нуля,—- конечное число. Но, чтобы хотя бы приблизительно оценить это число, качественных соображений недостаточно, нужны точные зависимости.
Посмотрим, какие из известных математической лингвистике закономерностей могли бы нам помочь.
Пристальное внимание сначала изобретателей систем стенографии, специалистов по методике преподавания языка, а потом и лингвистов привлекла устойчивая связь, которая существует между одной из шкал статуса — частотой слова — и числом слов, имеющих данную или большую частоту. Последняя величина называется рангом слова. Слова с малым рангом — самые ходовые, а с большим — редкие.
Казалось   бы,    можно   задаться какой-нибудь очень маленькой частотой употребления (раз на миллиард употреблений) и считать существующими только те, ранг которых меньше ранга слова с данной частотой. Так приблизительно и поступают составители словарей-минимумов: они считают, что все русские слова, встречающиеся реже, чем сорок — пятьдесят раз на миллион, лежат по ту сторону «языкового горизонта» учащегося. А по «эту сторону» оказывается, как правило, две с половиной — три тысячи.
К сожалению, для решения нашей задачи этот простой в принципе подход использовать нельзя. Зависимость между рангом и частотой — эмпирическая. Для нескольких тысяч самых частых слов она может быть выражена простой формулой, но, чтобы выявить такую зависимость для малых частот, нужно очень хорошо понимать ее природу. Иначе можно получить самые различные результаты. А пока мЫ этой природы не понимаем. Мы даже как следует не знаем, что такое частота употребления: это понятие непосредственно не соотносится с другими понятиями нашей культуры. А выбор «горизонта»— это попытка определить, какие слова обладают для нас культурной ценностью, а какие — нет.
Другое дело — возраст слова. Время — категория хорошо освоенная нашей культурой. Зададимся некоторым возрастом Т и будем считать, что все слова, имеющие возраст Т или больше, — «старые»,  а остальные —  «молодые».
В теории исторического изменения словаря (подробно оно излагается в книге, написанной автором совместно с М. М. Херц: «Математические методы в исторической лингвистике».         Москва, 1974) есть крайне полезная формула, которую можно привести и здесь, настолько она проста: число старых слов в бесконечно большом словаре составляет 2 kT2, то есть конечно при любом отличном от нуля Т.
В этой формуле k — коэффициент, о котором нужно сказать несколько слов, так как от значений этого коэффициента и зависит точность оценки числа слов.
Этот коэффициент определяет темпы изменения словаря. Найти их можно только экспериментально, для чего нужны тщательно составленные частотные словари и возможно более точное установление возраста сотен, а лучше — тысяч слов. В пятидесятые годы много надежд было связано с гипотезой, что в любом языке для некоторой части словаря темпы эволюции постоянны. Это открывало путь к определению абсолютного времени этногенетических событий, единственным свидетелем которых был язык. Но потом пришло разочарование, полной аналогии между радиоактивным распадом и исчезновением старых слов не было. На приведенном графике видно, как «пульсировали» темпы эволюции всего словаря русского языка на протяжении последних восьми веков его истории. Взглянув на график, можно даже догадаться о причинах этих пульсаций.
Резкое ускорение темпов обновления словарного состава, которое русский язык пережил в XVIII веке, когда формировался ; литературный язык, английский язык пережил в эпоху, описанную В. Скоттом в романе «Айвенго», а немецкий — в эпоху Реформации. Если отвлечься от таких скачков, то скорости изменения словарей в разных европейских языках если и не совпадают, то станут сопоставимы. А следовательно, станут сопоставимы и оценки числа слов в этих языках.

4.
Самое интересное и самое трудное — определить скорость эволюции словаря в настоящее время. За последние сто лет эта скорость в русском языке (и не только в нем) уменьшается по сравнению со средней, а следовательно, возрастает объем словаря. Можно предположить, что в XX веке r = 4х10~6 или еще меньше. Таким образом, слов с возрастом больше века в русском языке немногим более полумиллиона. Но поскольку ранее эти темпы были выше, то со времен Куликовской битвы сохранилось всего несколько тысяч слов.
Теперь, чтобы ответить на поставленный в заглавии вопрос, нужно   только   подставить   вместо Т какое-то конкретное число (веков) , то есть решить, сколько должно просуществовать в языке слово, чтобы приобрести минимально необходимый статус.
Числительное, которое при записи словами занимает три страницы, или название химического соединения, содержащее информацию о связях тысяч атомов, вообще не имеют истории. Они порождаются по однозначным правилам, и здесь не происходит никакого выбора, результаты которого должна была бы сохранить коллективная память носителей языка. Но, когда под пером автора рождается слово вроде девонский, акт выбора налицо: можно было написать девонианский, девоньянский или выразить ту же мысль еще многими способами.
Выбрать способ выражения — это еще не все. Из огромного числа неологизмов, которые изобрел Льюис Кэрролл, подавляющее большинство существует исключительно в тексте «Алисы в Стране Чудес». Самостоятельной истории они не имеют. Только один Кэрролл экспериментировал с этими словами. Со словами девонианский или тебе стоимость экспериментировало — соответственно 140 и 14 лет назад — уже несколько авторов. И эксперименты продолжались по нескольку лет. Но... Лексикографы называют такие «неподхваченные» слова окказионализмами.
В течение многих лет неудачными экспериментами казались современные слова будущность, вдохновлять, влиять. Чаще всего конец сомнениям, окказионализм перед нами или нет, кладет словарь. Любопытно, что «испытательный период», который проходит слово от начала своего употребления до включения в словарь, практически не изменился на протяжении последних двух веков существования русской лексикографии: как в конце XIX века, так и в середине XX века половина всех слов, впервые зарегистрированных наиболее   авторитетными   словарями, вошли в употребление за двадцать — тридцать лет до этого. Есть довольно широко употребляемые слова, которые вышли или выходят из употребления, так и не попав ни в один толковый словарь: студебеккер, сверхзвезда (на смену пришел квазар), парт-госконтроль (теперь — народный контроль); твист и другие.
Так какую же границу выбрать между «бытием» и культурным «небытием» слова? Одна минута, которая нужна, чтобы написать длинное слово,— это вроде бы мало. А две минуты, год, тридцать лет? По существу вопрос о границе между «бытием» и «небытием» не может решить наука. Это вопрос о ценностях. Историки же не решают вопрос о том, что такое историческое событие.
Но если у читателя есть собственное представление о том, какой промежуток времени гарантирует приобретение словом некоторого минимального статуса, он, взяв карандаш и бумагу, теперь может сам проделать нужные вычисления.

М. Арапов, кандидат филологических наук