Анализ больших массивов данных проливает свет на фундаментальную структуру человеческого мышления

Анализ наиболее употребляемых слов наглядно свидетельствует, что люди воспринимают общеупотребимые и редкие слова по-разному, что обуславливает важные различия в формировании естественного языка и мышления

Еще в 1935 году американский лингвист Джордж Зипф сделал замечательное открытие. Учёного интересовало соотношение обычных слов и менее распространённых, поэтому он выделил слова общеупотребимой речи а затем упорядочил их по частоте использования.

В результате была обнаружена занятная закономерность — что частота использования слова обратно пропорциональна его месту в рейтингах. Таким образом, слово, которое занимает второе место в рейтинге, встречается впловину так же часто, как и самое распространенное слово. Третье же по распространённости слово занимает область в треть от «ареала» второго и так далее.

На английском языке самым популярным словом является «the», которое составляет около 7 процентов всех используемых слов, за ним следует «and» — оно имеет долю в 3,5 процента и т. д. Всего же примерно 135 слов – это половина из всего общеупотребительного словарного запаса. Получается, что несколько слов используются очень часто, в то время как большинство не используется почти совсем.

Но почему так происходит? Одно из предположений гласит, что мозг обрабатывает общие слова по-разному и что изучение закономерности Зипфа может выявить важные закономерности мышления.

Однако существует и важная проблема. Не все лингвисты согласны с тем, что статистическое распределение частоты слов является результатом когнитивных процессов. Ряд учёных считает, что распределение является результатом статистических ошибок, связанных с редкими словами, которые могут создавать аналогичные распределения.

Разумеется, необходимо было более широкое исследование с помощью широкого спектра языков. Такое крупномасштабное исследование было бы более статистически достоверным и способным внести ясность.

Сегодня у нас есть данные подобного исследования благодаря работе Шуйюань Ю и её коллег из Китайского университета связи в Пекине. Эти учёные проверили Закон Зипфа на 50 языках, отобранных из широкого круга языковых классов, включая индоевропейские, уральские, алтайские, кавказские, китайско-тибетские, дравидийские, афразийские и другие группы.

Ю и команда уверены, что частота слов на этих языках имеет общую структуру. Более того, они считают, что мозг обрабатывает распространённые слова по иному чем редкие – эта идея имеет важные последствия для технологий распознавания и формирования человеческой речи.

Метод исследования китайских учёных прост. Они обработали два больших сборника текстов под названием «Британский национальный корпус» и «Лейпцигский корпус». В них содержатся образцы текстов из 50 разных языков, каждый из которых содержит не менее 30 000 предложений и до 43 миллионов слов.

Исследователи обнаружили, что частота слов во всех языках соответствует Закону Зипфа, в котором распределение можно разделить на три сегмента. «Статистические результаты показывают, что законы Зипфа «работают» на 50 языках и имеют схожую структуру с тремя сегментами, причем каждый сегмент демонстрирует отличительные лингвистические свойства» — говорят они.

Эта структура интересна. Ю и учёные пытались имитировать её с помощью ряда моделей для создания слов. Одна модель — это «обезьяна и пишущая машинка», в ходе которой генерируются случайные буквы, которые образуют слова всякий раз, когда происходит пробел.

Этот процесс симулирует степенное распределение, такое как Закон Зипфа. Однако он не может генерировать трехсегментную структуру, обнаруженную китайскими учёными. Невозможно создать эту структуру из-за ошибок, связанных с редкими словами.

Однако Ю и команда оказались способны воспроизвести эту структуру, используя модель того, как работает мозг, которая называется теорией двойного процесса. Это идея о том, что мозг мыслит в разные моменты по-разному.

Первый вид мышления — быстрое интуитивное мышление, которое требует мало внимания или не требует его вообще. Считается, что этот тип мышления обусловлен эволюционным путём, чтобы позволить людям быстро реагировать в стрессовых ситуациях. Он обычно обеспечивает быстрые решения простых задач, таких как распознавание образов, но легко поддаётся манипуляции в неинтуитивных ситуациях.

Однако люди способны к гораздо более рациональному мышлению. Второй тип мышления медленнее, он более расчетливый и глубокий. Именно такое мышление позволяет нам решать сложные задачи вроде математических головоломок и т. д. Теория двойного процесса предполагает, что обычные слова, такие как «the», «and», «if» в английском языке обрабатываются быстрым, интуитивным мышлением и поэтому используются чаще. Эти слова образуют своего рода основу для предложений.

Однако менее распространенные слова и словосочетания, такие как «гипотеза» и «Закон Зипфа», требуют гораздо более глубокого мышления. И из-за этого встречаются реже.

Действительно, когда Ю и учёные сымитировали этот двойной процесс, то в результате получили ту же трехсегментную структуру в распределении употребления слов, которые обнаружили в 50 разных языках.

Первый сегмент отражает распределение общих слов, последний сегмент — распределение необычных, а средний сегмент является результатом взаимодействия двух предыдущих. «Эти результаты показывают, что Закон Зипфа в языках обусловлен когнитивными механизмами, такими как двойная обработка, которые управляют человеческим вербальным поведением» — говорят учёные.

Это интересная работа. Идея о том, что человеческий мозг обрабатывает информацию двумя разными способами, приобрела значительную популярность в последние годы, не в последнюю очередь из-за книги «Думай медленно, решай быстро» получившего Нобелевскую премию психолога Даниэля Канемана, который подробно изучил эту идею.

Известная задача, используемая демонстрации различий быстрого и медленного мышления, такова:

«Бейсбольная бита и мяч вместе стоят 1 доллар 10 центов. Бита стоит на 1 доллар дороже чем мяч. Сколько же стоит мяч?»

Ответ, конечно, 5 центов. Но почти все первоначально считают, что цена — 10 центов. Потому, что 10 центов является итогом работы быстрой, интуитивной стороны мышления вашего мозга. Правильный же ответ требует более медленного, более расчетливого мышления.

Ю и учёные говорят, что те же два процесса участвуют в генерации слов и предложений. Быстро работающая часть вашего мозга создает основную структуру предложения. Другие слова требуют более медленной, более рациональной части вашего мышления.

Именно этот двойной процесс приводит к трехсегментному распределению Закона Зипфа.

Это должно иметь интересные последствия для компьютерных ученых, работающих над обработкой естественного языка. В последние годы в этой области были достигнуты огромные успехи. Они взяты из алгоритмов машинного обучения, но также из больших баз данных, собранных такими компаниями, как Google.

Но генерировать естественный язык все еще сложно. Речь Siri, Cortana, Alexa и других помощников тому подтверждение.

Поэтому лучшее понимание того, как люди генерируют предложения, может значительно помочь нам в этом. Зипф наверняка был бы в восторге.

Оригинал: MIT Technology Review