20.12.2019
"Компьютер по-прежнему не думает за человека". Сотрудник Центра цифровых гуманитарных исследований НИУ ВШЭ кандидат филологических наук Борис Орехов рассказывает о самых современных методах работы с художественнмы текстом.
Вы изучаете литературные тексты с помощью компьютерных программ. Зачем?
Литература — это часть вселенной, в которой мы живём. Вокруг нас стоят предметы, ходят люди, происходят химические процессы, земля и другие планеты взаимодействуют между собой. И есть странный, необычный предмет - литература. Она тоже по-разному взаимодействует с людьми. Видимо, у человека как у существа мыслящего есть базовая потребность понимать, что происходит вокруг него. Необязательно это понимание даёт прибыль и улучшает жизнь, просто человек себя чувствует лучше, если он знает, как устроен мир. И литературоведение в этом смысле ничем не отличается от физики – это такая же наука о людях и о вселенной. А при чём здесь компьютер? Есть такие вещи, которые компьютер делает лучше, чем человек – ну, например, он умеет легко и быстро читать большие объемы текста.
Но ведь филолог и сам умеет читать. Для чего поручать чтение компьютеру?
Книг в мире очень много, их количество постоянно увеличивается. Все прочитать невозможно. А компьютер может «прочесть» (конечно, с меньшей пользой, чем человек) за небольшую единицу времени десятки тысяч книг.
Исследователь выбирает для себя лучшие произведения, а те, что похуже, оставляет компьютеру?
В литературе есть «пиковые» произведения, которые входят в школьную программу, составляют литературный канон, но на одну известную книгу приходится тысяча других, тех, о которых помнят только специалисты или вообще никто не помнит. Есть такое понятие – «великое непрочтённое». Это произведения писателей, которые старались, создавали какие-то тексты, но про них уже все забыли. Если мы хотим включить эти тексты в наше поле зрения, у нас остаётся единственный шанс — передоверить их чтение компьютеру. Компьютерные методы помогают исследователю вглядеться не в одну книгу, а во множество, поэтому с помощью этих методов можно сложить более полную, объемную и правдивую историю литературы.
Что нового расскажет нам такая «полная история литературы»?
Давайте посмотрим на историю стихосложения. Литературоведы уже давно предположили, что есть некоторая связь между смыслом произведения и метром, которым это произведение написано. То есть у содержания многих разных стихотворений, написанных одним метром, будет что-то общее. И, наоборот: меняя метр, поэт меняет оттенки смысла. Эти оттенки смысла очень трудно определить, поэтому их называют семантическим «ореолом». Используя математические алгоритмы, компьютерные программы «высчитывают» темы, общие для разных текстов и ухватывают этот семантический ореол.
А помимо стиховедения? В каких еще областях филологии активно применяются компьютерные методы?
В той области, которая называется «стилеметрией», то есть в исследованиях, которые «меряют» стиль писателя. Самые интересные работы касаются изучения переводов. Например, один переводчик переводит Фолкнера и Диккенса. Второй – тоже переводит Диккенса, а еще сам что-нибудь сочиняет. Так вот в идеальной ситуации книги Диккенса в обоих переводах должны быть написаны одним стилем, Фолкнера – другим, а собственные произведения переводчика – третьим. А на самом деле почти всегда получается иначе. Для того, чтобы понять, как соотносятся эти три стиля, их можно с помощью компьютерных методов «померять». Такими «измерениями» занимается, например, наш коллега из Кракова Ян Рыбицки – он изучает переводы с английского на польский. Он обнаружил, что есть разные переводчики: некоторые, действительно, подстраиваются под стиль автора, а другие всегда похожи на себя: и переводы, и собственные произведения они пишут одним стилем. Вот, например, Пастернак, кого бы ни переводил – Клейста или Шекспира – всегда писал в стиле Пастернака. В случае с Пастернаком это его свойство и раньше было нам понятно, но компьютерные методы позволяют увидеть полную картину, создать «сеть», в которую войдет много разных авторов.
Если компьютер научился точно «измерять» стиль автора, значит, про каждое произведение он может сказать, писал его автор или не писал. И можно наконец поставить точку в спорах об авторстве «Тихого Дона»!
Разговор будет закрыт тогда, когда люди не захотят больше на эту тему говорить. Дискуссия об авторстве часто никак не связана с убедительностью научных методов. Есть несколько таких «гравитационно сильных» вопросов, они интересны, они привлекают внимание общества. Скажем, даже сейчас, когда в профессиональном сообществе подлинность «Слова о полку Игореве» не вызывает никаких сомнений, люди за пределами академического круга не перестают сомневаться. Точно так же для профессионалов закрыт вопрос о подлинности «Велесовой книги» - нам совершенно ясно, что это подделка. При этом энтузиасты-любители продолжают доказывать, что текст написан в IX веке, а лингвисты просто ничего не понимают.
Так что говорит нам наука о Шолохове?
Несмотря на то, что многим это кажется нелогичным и неестественным и даже по-человечески неправильным, Шолохов, по всей видимости, действительно является автором «Тихого Дона». Научные способы, которые существуют для определения авторства, говорят в пользу именно этой версии. Исследователи, которые работают с помощью компьютерных методов, совершенно уверены в том, что писатель Фёдор Крюков – главный претендент на авторство «Тихого Дона» - эту книгу не писал. Правда, не все гипотезы так легко опровергаются, некоторые просто нельзя проверить. Например, есть теория, что первые тома романа сочинил Николай Гумилёв. Гумилёв никогда не писал художественной прозы, по крайней мере, нам она неизвестна. Так что с одной стороны, у нас есть стихотворные тексты, с другой - спорный текст, который мы хотим атрибутировать, и это текст прозаический. Мы не можем сопоставить эти два типа текстов между собой, потому что они, с точки зрения внутренней статистики, организованы по-разному: в одном случае больше одних слов, в другом —других. Основной метод определения авторства сейчас такой: исследователи задали круг «подозрительных» авторов и выясняют, на чей стиль больше всего похож стиль «Тихого Дона». Пока больше всего он похож на стиль самого Шолохова. Если вдруг окажется, что есть ещё один автор, о котором мы не задумывались, можно будет «проверить» и его.
Не опасно ли предлагать школьникам работать с электронными ресурсами, например с Национальным корпусом русского языка? Вдруг они решат, что изучение литературы и языка – это очень лёгкое дело, которое не требует глубоких знаний и подготовки?
Известна прекрасная фраза исследовательницы античности Нины Владимировны Брагинской о том, что компьютер избавляет от рутины, но не от профессии. Что-то сейчас стало легче — несомненно, легче теперь искать цитаты, примеры - но компьютер по-прежнему не думает за человека. Да, какие-то опасности в обучении с помощью электронных баз данных есть. Например, если предложить школьнику поработать с Национальным корпусом русского языка, ребёнок может решить, что корпус – это и есть язык, и сверх корпуса ничего не существует. Но эта опасность меньше, чем там польза, которую такие электронные ресурсы приносят.
Какую именно пользу принесёт работа с Национальным корпусом русского языка на уроке литературы?
Корпус помогает медленному чтению. С помощью корпуса мы можем понять, например, как изменилось значение слова. Слово «откат» нам кажется современным, но оно существовало и в XIX веке, просто это слово значило то, что происходит с орудием после того, как из него выстрелили. Так что если мы будем читать «Севастопольские рассказы» Толстого, то можем удивиться и не понять о чём речь, и тогда корпус поможет скорректировать наши представления.
Вы думаете, что учителям-словесникам стоит активно использовать компьютерные технологии?
Национальный корпус русского языка – да. Про другие компьютерные технологии – не уверен. Большинство из них - это профессиональные сугубо исследовательские инструменты, а исследование требует ответственности и понимания. Когда я учился в школе, нам иногда показывали химические эксперименты, но случалось это редко, и делали это не ученики. Задача школьного учителя химии состоит не в том, чтобы научить делать эксперименты с помощью реактивов, а в том, чтобы дать представление о том, что происходит в момент химической реакции и соотнести это знание с общей картиной мира. Точно так же на уроках литературы в школе не может стоят задача научить пользоваться компьютерными инструментами. Главное для ребёнка - научиться медленно читать и понимать произведение, взаимодействовать с ним. Франко Моретти удачно сказал про своё дальнее чтение: «Мы уже умеем читать тексты, теперь нам нужно научиться их не читать». Так вот, кажется, что в школе дети пока не умеют читать тексты, поэтому разучиваться читать ещё рано.
Может ли случиться, что в будущем ребёнок, который умеет программировать, будет знать литературу лучше, чем тот, кого научили внимательно читать?
Программирование само по себе никак не помогает знать больше про литературу. Литература существует в первую очередь на уровне смыслов, а в этой области компьютер по-прежнему на много позиций уступает человеку. Компьютерное исследование художественного текста происходит так: сначала человек придумывает, какая элементарная единица художественного текста может оказаться важным симптомом смысла или жанра. Потом в компьютер закладывается способ извлекать из текста эту элементарную единицу. И наконец, оценив тексты по этому параметру, человек может дать характеристику жанру, литературе страны или эпохи. Самый простой пример мы находим в книге «Distant reading» Франка Моретти. Он решил, что по такому неважному параметру, как длина заглавия текста, можно о судить о каких-то важных свойствах произведений. И выяснилось, что этот параметр действительно позволяет расклассифицировать книги: скажем, в XVIII веке заглавия были очень длинными, а в XIX веке стали короче. Оказалось, что эта характеристика даёт возможность описать взаимодействие текста и читателя. В XVIII веке не существовало книжной индустрии, книжной торговли, не было способа заранее донести до читателя рекламную информацию о произведении. Это значит, что читатель принимал решение о покупке книги, глядя на её титульный лист, поэтому на титульном листе должно было быть много текста. В XIX веке появились критики, журналы, так что заглавия структурно стали совершенно иными. Как видим, исследователь нашёл какую-то маленькую, «атомарную» деталь, компьютер распознал её в текстах и нарисовал для исследователя модель, а затем исследователь эту модель интерпретировал.
Компьютер помогает анализировать художественные тексты. Создавать их он тоже умеет?
Порождать тексты компьютерные программы умеют очень давно. Это важная функция компьютера, о ней мечтали многие поколения: помните, в фантастических фильмах всё время появляются роботы, которые умеют общаться с человеком посредством речи? Поэтому перед инженерами давно стояла задача научить компьютеры разговаривать, создавать тексты. Сейчас самым ходовым способом порождения текстов являются нейронные сети. Это такая технология, которая используется, в частности, для распознавания лиц на фотографиях или для управления беспилотными автомобилями. Нейронные сети обучились многим навыкам, которые умеет делать человек. Среди прочего они умеют порождать и стихи, «нейронную поэзию».
Нейронная поэзия – это просто игра или в ней есть какой-то научный смысл?
Исследовательский смысл в создании таких стихотворений, действительно, можно найти. Наука работает так: берет большой массив информации и делает из него модель, упрощенную копию. С моделью всегда удобно работать – так же, как удобно работать с картой, упрощённой копией реальной местности. Нейронная сеть сначала «учится» на текстах одного автора или одного периода, а потом генерирует тексты в стиле этого периода или автора. Такие тексты являются упрощённой копией настоящих произведений: стилеметрия не может отличить тексты, которые породила нейронная сеть, от оригинальных. Исследователю удобно будет взять огромный объём текстов, который он в силу ограничений, существующих в нашей жизни, не в состоянии целиком прочесть, и с помощью нейронной сети сгенерировать из этого массива небольшой текст, модель. Такой текст он потом будет медленно читать и изучать.
Юному программисту будет интересно учиться на специальности компьютерной лингвистики?
Если подростка привлекает именно программирование, то ему, конечно, нужно идти на факультет компьютерных наук. Но, возможно, ему интересно не программирование само по себе, а какие-то другие цели, которые с помощью программирования можно достигать, какие-то другие области знания. Возможно, ребёнок прочитал книгу Владимира Александровича Плунгяна «Почему языки такие разные» и ей увлёкся. Тогда ему можно посмотреть в сторону специальности компьютерная лингвистика. Только важно помнить, что лингвистика здесь – не «нагрузка» к программированию, что главное для лингвиста – это язык.