Распознать Слово: атомщики привлекли ИИ к оцифровке богослужебных книг
В Национальный исследовательский ядерный университет «МИФИ» пришли филологи с предложением вместе поработать над оцифровкой богослужебных рукописных книг и поисковой машиной для их лингвистического анализа. Беспрецедентный для русской словесности проект в самом разгаре, к нему кибернетики МИФИ привлекли искусственный интеллект.
Минеи — книги с текстами церковных служб на каждый день месяца. В современном полиграфическом исполнении это дюжина увесистых «календарных» томов, а еще есть отдельная Праздничная минея.
«На протяжении веков в русских храмах использовали рукописные минеи. Большая их часть до нас не дошла, но и сохранилось немало. Мы имеем дело с насчитывающим тысячи томов древнерусским корпусом миней, — говорит научный руководитель исследования, ведущий научный сотрудник Института русского языка им. Виноградова РАН Александра Плетнева. — С одной стороны, это прекрасно. В распоряжении лингвистов колоссальный материал, позволяющий проследить эволюцию текста и изменения, которые происходили в языке. Рукописные книги тем и отличаются от печатных, что каждая рукопись уникальна. Сравнивая их, можно узнать очень много. Так, в определенный момент появляются пробелы между словами, почерки разнятся, писец может допустить описку или по какой‑то причине добавить немного отсебятины. Есть и региональные различия: минеи новгородские заметно отличаются от московских. Но вручную такие массивы данных обработать нереально, и оцифровка рукописей обещает прорыв в изучении древнерусского языка и литературы».
Однако амбициозная задача создать инструменты, позволяющие распознать рукописные тексты и работать с ними, требует огромного совместного труда программистов и филологов.
«У зарубежных аналогов другие языковые базы, — уточняет заведующий лабораторией цифровой лингвистики Института фундаментальных проблем социогуманитарных наук доцент кафедры кибернетики НИЯУ «МИФИ» Дмитрий Демидов. — Они не понимают важнейшие для славянских текстов особенности — к примеру, надстрочные знаки: относящиеся к отдельной букве диакритики и относящиеся к слову и обозначающие сокращение титла. Еще сложнее работать с широко практиковавшейся в рукописных богослужебных книгах нотированной записью — когда писец между строк для удобства певчих проставлял крюки и знамена, элементы безлинейного древнерусского нотного письма. Заглавные буквы, так называемая буквица, — это скорее элементы творческого самовыражения писца, мини произведение искусства, которым тот радовал читателей, но для формального распознавания они невероятно трудны. А уж если в заставках к началу того или иного богослужебного дня появляется вязь, иногда еще и двухэтажная, текст превращается в ребус».
Ученым НИЯУ «МИФИ» пришлось заняться созданием системы распознавания образов и поисковой машины.
«Мы постоянно натренировываем разные нейросетевые модели. К примеру, плодотворно поработали со специализирующимися на сегментации изображений CNN и U-Net, — продолжает Дмитрий Демидов. — Классификация сегментов рукописных книг оказалась весьма творческим процессом. Писец мог немного разделить элементы буквы или, наоборот, объединить две соседние буквы в диграф. Этот момент необходимо уловить».
Ученый демонстрирует на мониторе два файла. Слева — отсканированный оригинал. Справа — распознанный машиной текст, в котором визуально «проколоты» требующие дополнительной проверки фрагменты. «Видите, писец начертал букву «к», немного отделив левую палочку? В данном случае она распознана правильно, но часто такое написание интерпретируется как две рукописные буквы «i» и «с».
В используемом каталоге миней около трех сотен томов из собраний Государственного исторического музея, Российской государственной библиотеки, Российского государственного архива древних актов, областных библиотек. В НИЯУ «МИФИ» создают морфологический словарь церковнославянского языка — свод, который учитывает все словоформы и варианты написания. Фактически это отдельная лингвистическая интеллектуальная среда, способная представить выборку по запросу.
«Мы хотим дать компетентным пользователям возможность еще и править не замеченные разработчиками ошибки, — раскрывает планы Александра Плетнева. — Примерно как в «Википедии»: слева в окне на мониторе проверяемый текст, справа — правленый».
Проект поддерживает госпрограмма «Приоритет‑2030». Как ожидается, первые пользовательские версии программного продукта станут доступны ученым в будущем году.
Иеромонах Родион (Ларионов)
И. о. директора Института фундаментальных проблем социогуманитарных наук НИЯУ «МИФИ», кандидат физико-математических наук, кандидат богословия
— Исследовательский проект реализуется по инициативе ректора НИЯУ «МИФИ» Владимира Шевченко. В нашем институте создали лабораторию цифровой лингвистики. Идея проекта ярко иллюстрирует, как можно использовать современные технологии для сохранения и изучения национального культурного наследия. Но главная цель — дать в руки филологам и лингвистам универсальный инструмент для работы со всем объемом рукописного наследия древних славянских языков. В настоящее время уже создан тестовый пользовательский интерфейс под названием «Лингвистическая интеллектуальная среда «Рукописное наследие Древней Руси». В его рамках можно сегментировать и распознавать оцифрованные рукописные тексты для обучения нейросетей.
Корпус рукописного наследия Древней Руси slavcorpora.ru (вход по простой регистрации)