Распознать Слово: атомщики привлекли ИИ к оцифровке богослужебных книг

В Национальный исследовательский ядерный университет «МИФИ» пришли филологи с предложением вместе поработать над оцифровкой богослужебных рукописных книг и поисковой машиной для их лингвистического анализа. Беспрецедентный для русской словесности проект в самом разгаре, к нему кибернетики МИФИ привлекли искусственный интеллект.

Минеи — ​книги с текстами церковных служб на каждый день месяца. В современном полиграфическом исполнении это дюжина увесистых «календарных» томов, а еще есть отдельная Праздничная минея.

«На протяжении веков в русских храмах использовали рукописные минеи. Большая их часть до нас не дошла, но и сохранилось немало. Мы имеем дело с насчитывающим тысячи томов древнерусским корпусом миней, — ​говорит научный руководитель исследования, ведущий научный сотрудник Института русского языка им. Виноградова РАН Александра Плетнева. — ​С одной стороны, это прекрасно. В распоряжении лингвистов колоссальный материал, позволяющий проследить эволюцию текста и изменения, которые происходили в языке. Рукописные книги тем и отличаются от печатных, что каждая рукопись уникальна. Сравнивая их, можно узнать очень много. Так, в определенный момент появляются пробелы между словами, почерки разнятся, писец может допустить описку или по какой‑то причине добавить немного отсебятины. Есть и региональные различия: минеи новгородские заметно отличаются от московских. Но вручную такие массивы данных обработать нереально, и оцифровка рукописей обещает прорыв в изучении древнерусского языка и литературы».

Однако амбициозная задача создать инструменты, позволяющие распознать рукописные тексты и работать с ними, требует огромного совместного труда программистов и филологов.

«У зарубежных аналогов другие языковые базы, — ​уточняет заведующий лабораторией цифровой лингвистики Института фундаментальных проблем социогуманитарных наук доцент кафедры кибернетики НИЯУ «МИФИ» Дмитрий Демидов. — ​Они не понимают важнейшие для славянских текстов особенности — ​к примеру, надстрочные знаки: ​относящиеся к отдельной букве диакритики и относящиеся к слову и обозначающие сокращение титла. Еще сложнее работать с широко практиковавшейся в рукописных богослужебных книгах нотированной записью — ​когда писец между строк для удобства певчих проставлял крюки и знамена, элементы безлинейного древнерусского нотного письма. Заглавные буквы, так называемая буквица, — ​это скорее элементы творческого самовыражения писца, мини произведение искусства, которым тот радовал читателей, но для формального распознавания они невероятно трудны. А уж если в заставках к началу того или иного богослужебного дня появляется вязь, иногда еще и двухэтажная, текст превращается в ребус».

Ученым НИЯУ «МИФИ» пришлось заняться созданием системы распознавания образов и поисковой машины.

«Мы постоянно натренировываем разные нейросетевые модели. К примеру, плодотворно поработали со специализирующимися на сегментации изображений CNN и U-Net, — ​продолжает Дмитрий Демидов. — ​Классификация сегментов рукописных книг оказалась весьма творческим процессом. Писец мог немного разделить элементы буквы или, наоборот, объединить две соседние буквы в диграф. Этот момент необходимо уловить».

Ученый демонстрирует на мониторе два файла. Слева — ​отсканированный оригинал. Справа — ​распознанный машиной текст, в котором визуально «проколоты» требующие дополнительной проверки фрагменты. «Видите, писец начертал букву «к», немного отделив левую палочку? В данном случае она распознана правильно, но часто такое написание интерпретируется как две рукописные буквы «i» и «с».

В используемом каталоге миней около трех сотен томов из собраний Государственного исторического музея, Российской государственной библиотеки, Российского государственного архива древних актов, областных библиотек. В НИЯУ «МИФИ» создают морфологический словарь церковнославянского языка — ​свод, который учитывает все словоформы и варианты написания. Фактически это отдельная лингвистическая интеллектуальная среда, способная представить выборку по запросу.

«Мы хотим дать компетентным пользователям возможность еще и править не замеченные разработчиками ошибки, — ​раскрывает планы Александра Плетнева. — ​Примерно как в «Википедии»: слева в окне на мониторе проверяемый текст, справа — ​правленый».

Проект поддерживает госпрограмма «Приоритет‑2030». Как ожидается, первые пользовательские версии программного продукта станут доступны ученым в будущем году.

Иеромонах Родион (Ларионов)
И. о. директора Института фундаментальных проблем социогуманитарных наук НИЯУ «МИФИ», кандидат физико-­математических наук, кандидат богословия

— Исследовательский проект реализуется по инициативе ректора НИЯУ «МИФИ» Владимира Шевченко. В нашем институте создали лабораторию цифровой лингвистики. Идея проекта ярко иллюстрирует, как можно использовать современные технологии для сохранения и изучения национального культурного наследия. Но главная цель — дать в руки филологам и лингвистам универсальный инструмент для работы со всем объемом рукописного наследия древних славянских языков. В настоящее время уже создан тестовый пользовательский интерфейс под названием «Лингвистическая интеллектуальная среда «Рукописное наследие Древней Руси». В его рамках можно сегментировать и распознавать оцифрованные рукописные тексты для обучения нейросетей.

Корпус рукописного наследия Древней Руси slavcorpora.ru (вход по простой регистрации)

Поделиться
Есть интересная история?
Напишите нам
Читайте также: