20.03.2020 2 011 0 +38 cemero4kaa

ИИ поможет создать первый в истории корпус древнеславянских текстов

---

+38

В закладки

Ученые впервые создадут интерактивную базу древнеславянских текстов с помощью технологий искусственного интеллекта

ИИ поможет создать первый в истории корпус древнеславянских текстов текстов, корпуса, языка, которые, собой, данных, которых, является, веков, древнеславянских, основы, работу, рукописных, важно, изменения, тексты, таких, систематизировать, представляют, современных

ИИ поможет создать первый в истории корпус древнеславянских текстов текстов, корпуса, языка, которые, собой, данных, которых, является, веков, древнеславянских, основы, работу, рукописных, важно, изменения, тексты, таких, систематизировать, представляют, современных

Коллаборация ученых Института русского языка им. В. В. Виноградова РАН, НИТУ «МИСиС», НИУ ВШЭ при поддержке Комиссии по работе с вузами и научным сообществом при Епархиальном совете г. Москвы запустила масштабный проект по созданию с помощью технологий искусственного интеллекта и машинного обучения уникальной базы древнеславянских рукописных текстов — корпуса.

Создание корпуса древнеславянского языка даст исследователям-лингвистам и историкам мощный инструмент для изучения всех современных национальных славянских языков и культур и станет уникальным ключом к пониманию их наследия.

Корпус – это структурированная база данных языка, информационно-справочная система, основанная на собрании текстов на определенном языке в электронной форме. Он представляет собой подобранную и особым образом обработанную (размеченную) совокупность текстов, которые используются в качестве основы для исследования лексики и грамматики языка.

Древнеславянские тексты представляют собой многообразие рукописных памятников XI – XVII веков, фундамент всех современных национальных славянских языков и культур. Создание системного корпуса языка связано с трудоемкой, тонкой и кропотливой работой, требующей объединения усилий профессионалов из различных областей и, по мнению ученых, является задачей общенационального характера.

ИИ поможет создать первый в истории корпус древнеславянских текстов текстов, корпуса, языка, которые, собой, данных, которых, является, веков, древнеславянских, основы, работу, рукописных, важно, изменения, тексты, таких, систематизировать, представляют, современных

Страница одного из Изборников Святослава (1073 и 1076 гг.), которые относятся к древнейшим сохранившимся древнерусским рукописным книгам.

Иеромонах Родион (Ларионов), заместитель председателя Комиссии по работе с вузами и научным сообществом при Епархиальном совете г. Москвы, отметил, что создание корпуса дрвнеславянских текстов является важной задачей.

Объем таких текстов составляют древнерусские, болгарские, сербские тексты XI – XVII веков — это несколько тысяч богослужебных рукописей, в которых язык меняется от века к веку. Ученым важно понять, во-первых, почему эти изменения происходят, чем они продиктованы, что влияет на их возникновение, а во-вторых, что эти изменения повлекли за собой.

«Если анализировать и систематизировать человеческими ресурсами тот объем данных, который представляют собой древнеславянские рукописи – это астрономическая работа, которая растянулась бы на века, особенно, учитывая, что профессионалов, которые способны делать эту работу, в принципе очень мало. Технологии распознавания и оцифровки текстов, машинного перевода и ИИ позволят провести это важную работу в обозримое время», — Иеромонах Родион (Ларионов).

Искусственный интеллект позволит охватить весь этот гигантский массив данных, систематизировать и создать алгоритмы расстановки лингвистической разметки – главной характеристики корпуса. Именно она отличает корпус от простой библиотеки.

Проекты по использованию цифровых подходов к анализу культурного наследия активно развиваются в европейских странах и являются прекрасным примером междисциплинарного взаимодействия.

В отношении языковых памятников, можно отметить два принципиальных направления работ – преобразование сканированных изображений в «машиночитаемый» вид и построение языковых моделей, упрощающих анализ и понимание текстов. Со славянскими текстами, написание букв (графем) которых отличается витиеватостью и широким использованием диакритических знаков, таких системных наработок еще не предпринималось.

ИИ поможет создать первый в истории корпус древнеславянских текстов текстов, корпуса, языка, которые, собой, данных, которых, является, веков, древнеславянских, основы, работу, рукописных, важно, изменения, тексты, таких, систематизировать, представляют, современных

«В некотором смысле, такой проект является мостиком от культуры прошлого к технологиям будущего, — комментирует Андрей Устюжанин, ведущий эксперт Центра инфраструктурного взаимодействия и партнёрства MegaScience НИТУ «МИСиС». — По нашему опыту междисциплинарных проектов не так важно заручиться самой продвинутой технологией, как заложить основы общения людей друг с другом – специалистов по языку со специалистами по искусственному интеллекту».

Первым этапом проекта станет оцифровка и разметка комплекса древнеславянских миней XI-XVII веков на древнерусском, болгарском и сербском языках – служебных церковных книг, содержащих распорядок служб всех дней церковного года, рукописи которых хранятся в собраниях Государственного исторического музея, Российской национальной и государственной библиотек, Российского государственного архива древних актов, Свято-Троицкой Сергиевой лавры.

Источник: labuda.blog

Комментарии (0)

Добавить комментарий

[related-news]

{related-news}

[/related-news]