Нейросеть оцифровала десять тысяч астрономических рукописей

Человечество наблюдает солнечные пятна с помощью телескопов уже более четырёх веков. В те давние времена записи велись от руки, и сегодня анализировать их сложно.

Человечество наблюдает солнечные пятна с помощью телескопов уже более четырёх веков. В те давние времена записи велись от руки, и сегодня анализировать их сложно. Между тем обработка большого объёма астрономических данных и их анализ дадут возможность астрономам уточнить представления о характере солнечной активности и особенностях солнечных циклов в прошлом. Поэтому в наше время специалисты занимаются расшифровкой и оцифровкой подобных каталогов. Занятие этим вручную — долгий и трудоёмкий процесс, а потому математики прибегают к помощи искусственного интеллекта.

Страница оригинального рукописного каталога из Цюрихской обсерватории (слева) и распознанные с помощью нейросети числа (справа). Ячейки тёмного цвета выделяют результаты, в которых модель сомневается (недостаточно высокая вероятность правильного ответа). Иллюстрация предоставлена Егором Илларионовым.

Исследователи из МГУ им. М. В. Ломоносова совместно с коллегами из Института механики сплошных сред УрО РАН (г. Пермь) и Потсдамского астрофизического института имени Лейбница (Германия) разработали нейросетевую модель, которая с высокой точностью читает рукописные тексты, и смогли перевести в цифровой формат десять тысяч страниц рукописных каталогов по солнечной активности конца XIX — начала XX века из обсерватории в Цюрихе (Швейцария). Эти каталоги содержат информацию о том, где располагались в тот исторический период солнечные пятна, протуберанцы и факелы (яркие поля вокруг солнечных пятен), которая ранее систематически не анализировалась. В данном случае текстом были координаты активных областей Солнца, записанные в таблицы. В результате удалось восстановить детальную картину положений солнечных пятен, факелов и протуберанцев за более чем 30 лет наблюдений.

Примечательно, что ни одна из готовых программ, которые сотрудники МГУ тестировали в начале процесса, не давала удовлетворительного результата. Поэтому пришлось разрабатывать собственную модель, которая не просто с высокой точностью читает рукописный текст, но и оценивает вероятность правильного распознавания числа — целиком и отдельных цифр. Кроме того, модель предлагает набор возможных интерпретаций. «В рукописном тексте, например, цифра 1 может быть похожа на 7, 5, 8 и так далее. Поэтому важно, чтобы в неоднозначных случаях модель давала несколько наиболее вероятных трактовок написанного символа», — поясняет кандидат физико-математических наук Егор Илларионов, доцент кафедры теории вероятностей механико-математического факультета МГУ.

Математики также разработали процедуру, которая позволяет модели «в ре- жиме онлайн» адаптироваться под новые стили почерка (ведь наблюдатели, заполнявшие каталог, неоднократно менялись за 30 лет) и особенности страниц. Благодаря этому значительно повысилась точность распознавания по сравнению с моделью, которая работает с фиксированными предобученными параметрами.

Предложенная технология распознавания текста в документах может быть адаптирована к самым разным задачам — таким, где ручная обработка оказывается слишком трудоёмкой из-за больших объёмов текстов.

Полученный набор новых детальных данных о координатах солнечных пятен, протуберанцев и факелов на рубеже двух веков теперь доступен для специалистов по солнечной физике (данные хранятся в репозитории GitHub (github.com/observethesun/zurich_catalogs).

Результаты работы, поддержанной грантом Российского научного фонда (РНФ), опубликованы в журнале «Solar Physics».

По информации пресс-службы МГУ им. М. В. Ломоносова.

Читайте в любое время

Купить PDF за 168 р

Купить на Ozon

Купить на Wildberries

Обложка журнала «Наука и жизнь» №08 за 2022 г.

№8, 2022

Товар добавлен в корзину