Нейросеть оцифровала десять тысяч астрономических рукописей
Человечество наблюдает солнечные пятна с помощью телескопов уже более четырёх веков. В те давние времена записи велись от руки, и сегодня анализировать их сложно.
Исследователи из МГУ им. М. В. Ломоносова совместно с коллегами из Института механики сплошных сред УрО РАН (г. Пермь) и Потсдамского астрофизического института имени Лейбница (Германия) разработали нейросетевую модель, которая с высокой точностью читает рукописные тексты, и смогли перевести в цифровой формат десять тысяч страниц рукописных каталогов по солнечной активности конца XIX — начала XX века из обсерватории в Цюрихе (Швейцария). Эти каталоги содержат информацию о том, где располагались в тот исторический период солнечные пятна, протуберанцы и факелы (яркие поля вокруг солнечных пятен), которая ранее систематически не анализировалась. В данном случае текстом были координаты активных областей Солнца, записанные в таблицы. В результате удалось восстановить детальную картину положений солнечных пятен, факелов и протуберанцев за более чем 30 лет наблюдений.
Примечательно, что ни одна из готовых программ, которые сотрудники МГУ тестировали в начале процесса, не давала удовлетворительного результата. Поэтому пришлось разрабатывать собственную модель, которая не просто с высокой точностью читает рукописный текст, но и оценивает вероятность правильного распознавания числа — целиком и отдельных цифр. Кроме того, модель предлагает набор возможных интерпретаций. «В рукописном тексте, например, цифра 1 может быть похожа на 7, 5, 8 и так далее. Поэтому важно, чтобы в неоднозначных случаях модель давала несколько наиболее вероятных трактовок написанного символа», — поясняет кандидат физико-математических наук Егор Илларионов, доцент кафедры теории вероятностей механико-математического факультета МГУ.
Математики также разработали процедуру, которая позволяет модели «в ре- жиме онлайн» адаптироваться под новые стили почерка (ведь наблюдатели, заполнявшие каталог, неоднократно менялись за 30 лет) и особенности страниц. Благодаря этому значительно повысилась точность распознавания по сравнению с моделью, которая работает с фиксированными предобученными параметрами.
Предложенная технология распознавания текста в документах может быть адаптирована к самым разным задачам — таким, где ручная обработка оказывается слишком трудоёмкой из-за больших объёмов текстов.
Полученный набор новых детальных данных о координатах солнечных пятен, протуберанцев и факелов на рубеже двух веков теперь доступен для специалистов по солнечной физике (данные хранятся в репозитории GitHub (github.com/observethesun/zurich_catalogs).
Результаты работы, поддержанной грантом Российского научного фонда (РНФ), опубликованы в журнале «Solar Physics».
По информации пресс-службы МГУ им. М. В. Ломоносова.
Читайте в любое время