Результаты трех лет работы по оцифровке коллекций Гербария МГУ
Ведущий научный сотрудник Гербария МГУ имени М.В.Ломоносова опубликовал в журнале Taxon результаты работы по созданию «Цифрового гербария МГУ». В рамках проекта «Ноев ковчег» ученые за три года создали крупнейшую в России базу данных растений со всего мира. Уже сейчас «Цифровой гербарий МГУ» доступен всем желающим, а в будущем исследователи собираются обучить нейронную сеть определять правильность идентификации растений, а также создать «Атлас флоры России» и «Чеклист флоры России».
Коллекция Гербария МГУ насчитывает свыше миллиона образцов. В 2015 году в рамках проекта «Ноев ковчег» началась масштабная работа по ее переводу в цифровой вид: ученые сканировали образцы засушенных растений и вносили данные с этикеток. За три года сотрудники университета вместе с помощниками и компанией-партнером оцифровали более 900 тысяч записей — 89% коллекции. Помимо отсканированных образцов растений цифровой, гербарий включает тексты оригинальных этикеток и географические координаты мест сбора растений. При оцифровке используется как помощь волонтеров, так и автоматические системы, распознающие штрихкоды и помогающие работать с географическими координатами. Так, алгоритм может определять место сбора растения, сопоставляя имя ботаника с датой обнаружения растения или группируя растения по текстовому описанию места на этикетке. Позднее координаты для каждой из таких групп прописываются вручную.
Большинство образцов растений Гербария МГУ — 634 тысячи — было собрано на территории России. Хорошо представлена флора Украины (30 тысяч), Монголии (27 тысяч), еще 99 тысяч образцов получено из стран Центральной Азии, немало растений в коллекции было собрано в Мали, Вьетнаме и Северной Корее.
Материалы «Цифрового гербария МГУ» доступны на его сайте. Изображения получают лицензию CC-BY 4.0, то есть на них не распространяются ограничения, связанные с авторскими правами, при условии прямой ссылки на первоисточник. Отсканированные растения и тексты с этикеток доступны для поисковых систем, на сайте Гербария записи можно сортировать по характеристикам растения, месту его обнаружения и другим критериям.
Параллельно с оцифровкой продолжается и активное пополнение коллекций. В 2016 году они выросли на 22 тысячи образцов, в 2017-м — на 19 тысяч. Больше всего в Гербарии появилось растений из Восточной Европы и азиатской части России, Центральной Азии и Кавказа. В 2016 году сотрудники Московского университета описали 16 новых видов растений из разных частей мира.
«В ближайшем будущем благодаря технологиям машинного обучения и нейронным сетям мы получим возможность автоматически проверять правильность идентификации коллекций сухих растений. Прошлый год стал поворотным: в 2017 году в мировой печати вышли сразу три публикации, посвященные автоматическому распознаванию растений по сканам. Технологии машинного обучения будут основаны на уже созданных и верифицированных библиотеках с изображениями сухих растений. Гербарий МГУ входит в семерку крупнейших цифровых гербариев мира, и, безусловно, его данные лягут в основу этого необычного футуриса», — рассказал автор статьи, ведущий научный сотрудник биологического факультета МГУ Алексей Серегин.
Собранная в рамках проекта база данных гербарных образцов поможет при создании «Атласа флоры России» и «Чеклиста флоры России». Атлас будет содержать сведения о распространении растений на территории страны, для него нужны данные и других российских гербариев, в том числе тех, которые пока не оцифрованы. «Чеклист флоры России» — стандартный перечень всех видов российской флоры, его можно составить на основе «Цифрового гербария МГУ» уже через два-три года. Оба проекта важны для документации и научного анализа разнообразия растений России и сохранения редких видов.
Фото: Образец Silene lasiantha из коллекций гербария. Источник: Гербарий МГУ
Добавьте свой комментарий