Проект РНФ № 24-24-00460 – заявка в удобном для чтения формате

Обновлено: 15.06.2023

Форма 1. Сведения о проекте

1.1. Название проекта

Технологии мобилизации первичной информации о биоразнообразии: от литературного наследия к озеру данных

=The mobilization techniques for primary data on biodiversity: from literature legacy to digital lake

1.2. Приоритетное направление

Приоритетное направление развития науки, технологий и техники в Российской Федерации, критическая технология

Направление: 6. Рациональное природопользование

Технология: 19. Технологии мониторинга и прогнозирования состояния окружающей среды, предотвращения и ликвидации ее загрязнения.

1.3. Ключевые слова

(не более 15 терминов)

Информатика биоразнообразия, экология, зоология, биогеография, биоразнообразие, мониторинг, охрана природы, геоэкология, геоинформационные технологии, ГИС, большие данные, пауки, Урал

Английский:

Biodiversity informatics, ecology, zoology, biogeography, biodiversity, monitoring, conservation science, geoecology, geoinformational technologies, GIS system, big data, spiders, Urals

1.4. Аннотация проекта

На русском

Функционирование экосистем определяет благополучие человека, обеспечивая плодородие почв, пищевую безопасность и доступ к жизненно важным ресурсам. Состояние экосистем тесно связано с биоразнообразием. Его изучение должно осуществляться в соответствии с мировыми стандартами качества, поскольку первичные данные о биоразнообразии лежат в основе управляющих решений в природоохранной деятельности, сельском и лесном хозяйстве. Эффективность этих решений и глубина понимания функционирования экосистем критически зависят от качества, доступности и репрезентативности первичных данных о биоразнообразии.

Подходы, применяемые для управления данными о биоразнообразии, существенно продвинулись за последнее десятилетие, но все ещё не в полной мере используют арсенал современных способов обработки данных и машинного обучения. Проект направлен на сокращение этого отставания. Будут разработаны и подготовлены к масштабированию технологии интенсивного извлечения первичных данных о распространении и разнообразии живых организмов из множества опубликованных статей, монографий и других печатных материалов, их переноса в цифровой формат в соответствии с современными стандартами управления данных.

В результате реализации проекта будет разработано онлайн-приложение для оцифровки литературных данных о находках живых организмов. Приложение будет оснащено модулями интеграции с информацией об условиях окружающей среды и видовых характеристиках организмов, а также модулем анализа и визуализации всего комплекса данных. К оцифровке литературных источников будут привлечены волонтеры в рамках проекта гражданской науки. В качестве модельного таксона выбраны пауки Уральского региона. Также будут использованы современные технологии искусственного интеллекта, а именно построение и обучение нейросети для извлечения данных о биоразнообразии из литературных источников. Полученный набор данных, содержащий 60 000 записей о 200 000 особей, будет размещен в свободном доступе вместе с инструментами анализа и визуализации, а также в виде цифровой копии на ведущих репозиториях для данных о биоразнообразии.

На английском

The functioning of ecosystems determines human sustainability by providing soil fertility, food security, and access to vital resources. The ecosystems’ condition is closely linked to biodiversity, and its study should be conducted in accordance with global quality standards, as primary data on biodiversity underlie management decisions in nature conservation, agriculture, and forestry. The effectiveness of these decisions and the depth of understanding of ecosystem functioning critically depend on the quality, availability, and representativeness of the primary biodiversity data.

Approaches used for managing biodiversity data have significantly advanced over the past decade, but they still do not fully use the arsenal of modern data processing and machine learning methods. This project aims to reduce this gap. Technologies for intensive extraction of primary data on the distribution and diversity of living organisms from a plenty of published articles, monographs, and other printed materials, and their transfer to digital format in accordance with modern data management standards will be developed and prepared for scaling up.

As a result of the project, the online application for digitizing literature data on living organism occurrences will be developed. The application will be equipped with modules for integrating information on environmental conditions and organism characteristics, as well as a module for analyzing and visualizing the entire data set. Volunteers will be involved in digitizing literary sources, within the citizen science project. Spiders of the Ural region were chosen as a model taxon. Modern artificial intelligence technologies will also be used: the construction and training of a neural network for extracting biodiversity data from literary sources. The resulting data set containing 60,000 records of 200,000 individuals will be made freely available along with analysis and visualization tools, as well as a digital copy on leading repositories for biodiversity data.

1.5. Ожидаемые результаты и их значимость

На русском

  1. Будет разработан интерактивный ресурс (онлайн-приложение) для оцифровки литературных данных о находках живых организмов.
  2. Онлайн-приложение будет оснащено модулями интеграции данных об условиях окружающей среды и видовых характеристиках организмов, анализа и визуализации всего комплекса данных.
  3. Будет запущен проект гражданской науки (Citizen Science) по оцифровке литературных данных о разнообразии и распространении живых организмов. В качестве пилотного таксона и региона выбраны пауки и Урал соответственно.
  4. Будет натренирована нейросеть для извлечения данных о биоразнообразии из литературы, будет проанализирована её эффективность в сравнении с таковой у Citizen Science проекта.
  5. Полученный набор данных будет размещен в сети вместе с инструментами анализа и визуализации, а также в виде цифровой копии на ведущих репозиториях для данных о биоразнообразии.

Извлечение данных о распространении и разнообразии живых организмов из множества опубликованных статей, монографий и других печатных материалов – насущная и актуальная задача современной экологии, решения для которой будут предложены в результате реализации проекта. Методы интенсивной оцифровки будут разработаны и оптимизированы, протестированы на удобном для этого таксоне и регионе (пауках Урала), подготовлены к масштабированию на больший таксономический и географический охват. В рамках проекта мы сравним эффективность принципиально разных подходов – Data Science и Citizen Science. Набор данных о пауках Урала, полученный в результате тестирования этих подходов, может в дальнейшем использоваться в проектах по экологии, биогеографии, охране природы.

На английском

  1. An interactive resource (web application) will be developed for digitizing literary data on the findings of living organisms.
  2. The developed application will be equipped with modules for integrating data on environmental conditions and organism characteristics, as well as for analyzing and visualizing the entire data complex.
  3. A Citizen Science project will be launched to digitize literary data on the diversity and distribution of living organisms. Spiders and the Ural region have been selected as the pilot taxon and region, respectively.
  4. A neural network will be trained to extract data on biodiversity from literature, and its effectiveness will be analyzed in comparison to that of the Citizen Science project.
  5. The resulting data set will be made available online along with analysis and visualization tools, as well as in the form of a digital copy on leading repositories for biodiversity data.

Extracting data on the distribution and diversity of living organisms from a plenty of published articles, monographs, and other printed materials is an urgent and relevant task in modern ecology, the solutions for which will be proposed as a result of project implementation. Intensive digitization methods will be developed and optimized, tested on a suitable taxon and region (spiders in the Ural region), and prepared for scaling up to a larger taxonomic and geographic scope. Within the project, we will compare the effectiveness of fundamentally different approaches - Data Science and Citizen Science. The data set on spiders in the Ural region obtained through testing these approaches can be used in future projects on ecology, biogeography, and nature conservation.

1.7. Планируемый состав научного коллектива


1. Созонтов Артём Николаевич, 33 года, к.б.н. (руководитель). Институт экологии растений и животных УрО РАН, научный сотрудник (трудовой договор).