Проект РНФ № 24-24-00460 – заявка в удобном для чтения формате

Обновлено: 15.06.2023

Форма 1. Сведения о проекте

1.1. Название проекта

Технологии мобилизации первичной информации о биоразнообразии: от литературного наследия к озеру данных

=The mobilization techniques for primary data on biodiversity: from literature legacy to digital lake

1.2. Приоритетное направление

Приоритетное направление развития науки, технологий и техники в Российской Федерации, критическая технология

Направление: 6. Рациональное природопользование

Технология: 19. Технологии мониторинга и прогнозирования состояния окружающей среды, предотвращения и ликвидации ее загрязнения.

1.3. Ключевые слова

(не более 15 терминов)

Информатика биоразнообразия, экология, зоология, биогеография, биоразнообразие, мониторинг, охрана природы, геоэкология, геоинформационные технологии, ГИС, большие данные, пауки, Урал

Английский:

Biodiversity informatics, ecology, zoology, biogeography, biodiversity, monitoring, conservation science, geoecology, geoinformational technologies, GIS system, big data, spiders, Urals

1.4. Аннотация проекта

На русском

Функционирование экосистем определяет благополучие человека, обеспечивая плодородие почв, пищевую безопасность и доступ к жизненно важным ресурсам. Состояние экосистем тесно связано с биоразнообразием. Его изучение должно осуществляться в соответствии с мировыми стандартами качества, поскольку первичные данные о биоразнообразии лежат в основе управляющих решений в природоохранной деятельности, сельском и лесном хозяйстве. Эффективность этих решений и глубина понимания функционирования экосистем критически зависят от качества, доступности и репрезентативности первичных данных о биоразнообразии.

Подходы, применяемые для управления данными о биоразнообразии, существенно продвинулись за последнее десятилетие, но все ещё не в полной мере используют арсенал современных способов обработки данных и машинного обучения. Проект направлен на сокращение этого отставания. Будут разработаны и подготовлены к масштабированию технологии интенсивного извлечения первичных данных о распространении и разнообразии живых организмов из множества опубликованных статей, монографий и других печатных материалов, их переноса в цифровой формат в соответствии с современными стандартами управления данных.

В результате реализации проекта будет разработано онлайн-приложение для оцифровки литературных данных о находках живых организмов. Приложение будет оснащено модулями интеграции с информацией об условиях окружающей среды и видовых характеристиках организмов, а также модулем анализа и визуализации всего комплекса данных. К оцифровке литературных источников будут привлечены волонтеры в рамках проекта гражданской науки. В качестве модельного таксона выбраны пауки Уральского региона. Также будут использованы современные технологии искусственного интеллекта, а именно построение и обучение нейросети для извлечения данных о биоразнообразии из литературных источников. Полученный набор данных, содержащий 60 000 записей о 200 000 особей, будет размещен в свободном доступе вместе с инструментами анализа и визуализации, а также в виде цифровой копии на ведущих репозиториях для данных о биоразнообразии.

На английском

The functioning of ecosystems determines human sustainability by providing soil fertility, food security, and access to vital resources. The ecosystems’ condition is closely linked to biodiversity, and its study should be conducted in accordance with global quality standards, as primary data on biodiversity underlie management decisions in nature conservation, agriculture, and forestry. The effectiveness of these decisions and the depth of understanding of ecosystem functioning critically depend on the quality, availability, and representativeness of the primary biodiversity data.

Approaches used for managing biodiversity data have significantly advanced over the past decade, but they still do not fully use the arsenal of modern data processing and machine learning methods. This project aims to reduce this gap. Technologies for intensive extraction of primary data on the distribution and diversity of living organisms from a plenty of published articles, monographs, and other printed materials, and their transfer to digital format in accordance with modern data management standards will be developed and prepared for scaling up.

As a result of the project, the online application for digitizing literature data on living organism occurrences will be developed. The application will be equipped with modules for integrating information on environmental conditions and organism characteristics, as well as a module for analyzing and visualizing the entire data set. Volunteers will be involved in digitizing literary sources, within the citizen science project. Spiders of the Ural region were chosen as a model taxon. Modern artificial intelligence technologies will also be used: the construction and training of a neural network for extracting biodiversity data from literary sources. The resulting data set containing 60,000 records of 200,000 individuals will be made freely available along with analysis and visualization tools, as well as a digital copy on leading repositories for biodiversity data.

1.5. Ожидаемые результаты и их значимость

На русском

Будет разработан интерактивный ресурс (онлайн-приложение) для оцифровки литературных данных о находках живых организмов.
Онлайн-приложение будет оснащено модулями интеграции данных об условиях окружающей среды и видовых характеристиках организмов, анализа и визуализации всего комплекса данных.
Будет запущен проект гражданской науки (Citizen Science) по оцифровке литературных данных о разнообразии и распространении живых организмов. В качестве пилотного таксона и региона выбраны пауки и Урал соответственно.
Будет натренирована нейросеть для извлечения данных о биоразнообразии из литературы, будет проанализирована её эффективность в сравнении с таковой у Citizen Science проекта.
Полученный набор данных будет размещен в сети вместе с инструментами анализа и визуализации, а также в виде цифровой копии на ведущих репозиториях для данных о биоразнообразии.

Извлечение данных о распространении и разнообразии живых организмов из множества опубликованных статей, монографий и других печатных материалов – насущная и актуальная задача современной экологии, решения для которой будут предложены в результате реализации проекта. Методы интенсивной оцифровки будут разработаны и оптимизированы, протестированы на удобном для этого таксоне и регионе (пауках Урала), подготовлены к масштабированию на больший таксономический и географический охват. В рамках проекта мы сравним эффективность принципиально разных подходов – Data Science и Citizen Science. Набор данных о пауках Урала, полученный в результате тестирования этих подходов, может в дальнейшем использоваться в проектах по экологии, биогеографии, охране природы.

На английском

An interactive resource (web application) will be developed for digitizing literary data on the findings of living organisms.
The developed application will be equipped with modules for integrating data on environmental conditions and organism characteristics, as well as for analyzing and visualizing the entire data complex.
A Citizen Science project will be launched to digitize literary data on the diversity and distribution of living organisms. Spiders and the Ural region have been selected as the pilot taxon and region, respectively.
A neural network will be trained to extract data on biodiversity from literature, and its effectiveness will be analyzed in comparison to that of the Citizen Science project.
The resulting data set will be made available online along with analysis and visualization tools, as well as in the form of a digital copy on leading repositories for biodiversity data.

Extracting data on the distribution and diversity of living organisms from a plenty of published articles, monographs, and other printed materials is an urgent and relevant task in modern ecology, the solutions for which will be proposed as a result of project implementation. Intensive digitization methods will be developed and optimized, tested on a suitable taxon and region (spiders in the Ural region), and prepared for scaling up to a larger taxonomic and geographic scope. Within the project, we will compare the effectiveness of fundamentally different approaches - Data Science and Citizen Science. The data set on spiders in the Ural region obtained through testing these approaches can be used in future projects on ecology, biogeography, and nature conservation.

1.7. Планируемый состав научного коллектива

1. Созонтов Артём Николаевич, 33 года, к.б.н. (руководитель). Институт экологии растений и животных УрО РАН, научный сотрудник (трудовой договор).
2. Иванова Наталья Владимировна, 33 года, к.б.н. (исполнитель). Институт математических проблем биологии – филиал Института прикладной математики им. М.В. Келдыша РАН, старший научный сотрудник (трудовой договор).
3. Соколова Софья Сергеевна, 31 год (исполнитель). Южно-Уральский Федеральный научный центр Минералогии и геоэкологии УрО РАН, младший научный сотрудник (трудовой договор), к моменту начала проекта предполагается начать обучение в аспирантуре Института экологии растений и животных УрО РАН.
4. Устинова Анастасия Леонидовна, 23 года (исполнитель). Пермский национальный исследовательский университет, аспирант.

Соответствие профессионального уровня членов научного коллектива задачам проекта

Созонтов А.Н. более 10 лет посвятил фауне, экологии, биогеографии и молекулярной филогенетике пауков, последние 5 лет углубленно занимается информатикой биоразнообразия, обработкой и анализом данных, пространственной экологией, геоинформационными технологиями. По этим направлениям Созонтов А.Н. читает курсы для студентов бакалавриата, магистрантов и аспирантов. Разработал ряд авторских скриптов и онлайн-приложений по управлению данными о биоразнообразии: конвертор табличных данных в формат DarwinCore `occurrence` (sozontov.shinyapps.io/gbif); приложение для поиска и картографической визуализации микологических находок Евразии; комплексную карту-приложение по первичным данным о различных компонентах биоты в условиях точечного промышленного загрязнения тяжелыми металлами. Опубликовал более 10 работ в журналах, индексируемых в списках WoS/Scopus и одну монографию. В дополнение к научно-педагогической деятельности занимается популяризацией науки.

Иванова Н.В. специалист с пятнадцатилетним опытом работы в области информатики биоразнообразия и изучения закономерностей пространственного распределения живых организмов. Последние 10 лет активно повышает квалификацию отечественных исследователей, которые занимаются данными о распространении и разнообразии живых организмов. Обеспечивает организационную и техническую поддержку национального портала, посвященного открытым данным о биоразнообразии. На эти темы в журналах, индексируемых в списках WoS/Scopus Иванова Н.В. опубликовала более 10 статей только за последние 5 лет.

Соколова С.С. выпускница пермской арахнологической школы, имеет 5 научных публикаций. Работает в системе природоохранных организаций, занимается популяризаторской деятельностью в формате проведения натуралистических экскурсий, повышает свою квалификацию в области организации Citizen Science проектов, участвуя в круглых столах, вебинарах, онлайн и .

Устинова АЛ. аспирант пермской арахнологической школы, владеет навыками работы в библиографических информационных системах. При консультационной поддержке А.Н. Созонтова освоила современные стандарты данных о биоразнообразии и продвинутые методы работы с ними.

1.12. Возможность использования результатов

Информация о возможности использовании результатов выполнения проекта в осуществлении хозяйственной деятельности предприятий Российской Федерации, в том числе о способе использования, о намерениях по внедрению на основании прогнозируемых результатов проекта новой или усовершенствованию производимой продукции (товаров, работ, услуг), новых или усовершенствованных применяемых технологий; о формировании по итогам реализации проекта научных и технологических заделов, обеспечивающих экономический рост и социальное развитие Российской Федерации (с приложением подтверждающих документов, при наличии)

Разработанные технологии вовлечения больших данных в общедоступный оборот (нейросеть, веб-приложение и волонтерский проект) легко поддаются масштабированию для других регионов и групп живых организмов. Вовлекаемые таким образом данные о распространении и разнообразии живых организмов могут стать научной основой для принятия управленческих решений в сельском и лесном хозяйстве, в природоохранной деятельности. База данных по паукам Урала, полученная в ходе оптимизации разрабатываемых технологий, может стать основой для мониторинга состояния окружающей среды и природных ресурсов, в т.ч. по биологическому контролю за насекомыми-фитофагами.

Форма 2. Сведения о руководителе

2.5. Награды и премии

Награды и премии за научную деятельность, членство в ведущих научных сообществах (при наличии), участие в редколлегиях ведущих рецензируемых научных изданий (при наличии), участие в оргкомитетах или программных комитетах известных международных конференций, иной опыт организации международных мероприятий

Награжден стипендией Президента РФ для молодых ученых (2016).

Принял участие в организации пяти всероссийских научных мероприятий (конференция молодых ученых «Экология: факты, гипотезы, модели», 2019, 2021, 2022, 2023, организатор, член комиссии, редактор сборника) и двух международных (IV Международное арахнологическое совещание «ArachnoMeeting», 2021, председатель; «VII полевая школа по почвенной зоологии и экологии», 2021, секретарь).

2.9. Перечень публикаций

Перечень публикаций руководителя проекта (с указанием при наличии базы данных, в которой индексируется издание, например, RSCI, Web of Science Core Collection, Scopus, и т.п.), опубликованных в период с 1 января 2018 года до даты подачи заявки, подтверждающий выполнение условия пункта 9 конкурсной документации

Sozontov A.N., Esyunin S.L. Spiders of the Udmurt Republic: fauna, ecology, phenology and distribution // Arthropoda Selecta. 2022. Vol. 31. Suppl. 5. P. 1-285. (Wos, Scopus)
Мухачева С.В., Созонтов А.Н. Многолетняя динамика сообществ мелких млекопитающих в период снижения выбросов медеплавильного завода. II. Бета-разнообразие // Экология, 2021, № 6, с. 470–480. (Wos, Scopus)
=Mukhacheva S.V., Sozontov A.N., Long-term dynamics of small mammal communities in the period of reduction of copper smelter emissions: 2. β-diversity // Russian Journal of Ecology, 2021, Vol. 52, No. 6, pp. 532–541.(Wos, Scopus)
Гасилин В.В., Девяшин М.М., Пластеева Н.А., Созонтов А.Н. Изменения состава и относительного обилия копытных евразийской лесостепной зоны в голоцене // Зоологический журнал. 2021. Т. 100. № 12. С. 220–231. (Wos, Scopus)
Rodionov I.V., Sozontov A.N. On Confidence Estimation Based on Quantitative Similarity Coefficients // Automation and Remote Control, 2020, Vol. 81. № 2, P. 272–284. (Wos, Scopus)
Sozontov A.N. Spiders of the Udmurt Republic, Russia // Biodiversity Data Journal. 2021. Vol. 9. № e70534. P. 1–27. (Wos, Scopus)
Mukhacheva S.V., Davydova Yu.A., Sozontov A.N. Small mammals of background areas in the vicinity of the Karabash copper smelter (Southern Urals, Russia) // Biodiversity Data Journal. 2022. Vol. 10. № e76215. P. 1–24. (Wos, Scopus)

2.10. Научные результаты

Основные научные результаты руководителя проекта за период с 1 января 2018 года

Обобщены и проанализированы многолетние сборы пауков в Удмуртской Республике, в т.ч. предложен комплексный подход к синэкологическому анализу группировок пауков, соответствующий общемировым трендам в количественной обработке данных [Созонтов, 2018]. Полученный первичный материал, снабженный экспертными и аналитическими оценками по каждому из четырех сотен ранее обнаруженных видов, представлен в традиционном формате в виде монографии [Sozontov, Esyunin, 2022] и набора данных по стандарту DarwinCore [Sozontov, 2021]. Эти же наработки применены к многолетним данным о пауках Висимского биосферного заповедника [Sozontov, Esyunin, Ukhova, 2023 in print].

Выявлены первые стадии восстановления паукообразных и жужелиц после снижения выбросов медеплавильного завода, описана их специфика [Бельская и др., 2023 in print]. Проанализированы многолетние изменения β-разнообразия сообществ мелких млекопитающих в зоне действия медеплавильного завода в контексте снижения количества выбросов [Mukhacheva, Sozontov, 2021], показана ключевая роль загрязнения территории в структуру и вариабельность их населения. Проанализирована структура и населения млекопитающих и ее динамика региональном [Mukhacheva, Davydova, Sozontov, 2022] и континентальном [Гасилин и др., 2021] масштабе. При непосредственном участии А.Н. Созонтова начаты исследования функционального разнообразия членистоногих почвы и напочвенной подстилки [Малых, Созонтов, 2022].

Предложен аналитический алгоритм для оценки статистической значимости коэффициентов сходства и мер расстояния [Rodionov, Sozontov, 2020; Родионов, Созонтов, 2019] – основы кластерного, ординационного и других форм анализа многовидовых сообществ. Разработаны частные решения по сопоставлению биологических данных разного формата, качества и происхождения [Созонтов, 2023 в печати].

2.13. Опыт выполнения проектов

Опыт выполнения научных проектов (указываются наименования фондов (организаций), их местонахождение (страна), форма участия (руководитель или исполнитель), номера, названия проектов и сроки выполнения за последние 5 лет)

РФФИ 20-54-56054 “Клещи (Acari) берегов Каспийского моря: фауногенетические связи и структура сообществ” (2021-2023)

РФФИ 18-04-00160 “Микростациальное распределение крупных почвенных беспозвоночных на загрязненных территориях” (2018-2020)

РФФИ 14-04-31178 “Структура и тренды изменений фауны и населения наземных членистоногих в переходной зоогеографической области” (2014-2016) (руководитель)

Разработал ряд онлайн-приложений по управлению данными о биоразнообразии: конвертор табличных данных в формат DarwinCore `occurrence` (sozontov.shinyapps.io/gbif); приложение для поиска и картографической визуализации микологических находок Евразии; комплексную карту-приложение по первичным данным о различных компонентах биоты в условиях точечного промышленного загрязнения тяжелыми металлами.

2.17. Образовательная деятельность

Опыт образовательной деятельности за последние 5 лет (указывается информация о руководстве аспирантами, адъюнктами, интернами, ординаторами, разработке и чтении новых образовательных курсов в российских и зарубежных вузах)

Уральский федеральный университет, доцент с 2019 г. по наст.вр. Предметы: «Модели в экологии» (бакалавриат), «Современные методы обработки данных» (магистратура, авторский курс с модульной программой).

Удмуртский государственный университет, старший преподаватель c 2016 по 2019 г. Предметы: «Математические методы в биологии» (бакалавриат, авторский курс), «Компьютерные технологии в биологии» (бакалавриат), «Полевая практика по биоразнообразию» (бакалавриат).

Институт экологии растений и животных УрО РАН, старший преподаватель с 2020 г. по наст. вр. Предметы: «Статистическое сопровождение экологических исследований» (аспирантура), «Современные методы обработки данных» (аспирантура).

Руководство ВКР: магистерские диссертации (2), ВКР специалистов (2) и бакалавров (8).

Совместно с центром популяризации биоразнообразия «НатУРАЛист» занимается популяризацией науки: с 2019 г. проводит энтомологические экскурсии летом, читает публичные лекции в зимний период.

Форма 4. Содержание проекта

4.1. Научная проблема

Научная проблема, на решение которой направлен проект

Полный иллюстрированный текст заявки в удобном для чтения формате прикреплен к заявке в виде pdf файла, а также размещен в свободном доступе по ссылке: https://ansozontov.github.io/faunistica

Исследования экологических механизмов и закономерностей имеют первостепенное значение в быстро меняющемся мире. Экосистемы обеспечивают благополучие человека, предоставляя чистый воздух, воду, плодородные почвы, продукты питания и другие жизненно важные ресурсы. Понимание функционирования экосистем и их компонентов позволяет разрабатывать эффективные природоохранные стратегии, смягчать последствия изменения климата и деградации окружающей среды, а также обеспечивать непрерывное предоставление основных экосистемных услуг. Прогресс в изучении этих закономерностей критически зависит от первичных данных о биоразнообразии, их качестве, доступности, репрезентативности. Однажды полученные данные можно и нужно использовать многократно, а это не всегда возможно.

Проект направлен на решение актуальной проблемы возврата первичных данных о разнообразии живых организмов в циклы многократного использования. Будучи однажды полученными, они не всегда оказываются опубликованными в печати, оставаясь на музейных этикетках, в полевых дневниках, лабораторных журналах и других рукописях. В случае же публикации данных в традиционном формате, возможности их многократного использования все равно существенно осложнены рядом одновременно требуемых условий: 1) осведомленность о существовании конкретных публикаций (эта проблема со временем становится лишь острее в связи с экспоненциальным ростом количества научных публикаций [Bornmann, Haunschild, Mutz, 2021] и журналов [Thelwall, Sud, 2022]); 2) доступ к тексту публикаций (если информация в приложении – доступ к приложению); 3) владение языком, на котором представлена информация. Далее необходимо: 4) вручную переписать или скопировать информацию; 5) привести информацию из разных источников к общему формату. В случае соблюдения всех требований, описанный процесс добычи первичных данных отнимает огромное количество времени, на порядки задерживает скорость работы и скорость накопления доступных для использования данных.

Существуют технические возможности и средства, использование которых упрощает обозначенные выше затруднения и даёт возможность получать колоссальные объёмы данных посредством поисковых запросов через пользовательский интерфейс, протоколы обмена данными между программами напрямую (API) или консольные запросы. Однако здесь появляется новая проблема – эти самые данные уже должны быть оцифрованы (а также стандартизированы и вычищены) и представлены в базах данных [Созонтов, 2023]. Предлагаемый проект направлен на решение этих проблем. Он прокладывает мост между прошлым и будущим, по которому из литературного наследия, не всегда даже индексируемого, массивы открытых данных о биоразнообразии смогут пополняться ценнейшей информацией, обнаружимой продвинутыми средствами поиска.

4.2. Научная значимость

Научная значимость и актуальность решения обозначенной проблемы

Более 10 лет назад стала очевидной глубокая зависимость фундаментальной экологии (и на локальном, и на глобальном уровнях) от высококачественных данных по широкому спектру таксонов и регионов. Бек с соавторами [Beck и др., 2012] считают вопросы аккумуляции и использования данных одним из четырех ключевых направлений современной экологии и биогеографии. Оцифрованные, качественные и проиндексированные данные служат важной основой для решения множества фундаментальных и прикладных проблем, позволяя даже с традиционными подходами работать в глобальном масштабе [Hoogen и др., 2020; Phillips и др., 2021] и/или в более высоком пространственном разрешении [Keil, Chase, 2019].

Собственно говоря, агрегирование данных изначально было одной из задач науки о биоразнообразии, пусть и не всегда формулируемой в явном виде [Ball-Damerow и др., 2019; Nelson, Ellis, 2018]. В ряде случаев решение этой задачи осложнено или невозможно (см. раздел 4.1): данные однажды получены, но остаются неиндексируемыми и не обнаружимыми. Возвращение таких «темных данных» в научный оборот – одно из ключевых направлений развития науки в XXI в. [Heidorn, 2008], что в полной мере касается и наук об окружающей среде [Amano, Lamming, Sutherland, 2016]. В сравнении с другими «большими вызовами» в экологии, здесь нет концептуальных проблем, но сам процесс накопленя данных рутинный и трудоёмкий. Необходимы оригинальные решения по его интенсификации и популяризации.

Для данных о биоразнообразии сейчас существуют агрегаторы (см. раздел 4.5) и разработанные научным сообществом стандарты [Guralnick, Walls, Jetz, 2018; Schneider и др., 2019; Wieczorek и др., 2012]. Это чрезвычайно важный этап, благодаря которому решение множества экологических вопросов продвинулось далеко вперед. Тем временем все ещё большой объем данных остается не отраженным в агрегаторах, а сами они – изолированы друг от друга [Feng и др., 2022] и пока лишь некоторые из них работают над взаимной интеграцией. Исследователи ожидают, что именно эти проблемы будут решены на следующем этапе крупного приращения знаний о глобальном биоразнообразии через интеграцию баз данных о биоразнообразии и вовлечение в них упускаемых пока что «темных данных» [König и др., 2019; Hobern и др., 2019]. Впрочем, достаточность этих двух задач вызывает сомнения, поскольку это само по себе напрямую не приводит к аналогичному увеличению объема знаний и глубины понимания экологических закономерностей [Feng и др., 2022]. Соответственно, необходимы новые подходы, облегчающие поиск, доступ, интеграцию и повторное использование данных о биоразнообразии.

Важно отметить, что специалисты по информатике биоразнообразия не считают глобальные порталы-агрегаторы способными удовлетворить все потребности в данных. Необходимость национальных и даже региональных ресурсов обусловлена их возможностями учитывать специфику как природных условий, так и местные приоритеты в решении прикладных задач [Belbin, Williams, 2015; Schulman и др., 2021]. Это полностью релевантно и для России, и для её регионов [Ivanova, Shashkov, 2017].

4.3. Конкретные задачи

Конкретные задачи в рамках проблемы, на решение которой направлен проект, ее масштаб и комплексность

Разработка интерактивного веб-приложения для занесения литературных данных о находках живых организмов.
Запуск Citizen Science проекта по оцифровке литературных данных о разнообразии и распространении пауков Урала (тестирование приложения и формирование набора данных).
Разработка методов машинного обучения для оцифровки литературных данных и сравнение их эффективности с Citizen Science проектом
Интеграция оцифрованных данных с внешними ресурсами и источниками по условиям среды, филогении и функциональным признакам (traits) живых организмов.
Размещение полученного набора данных в сети и организация к нему открытого доступа.

Масштаб работы. Перечисленные задачи полностью находятся в рамках общенаучного тренда на размещение в открытых репозиториях и базах данных всей первичной информации. С использованием пауков уральского региона в качестве модельного таксона, будут созданы и отлажены технологии мобилизации литературных данных о находках живых организмов и интеграции этих БД с другими ресурсами. Разработанные технологии могут быть успешно масштабированы до любого региона и/или адаптированы для других групп живых организмов.

Комплексность работы. Проект является междисциплинарным, на стыке классических наук о жизни (экологии, биогеографии, зоологии) и Data Science, а также содержит элементы популяризации. Исполнители имеют классический естественно-научный бэкграунд (все), высокую квалификацию по информатике биоразнообразия и обработке данных (Созонтов А.Н., Иванова Н.В.) и опыт популяризаторской деятельности (Созонтов А.Н., Соколова С.С., Устинова А.Л.).

4.4. Научная новизна

Научная новизна исследований, обоснование того, что проект направлен на развитие новой для научного коллектива тематики, обоснование достижимости решения поставленной задачи (задач) и возможности получения предполагаемых результатов

Проблема обеспечения исследователей удобным доступом ко всей накопленной первичной информации из литературного наследия прежде не имела удовлетворительного решения. Способы интенсификации и популяризации этой деятельности будет разработаны в результате реализации проекта. Это планируется сделать путем применения уже существующих информационных технологий и методов машинного обучения к задачам экологии.

Впервые будет разработана онлайн-платформа, оптимизированная под оцифровку литературных данных о находках живых организмов. Потенциал для масштабирования на больший таксономический и географический охват закладывается в веб-приложение изначально. Приложение будут дополнено модулями интеграции и видовых характеристик организмов, и условий окружающей среды. Другие ресурсы по управлению данными о биоразнообразии если и обогащают их, то только сведениями одного типа. Так же онлайн-приложение будет оснащено модулем анализа и визуализации всего комплекса данных.

В дополнение к веб-приложению мы запустим Citizen Science проект, привлекая волонтеров для оцифровки литературы. Проектов гражданской науки, специализированных на такой тематике, ранее не было. Однако мы считаем такой подход оправданным и перспективным, т.к. волонтеров ранее успешно привлекали для распознавания коллекционных материалов и регистрации наблюдений в природе.

Параллельно с этим мы натренируем нейросеть для извлечения данных о биоразнообразии из литературы. В отдельно взятой статье формат этикеточных данных (таксономические названия, локалитеты и координаты места сбора, дата и биотоп сбора) могут быть строго организованы, но их массовое распознавание и обработка не являются чем-то тривиальным ввиду существования десятков и сотен тысяч публикаций разного формата. Ранее из текста успешно извлекали только таксономические названия, были единичные успехи в отношении морфологических характеристик. Извлечение же слабоструктурированных этикеточных данных будет организовано впервые. Методы машинного обучения бурно развиваются и в настоящий момент уже доступны технологии и вычислительные мощности для решения задач качественно нового уровня.

Таким образом, в рамках проекта мы впервые реализуем два принципиально разных подхода одновременно – Data Science и Citizen Science, а также сравним их эффективность. Набор данных о пауках Урала, полученный в результате тестирования этих подходов, имеющий самостоятельную научную ценность, будет размещен в свободном доступе в сети вместе с инструментами анализа и визуализации онлайн, а также на ведущих репозиториях для данных о биоразнообразии.

4.5. Современное состояние исследований

Современное состояние исследований по данной проблеме, основные направления исследований в мировой науке и научные конкуренты

FAIR-принципы, data reuse, стандарты и чистота данных

Необходимость сбора новых данных и многократного их использования не вызывает сомнений в экологической академической среде [Reichman, Jones, Schildhauer, 2011]. Одни исследователи отмечают интенсивный (и даже экспоненциальный) рост объема данных о биоразнообразии [Bisby, 2000; Hobern и др., 2019], другие – активно эти данные используют в своей работе, сводя к минимуму усилия на обработку больших объемов литературы и/или полевые фазы исследования [Ball-Damerow и др., 2019]. В качестве примеров реализации такого масштабного подхода можно привести публикации по растениям Европы за последнее столетие [Staude и др., 2022], глобальным паттернам разнообразия растений [Cornwell и др., 2019], распространению и охране птиц [Sullivan и др., 2017], миграциям животных высоких широт [Davidson, Ruhs, 2021], теории и практике охраны природы [Di Minin, Correia, Toivonen, 2022] и многие другие.

В основе успешного многократного использования данных лежат принципы FAIR – Findability (обнаружимость), Accessibility (доступность), Interoperability (совместимость), Reusability (возможность повторного использования), сформулированные почти 10 лет назад [Wilkinson и др., 2016]. По реализации почти всех принципов достигнут существенный прогресс посредством агрегаторов, индексирования и даже устоявшегося лицензирования [Escribano, Galicia, Ariño, 2018], и только «совместимость» по-прежнему пребывает в фазе активной разработки. Примеров успешной асимметричной (однонаправленной и/или с ограничениями по формату) интеграции достаточно много [Feng и др., 2022]. Полностью симметричная интеграция, по-видимому, невозможна, т.к. каждый ресурс имеет свои уникальные решения и архитектурные особенности.

Нередко разные подходы к решению одних задач снижают чистоту и, соответственно, ценность данных. Одни базы данных проявляют гибкость по отношению к номенклатуре, другие более консервативны, что препятствует совместимости. Пространственные данные тоже могут быть причиной рассогласования. Например, находка без координат может быть по-разному обработана разными ресурсами, использующими разные алгоритмы геопривязки, что приведет к двум разным наборам координат для одного и того же наблюдения [Reddy, Dávalos, 2003; Serra-Diaz и др., 2017]. Необходимо создание общего стандарта и инструментов для оценки и очистки данных [Belbin и др., 2018; Mesibov, 2018]. Возможна также разработка протоколов перекрёстных ссылок между идентификаторами различных БД [Page, 2018]. Такой подход эффективен, но технологически сложен и трудоемок для освоения, поэтому сложно спрогнозировать насколько он будет распространён в дальнейшем. Так или иначе, и концепция Open Science, и FAIR принципы – мощные драйверы развития науки, обеспечивающие синергетический эффект от масштаба и обогащения одних больших данных другими. И пусть не все проблемы на этом пути решены, и не для всех решения просматриваются, это именно те подходы и принципы, от которых зависит дальнейшее развитие наук об окружающей среде [Ball-Damerow и др., 2019; Page, 2008].

Базы данных и их агрегаторы

Примеров успешных и востребованных баз данных о биоразнообразии огромное количество [Ariño, 2010; Owens и др., 2021]. Их исчерпывающий обзор не вписывается в рамки краткого обзора, поэтому ограничимся лишь упоминанием некоторых из них. Ключевой и наиболее универсальный ресурс – GBIF (Global Biodiversity Information Facility). Количество находок там удваивается каждые 1.5–2 года и к настоящему моменту их общее количество превысило 2.3 млрд. Кроме своей непосредственной функции он предоставляет ряд вспомогательных инструментов для управления данными о биоразнообразии – The Integrated Publishing Toolkit (IPT), Data validator, GBIF Registry of Scientific Collections и другие. Остальные ресурсы первичной информации специализированы на таксоне (например, eBird для птиц [Sullivan и др., 2014; Sullivan и др., 2017]) или регионе (Atlas of Living Australia для Австралии [Belbin и др., 2021], Biodiversity information system for Europe и PESI для Европы [De Jong и др., 2015], Information System about the Brazilian Biodiversity для Бразилии [Dias и др., 2017; Pezzini и др., 2012], Indian Bio-resource Information Network [Saran и др., 2019] и India Biodiversity Portal [Vattakaven и др., 2016] для Индии), или на таксоне и регионе, или наоборот, пытаются вовлечь в себя все [Michener и др., 2012].

Чрезвычайно важно обогащение таких БД пространственными данными и сведениями об окружающей среде, которые используются встроенными инструментами анализа. Это позволяет рассматривать миграции видов, границы ареалов, отслеживать перемещения, картографировать горячие точки биоразнообразия, моделировать численность, экологические ассоциации и многое другое [Saran и др., 2022]. Важными источниками этого обогащения служат БД функциональных признаков (traits) биологических видов (которые, впрочем, тоже остро нуждаются в выработке единых стандартов [Gallagher и др., 2020; Schneider и др., 2019]), например TRY plant trait database [Kattge и др., 2020], Ecotaxonomy (для животных, преимущественно почвенных) [Potapov, Sandmann, Scheu, 2019], The World Spider Trait database [Pekár и др., 2021] и другие. Из них всех наиболее комплексная - Encyclopedia of Life (EoL), действующая уже более 20 лет [Wilson, 2003]. Этот портал предоставляет информацию о филогении и морфологии организмов Земли, их биотических взаимодействиях и др., а также встроенные инструменты анализа [Blaustein, 2009]. Один из них – Virtual Ecological Research Assistant (VERA) – позволяет анализировать экологические сообщества и процессы посредством моделирования пищевых сетей, потоков вещества, энергии и биотических взаимодействий в них [An и др., 2020; An и др., 2018]. Для получения информации о находках портал EoL использует сведения из GBIF. Важен также доступ к БД и непосредственно нуклеотидных последовательностей (GenBank [Benson и др., 2012], The Barcode of Life Data System [Ratnasingham, Hebert, 2007]), агрегированных данных по таксономии (GBIF Backbone, Catalogue of Life [Bánki и др., 2018]) и даже филогении (Open Tree of Life), которые оперируют филогенетическими деревьями, построенными на нескольких генетических и таксономических источниках.

Источники данных и проекты по цифровизации

Перечисленные выше ресурсы и возможности внушают оптимизм [Nelson, Ellis, 2018]. Процесс оцифровки, начавшийся более 40 лет назад, эксперты характеризуют как лавинообразный [Walter, McPherson, Guralnick, 2012; Филиппова и др., 2017]. Важную роль в этом играют усилия волонтёров и со временем эта роль только возрастает [Chandler и др., 2017] (подробнее о Citizen Science см. ниже). Однако все еще нуждается в оцифровке, географической привязке, индексировании огромное количество данных о биоразнообразии [Reichman, Jones, Schildhauer, 2011; Saran и др., 2022]. В первую очередь это касается таких источников как музейные и частные коллекции, опубликованная литературы, рукописи, полевые дневники.

В США существует национальный портал «Интегрированные оцифрованные биологические коллекции» (iDigBio) по продвижению оцифровки. В её фокусе коллекции – биологические и палеонтологические, фотографии образцов и связанные с ними данные. BioCollect, разработанный организацией Atlas of Living Australia, еще более продвинутый и удобный инструмент для сбора данных биоразнообразии, экологии и управлении природными ресурсами (NRM). Он принимает неструктурированные данные в виде « », файлов данных, изображений, звуков и видео. С BioCollect тесно сопряжена краудсорсинговая платформа DigiVol, предназначенная для оцифровки изображений и коллекционных материалов, идентификации, маркировки, распознаванием данных с этикеток и других текстов, в т.ч. из исторических документов [Alony и др., 2020].

Впрочем, «цифровизация» не лишена проблем [Hardisty, Roberts, 2013; Hortal и др., 2015], и помимо технической стороны вопроса, есть и субъективный человеческий фактор. Он определяет неравномерность покрытия регионов планеты данными [Park, Newman, Breckheimer, 2021] (https://glaroc.github.io/gbif_globe), что, разумеется, неверно интерпретировать как разницу в видовом богатстве [Daru и др., 2018; Hughes и др., 2021]. Покрытие Северной Америки и Европы наблюдениями наиболее плотное (Рис. 1Б, 1В). На контрасте с этим все еще существует 13% свободной ото льда поверхности суши, на которой в настоящее время нет достоверных находок растений (Рис. 1А). Эти районы в основном расположены в России (несмотря на значительный недавний прогресс в обмене данными российским сообществом GBIF), Центральной и Юго-Восточной Азии и Северной Африке [Feng и др., 2022; Hughes и др., 2021].

Рис. 1. Плотность покрытия Земли данными о находках живых организмов. А – территории, для которых таких данных нет [по Feng и др., 2022]. Б – находки из систем GBIF и OBIS [по Hughes и др., 2021]. В – области с максимальной плотностью покрытия находками [по Hughes и др., 2021].

Какими конкретно способами можно интенсифицировать извлечение из текста публикаций информацию о разнообразии и распространении живых организмов? На первый взгляд эта задача решается применением регулярных выражений – синтаксических правил и последовательностей символов, определяющих шаблон поиска в тексте [Фридл, 2008]. Это хорошо работает для извлечения, структурирования и очистки больших объемов текстовых данных, представленных в одном формате [Суховеров, 2019; Козлов, Светлаков, 2022], или хотя бы в ограниченном их количестве [Krause, 2021; Созонтов, 2023]. Однако форматов представления этикеточных данных настолько много, что пришлось бы продумывать правила для каждой отдельно взятой статьи, а следовательно, задача автоматизации не будет решена.

Более перспективным путем выглядит применение методов машинного обучения с учителем. В науках о разнообразии использование нейросетей находит всё более широкое применение [Borowiec и др., 2022; Høye и др., 2021; Hussein и др., 2022], вплоть до моделирования экосистемных функций и услуг [Scowen и др., 2021]. Наиболее широко известны успехи идентификации видов по фотографиям гербарных листов [Carranza-Rojas и др., 2017; Unger, Merhof, Renner, 2016; White и др., 2020; Younis и др., 2018] и коллекций насекомых [Martineau и др., 2018; Høye и др., 2021; Popkov и др., 2022], однако стоит помнить, что в приведенных примерах обработки изображений задействованы только свёрточные нейронные сети (convolutional neural network, CNN) [Lim, Kim, Kim, 2017], а это всего лишь одна архитектура нейросетей из множества существующих. В извлечении информации из литературы тоже есть прогресс, который сосредоточен в основном на извлечении таксономических названий [Kopperud, Lidgard, Liow, 2019; Rees, Cranston, 2017]. Редкий пример выхода за ти рамки – извлечение морфологических характеристик растений из описаний на испанском языке [Mora, Araya, 2018].

Роль Citizen Science в добыче информации

Citizen science («гражданская наука») – это практика вовлечения в научные проекты, людей, не являющихся профессиональными исследователями. Широкую огласку явление получило в начале прошлого десятилетия [Gura, 2013; Hand, 2010]. В наши дни в таких проектах участвуют миллионы людей ежегодно [Callaghan и др., 2019b], из них большая часть в развитых странах. Потенциал развивающихся стран пока раскрыт лишь в малой степени [Pocock и др., 2019; Vattakaven и др., 2022].

Самыми резонансными проектами гражданской науки становятся в основном астрономические и естественно-научные. Среди них: Spiral Graph – распознавание спиральных галактик, Globe at Night – анализ светового загрязнения, GLOBE Observer Clouds – наблюдение облаков и других природных явлений для уточнения прогнозов погоды, оптимизации погодных и климатических моделей [Kohl и др., 2021], Phylo – онлайн-игра, за которой стоит выравнивание нуклеотидных последовательностей [Kawrykow и др., 2012], EteRNA – анализ трехмерной структуры РНК и поиск их биологически активных вариантов [Lee и др., 2014], Stall Catchers – анализ кровоснабжения мозга мышей в игровой форме, и другие.

Очень большой охват получают проекты гражданской науки, связанные с “дикой” природой – наблюдение за объектами живой природы, анализ гербарных и коллекционных материалов, участие в их сборе или фоторегистрации [Callaghan и др., 2020; Chandler и др., 2017; Hill и др., 2012; Johnston, Matechou, Dennis, 2023]. Успешные примеры реализации: Big Seaweed Search – поиск и регистрация выброшенных на берег водорослей [Brodie и др., 2023], teatime4science использование чайных пакетиков для изучения разложения органического вещества в почве [Keuskamp и др., 2013], платформа и социальная сеть iNaturalist – глобальная регистрация встреч и фотографий биологических видов (рис. 2), пожалуй, крупнейший по охвату проект подобного рода [Di Cecco и др., 2021]. Существуют даже крайне оптимистичные мнения о трансформации науки о биоразнообразии благодаря связке с такими проектами [Pocock и др., 2018; Amano, Lamming, Sutherland, 2016; Pocock и др., 2019], а также о специфических подходах к “зашумлённым” данным такого происхождения [Callaghan и др., 2019a; Johnston, Matechou, Dennis, 2023].

Рис. 2. Плотность покрытия волонтёрскими наблюдениями живых организмов [Di Cecco и др., 2021].

Параллельно с реализацией проектов гражданской науки ведутся исследования её самой как явления, в т.ч. и с практической точки зрения – повышения результативности таких проектов [Brenskelle и др., 2020; Callaghan и др., 2019a; Koch и др., 2022; Van Strien и др., 2022], оценки их эффективности [Callaghan и др., 2022]. Стала понятна общая мотивация волонтеров для участия в Citizen Science, появляются возможности уточнить их мотивацию участия в конкретном проекте [Ganzevoort и др., 2017; Levontin и др., 2022; Richter и др., 2021]. Добровольцы возлагают большие надежды на влияние своих данных как на собственное обучение, так и на науку и управление [Bowler и др., 2022; Fox и др., 2019; Ganzevoort и др., 2017], что следует учитывать при планировании и реализации проекта. Обратная связь, сгенерированная в виде текста, побуждала волонтёров к вовлеченности и удержанию больше, нежели просто информация в виде уведомлений и инфографики [Van Der Wal и др., 2016], хотя динамическое отображение результатов труда волонтера тоже очень важно [Callaghan и др., 2019b]. Таким образом, вовлечение неспециалистов в исследования и добычу научной информации - популярный и эффективный подход, весь потенциал которого ещё только предстоит раскрыть.

Научные конкуренты

Переход к цифровизации данных о биоразнообразии с энтузиазмом принят российским научным сообществом и уже имеется значительный прогресс [Shashkov, Ivanova, 2019]. Большую роль в этом сыграли специальные программы по мобилизации данных от GBIF и издательства Pensoft – West of Urals (2020), и Biota of Russia (2021). Среди наиболее деятельных в области информатики биоразнообрзия организаций – гербарий (группа А.П. Серегина [Серегин и др., 2020; Серегин и др., 2020]) и зоологический музей (группа А.А. Лисовского [Лисовский, 2019]) МГУ, Алтайский государственный университет (группа А.В. Ваганова (ССЫЛКИ)), Институт проблем экологии и эволюции (группа В.Г. Петросяна [Reshetnikov и др., 2023; Петросян и др., 2021; Хляп и др., 2023], Югорский государственный университет (группа Н.В. Филипповой [Filippova и др., 2022; Филиппова и др., 2017]), а также ряд заповедников центральной части России – Мордовский заповедник и Национальный парк “Смольный” (Группа А.Б. Ручина [Ruchin и др., 2022a; Ruchin и др., 2022b]), Приокско-террасный биосферный заповедник и некоторе другие. Однако деятельность перечисленных коллег касается оцифровки первичных данных (из гербариев и других коллекций), инициатив по вовлечению натуралистов в полевые наблюдения и дальнейшего использования уже оцифрованных данных [Seregin, 2021; Лисовский, и др., 2023]. Нам неизвестны примеры российских проектов по извлечению биологических данных из литературы и методам его интенсификации. К идее нашего проекта близка краудсорсинговая платформа DigiVol (часть ресурса Atlas of Living Australia) [Alony и др., 2020]. Однако она сильно специализирована географически. Концептуально же она, напротив, неспециализирована – предназначена для распознавания текстов с этикеток и других исторических документов, а также для оцифровки изображений и коллекций, идентификации материалов.

4.6. Методы, подходы, план и ожидаемые результаты

Предлагаемые методы и подходы, общий план работы на весь срок выполнения проекта и ожидаемые результаты

Инструменты и технологии оцифровки

Для оптимизации ввода литературных данных будет разработано интерактивное веб-приложение рис. 3. Такой способ даёт кроссплатформенность – возможность использования с любого устройства (компьютер, планшет, телефон) и любой операционной системы (Windows, Linux, Android, MacOS, iOS) без необходимости устанавливать какое-либо специализированное программное обеспечение, просто введя URL-адрес в браузер. У пользователя будет возможность зафиксировать любое из введенных полей для ускоренного многократного ввода остальных. Это актуально как для таксономических публикаций, когда для одного таксона приводится множество находок, так и экологических, где для одной пробы или географической точки приводится множество таксонов. Приложение будет написано на shiny – фреймворке, специализированном для созданий веб-приложений на языке программирования R [Chang и др., 2022; Sievert, 2020] (примеры). Ядро приложения генерирует веб-страницу, осуществляет контроль за обработкой вводимых и отображаемых данных, оставляет возможности для тонкой настройки пользовательского интерфейса таблицами стилей CSS. Мы предусматриваем встроенные механизмы проверки вводимых данных. Например, для автозаполнения таксономических названий без опечаток ядро приложения будет синхронизировано с базой данных каталога пауков мира [WSC, 2023] пакетом arakno [Cardoso, 2022]. На основе каталога ОКТМО и Росреестра аналогичный подход будет применен для названий административных регионов, районов и населенных пунктов.

Рис. 3. Схема онлайн-приложения

Предзагруженные (публикации, таксономические и географические названия) и вводимые пользователями данные будут структурированы в виде реляционной базы данных (набор таблиц, взаимосвязанных через идентификаторы), созданной и управляемой PostgreSQL (v.14). Таблицы базы: «пользователи», «публикации», «регионы», «таксоны» и ключевая – «записи». Обращение из R в базу данных будет организовано средствами пакета ‘RPostgreSQL’ [Conway и др., 2022]. Одна публикация будет предложена для оцифровки более чем одному пользователю, поэтому внесенные записи будут проходить кросс-верификацию и только в случае совпадения попадать в основную базу, считаясь истинными находками. Внутренняя обработка табличных данных будет выполняться средствами пакетов dplyr [Wickham и др., 2022] и tidyr [Wickham, Girlich, 2022], пространственных данных – sf [Pebesma, 2018], raster [Hijmans, 2022], stars [Pebesma, Bivand, 2023], визуализация графиков и карт – ggplot2 [Wickham, 2016] и leaflet [Cheng, Karambelkar, Xie, 2022]. Приложение и система управления базами данных (СУБД PostgreSQL) будет развернута на виртуальном сервере под управлением OS Linux Ubuntu Server 22.04 LTS. Все технологии и программы, используемые при создании веб-приложения, являются бесплатными.

Онлайн-ресурс будет содержать функции поиска – табличного и пространственного, визуализации и анализа. Мы планируем разработку модулей для подгрузки данных по условиям среды и характеристикам видов пауков. В первом случае это высота н.у.м. – SRTM Digital Elevation Model, климатические данные – WorldClim, растительность – Global Forest Watch Open Data Portal и NASA Earth Observatory, тип землепользования – OpenStreetMap и Global Forest Watch Open Data Portal. Во втором – функциональные признаки (traits) – World Spider Trait database [Pekár и др., 2021], и данные по филогении – последовательности гена COI из Barcode of Life Data System (BOLD) [Ratnasingham, Hebert, 2007], GenBank [Benson и др., 2012] и консенсусные филогенетические деревья из проекта Open Tree of Life. Это позволит включать в анализ расчет разнообразия не только таксономического, но также функционального и филогенетического. Все перечисленные источники являются открытыми и их данные доступны через API (протокол обмена данными между программами напрямую, минуя интерфейс пользователя) или пакеты для R.

Машинное обучение

Для автоматизированного извлечения этикеточных данных из текстов (таксономические названия, локалитеты и координаты места сбора, дата и биотоп сбора и др.) будет разработана нейросетевая модель. Она будет натренирована методами глубокого обучения, при которых между входным и выходным слоями нейронов расположено до нескольких десятков скрытых слоёв. Исходные тексты будут предварительно разбиваться на фрагменты до 1500 знаков с перекрытием, а затем преобразованы в воспринимаемый нейросетью векторный формат набором алгоритмов Word2Vec. В качестве архитектуры самой нейросети будут опробованы Transformer и рекуррентные нейронные сети. Все перечисленные выше решения оптимизированы для учёта семантического контекста, последовательности слов, зависимостей между словами в тексте, и хорошо зарекомендовали себя в задачах, требующих внимания к этим аспектам естественного языка. Обучающая выборка из 40 статей с разнообразными форматами представления этикеточной информации будет сформирована и размечена силами коллектива исполнителей. В дальнейшем для дообучения нейросетевой модели статьи будут использованы статьи, обработанные волонтерами в ходе реализации Citizen Science проекта.

Проблемы потенциального переобучения модели (слишком точной подстройки под данные обучающей выборки и неспособности работать на новых, неизвестных данных) будут решены регуляризацией моделей. Регуляризация добавляет дополнительный штраф на определенные параметры модели, контролируя переобучение и делая её более устойчивой. Для этого применяются L1 регуляризация и Dropout. Первый способ позволяет отбросить ненужные признаки, что релевантно для нашего случая, когда целевые блоки текста строго очерчены, а остальные неинформативны. Второй способ случайно обнуляет некоторые из выходов слоя во время обучения, что поможет модели лучше справляться с неточностями, возникшими при распознавании сканов и опечатками, имевшимися в рукописях изначально.

Модельные таксоны и регионы

В качестве модельного таксона для проекта по оцифровке пауки удобны по ряду причин. Во-первых, их таксономия на уровне родов и видов достаточно стабильна, а синонимы, номенклатурные акты и даже ошибочно указанные названия проиндексированы в регулярно обновляемом каталоге пауков мира [WSC, 2023; Nentwig, Gloor, Kropf, 2015]. Связь с его данными возможна минуя веб-интерфейс, - через API и arakno – пакет для R [Cardoso, 2022]. Во-вторых, перечень литературных источников, подлежащих оцифровке, исчерпывающий и четко очерченный. С.Л. Есюнин и К.Г. Михайлов в своих каталогах [Esyunin, Efimik, 1996; Mikhailov, 1997; Mikhailov, 2013a; Esyunin, 2023 in print] и библиографических сводках [Михайлов, 2012] тщательно учитывают все публикации по паукам России и Урала. Для Урала это 450 источников, для постсоветского пространства – почти 5000. Предварительно оценить объем данных можно взяв 8 фаунистических и таксономических публикаций в качестве примера [Esyunin, Kazantsev, 2007; Azarkina и др., 2018; Fomichev, Ballarin, Marusik, 2022; Mikhailov, 2013b; Sozontov, Esyunin, 2014; Есюнин, Новокшенов, 1992; Танасевич, 1985; Тунева, Есюнин, 2012]. Суммарно в них содержатся сведения о 1 420 находках (=occurrences – любое количество экземпляров одного вида, найденный в одной географической точке, в определенном биотопе, в одну дату и одним методом), основанных на 4 779 особях. Таким образом, общий объем «темных данных», подлежащих оцифровке, можно предварительно оценить в 80 000 находок и 270 000 особей, хотя реальное число может оказаться ниже, поскольку не все из публикаций оперируют находками. Перспектива масштабирования разрабатываемого подхода до всей учитываемой К.Г. Михайловым [Михайлов, 2012] территории может дать 860 000 находок и 2 900 000 особей.

Волонтерский проект

Возможности и перспективы гражданской науки (Citizen Science, принцип действия на рис. 4) были освещены в разделе 4.5. Будет реализован оригинальный подход к оцифровке с привлечением волонтеров, чей труд по оцифровке возможно поощрять просветительскими материалами и мероприятиями. Они, организованные квалифицированными экспертами, эксклюзивны, что становится их ключевой ценностью. Общая схема Citizen Science проекта представлена на рис. 5.

Рис. 4. Принцип организации Citizen Science проекта по оцифровке данных о биоразнообразии

Здесь отметим, что волонтерство не предполагает оплаты за труд, но не исключает других источников мотивации и форм поощрения. Последнее особенно актуально при ручной оцифровке данных – сравнительно трудоёмком процессе. Это требует поощрения и с точки зрения этики, и с точки зрения поддержания мотивации к участию в проекте. В качестве поощрений запланированы:

Познавательные заметки про строение, биологию, экологию и эволюцию пауков и родственных им групп
Лекции по этой же тематике
Экскурсии в природные экосистемы и в естественно-научные музеи
Мастер-классы и лабораторные работы на базе университетских коллекций и материально-приборной базы.

Рис. 5. Схема Citizen Science проекта, реализуемых технологий и потоков данных

Ожидаемые результаты

Будет разработана онлайн-платформа, оптимизированная для оцифровки литературных данных о находках живых организмов. Это позволит интенсифицировать оцифровку этих данных, и будет апробированой базой для масштабирования на больший таксономический и географический охват.

Будет реализован citizen science проект, с привлечением волонтеров для оцифровки литературы посредством разрабатываемого веб-приложения. Мы видим потенциал в таком подходе основываясь на успехах гражданской науки в распознавании коллекционных материалов и регистрации наблюдений в природе.

Будет обучена нейросеть для извлечения данных о биоразнообразии из литературы. Таким образом в рамках проекта будут реализованы два принципиально разных подхода: Data Science и Citizen Science. Полученные в результате проекта данные о пауках Урала будут доступны онлайн вместе с инструментами для анализа и визуализации. Они также будут размещены на ведущих репозиториях для данных о биоразнообразии.

4.7. Задел

Имеющийся у научного коллектива научный задел по проекту, наличие опыта совместной реализации проектов

Задел по проекту

В рамках проектов по экотоксикологии и микологии отработаны принципы и технологии создания веб-приложений (см. п. 1.7 и 2.12). Разработана архитектура веб-приложения для оцифровки в рамках citizen science проекта, прототипирован интерфейс его разделов для ввода данных (рис. 6). Продумана архитектура реляционной БД с таблицами «публикации», «авторы», «пользователи», «таксоны», «регионы», «записи пользователей», «чистые данные». На базе ОКТМО (Общероссийский классификатор территорий муниципальных образований) подготовлен набор названий населенных пунктов и административных единиц и их соответствия друг другу. Разработан модуль проверки названий таксонов по каталогу пауков мира [WSC, 2023] (в обход средств пакета rgbif, которые все равно обращаются к WSC).

Рис. 6. Прототип страницы ввода данных

Для апробации подхода собран исчерпывающий список из более чем 450 публикаций, сведения из которых подлежат оцифровке. Из них около 200 изначально цифровые, оставшаяся часть отсканирована на 30%. Получено предварительное согласие о сотрудничестве с организациями, занимающимися экологическим просвещением: центр популяризации биоразнообразия « », сообщество « » и др. В рамках их мероприятий анонсирован Citizen Science проект по оцифровке и собраны контакты экскурсантов, выразивших желание участвовать в настоящем проекте. План проекта по мобилизации данных о биоразнообразии пауков обсужден и согласован на профильной арахнологической секции XVI съезда Русского энтомологического общества [Созонтов, 2022].

Опыт совместной реализации проектов

Созонтов А.Н. и Иванова Н.В. совместными усилиями подготовили серию пленарных лекций и мастер-классов по информатике биоразнообразия (IV Международное арахнологическое совещание, онлайн; VII полевая школа по почвенной зоологии и экологии, Екатеринбург): «Публикация данных в репозитории GBIF – риск или новые возможности для исследователей?», «Функциональный аспект биоразнообразия», «Открытые репозитории о биоразнообразии: как получить и использовать данные портала GBIF.org», «Подготовка данных о сборах почвенных беспозвоночных для публикации через GBIF», «Работа в R: преодоление психологического барьера». Соколова С.С. и Созонтов А.Н. имеют опыт совместной популяризаторской деятельности – проведения энтомологических экскурсий для детей и взрослых.

4.8. Ресурсы имеющиеся

Перечень оборудования, материалов, информационных и других ресурсов, имеющихся у научного коллектива для выполнения проекта

Ресурсы ЦКП УрО РАН – вычислительный кластер “Уран”: 1700 CPU Intel Xeon (44 Tflop/s), 165 GPU NVIDIA Tesla (206 Tflop/s), необходимых для обучения нейронных сетей по распознаванию данных о биоразнообразии из научных публикаций
Ресурсы сервера Института экологии растений и животных УрО РАН (развертывание онлайн-приложения и хостинг сайта проекта)
Собран исчерпывающий перечень литературы, подлежащей оцифровке. Большое количество источников отсканированы в pdf, недостающие источники находятся в библиотеке Пермского национального исследовательского университета и зоологического музея МГУ (оригиналы и ксерокопии)
Информационная поддержка сообществ, занимающихся экологическим просвещением и популяризацией: Центр популяризации биоразнообразия , сообщество `
Идея проекта была озвучена представителям арахнологического сообщества [Созонтов, 2022] и получила всеобщую поддержку.

4.9. План работы на первый год

План работы на первый год выполнения проекта

Дорожная карта реализации проекта представлена на рис. 7.

Разработка и тестирование ядра веб-приложения (январь-февраль, Созонтов А.Н., Иванова Н.В.).
Сбор pdf и метаданных публикаций (январь-февраль, Устинова А.Л.).
Разработка и тестирование пользовательского интерфейса и верстка сайта (март-апрель, все исполнители).
Формирование наборов пространственных и таксономических данных (Иванова Н.В., Устинова А.Л.).
Запуск проекта по оцифровке (май, Созонтов А.Н., Соколова С.С.).
Реализация проекта по оцифровке и его оптимизация (июнь-декабрь, Созонтов А.Н., Соколова С.С.).
Разработка модулей для интеграции видовых характеристик и пространственных данных из внешних источников (ноябрь-декабрь).
Работа над рукописью статьи об архитектуре, интерфейсе и функционале веб-приложения (Созонтов А.Н., Иванова Н.В., сентябрь-октябрь).
Предварительный анализ эффективности проекта, подготовка рукописи о нём (ноябрь-декабрь).

Рис. 7. Хронология первого года работы (2024 г.)

4.10. Cодержание работы научного коллектива

Планируемое на первый год содержание работы каждого члена научного коллектива (включая руководителя проекта)

Созонтов А.Н.

Разработка и тестирование ядра веб-приложения, разработка пользовательского интерфейса и верстка сайта. Формирование наборов пространственных и таксономических данных. Запуск проекта по оцифровке и руководство им. Работа над рукописями для мобилизации литературных данных о находках биологических организмов, и о Citizen Science проекте по мобилизации данных.

Иванова Н.В.

Разработка и тестирование ядра веб-приложения. Формирование наборов пространственных и таксономических данных. Написание документации и руководства для веб-приложения. Работа над рукописями статей об архитектуре, интерфейсе и функционале веб-приложения для мобилизации литературных данных о находках биологических организмов, и о Citizen Science проекте по мобилизации данных.

Соколова С.С.

Тестирование веб-приложения. Разработка дизайна сайта. Сбор необходимых для проекта pdf и метаданных публикаций. Написание научно-популярных материалов для сайта. Запуск волонтёрского проекта по оцифровке. Работа над рукописью статьи о Citizen Science проекте по мобилизации данных.

Устинова А.Л.

Сбор необходимых для проекта pdf и метаданных публикаций. Написание научно-популярных материалов для сайта. Запуск волонёрского проекта по оцифровке. Работа над рукописью статьи о Citizen Science проекте по мобилизации данных.

4.11. Ожидаемые результаты (год 1)

Ожидаемые в конце первого года конкретные научные результаты

Будет разработано и протестировано ядро веб-приложения для оцифровки данных о находках биологических организмов.
Будут собраны все необходимые для проекта по оцифровке pdf и метаданные публикаций.
Будут сформированы наборы пространственных данных с иерархической структурой административных регионов, районов и населенных пунктов исследуемого региона
Будет написана документация для развертывания и использования веб-приложения
Будет запущен волонтёрский проект по оцифровке
Будет подготовлена рукопись статьи о архитектуре, интерфейсе и функционале веб-приложения для мобилизации литературных данных о находках биологических организмов.
Будет подготовлена рукопись статьи, описывающей Citizen Science проект по мобилизации данных
Результаты работы первого года будут представлены в виде докладов на двух конференциях всероссийского уровня

4.12. Приобретаемые ресурсы

Перечень планируемых к приобретению за счет гранта оборудования, материалов, информационных и других ресурсов для выполнения проекта

Мобильные персональные компьютеры (2 шт, =160 т.р.) и настольный персональный компьютер с периферией (1 шт., =160 т.р.) для исполнителей.
Услуги по записи видеозаписи и монтажу роликов о проекте (75 т.р.).
Организация обучающих мастер-классов для пользователей разрабатываемого ресурса (160 т.р.).
Поездки исполнителей на конференции (доклады о результатах реализации проекта и его информационное продвижение, 90 т.р.).

Список литературы

1. Alony I. и др. Online volunteering at DigiVol: an innovative crowd-sourcing approach for heritage tourism artefacts preservation // Journal of Heritage Tourism. 2020. Т. 15. № 1. С. 14–26.

2. Amano T., Lamming J. D. L., Sutherland W. J. Spatial Gaps in Global Biodiversity Information and the Role of Citizen Science // BioScience. 2016. Т. 66. № 5. С. 393–400.

3. An S. и др. Scientific Modeling Using Large Scale Knowledge. Cham: Springer International Publishing, 2020. С. 20–24.

4. An S. и др. VERA: Popularizing Science Through AI. Cham: Springer International Publishing, 2018. С. 31–35.

5. Ariño A. H. Approaches to estimating the universe of natural history collections data // Biodiversity Informatics. 2010. Т. 7. № 2. С. 81–92.

6. Azarkina G. N. и др. A check-list and zoogeographic analysis of the spider fauna (Arachnida: Aranei) of Novosibirsk Area (West Siberia, Russia) // Arthropoda Selecta. 2018. Т. 27. № 1. С. 73–93.

7. Ball-Damerow J. E. и др. Research applications of primary biodiversity databases in the digital age // PLOS ONE. 2019. Т. 14. № 9. С. e0215794.

8. Bánki O. и др. Catalogue of Life Plus: innovating the CoL systems as a foundation for a clearinghouse for names and taxonomy // Biodiversity Information Science and Standards. 2018. Т. 2. С. e26922.

9. Beck J. и др. What’s on the horizon for macroecology? // Ecography. 2012. Т. 35. С. 673–683.

10. Belbin L. и др. Data Quality Task Group 2: Tests and Assertions // Biodiversity Information Science and Standards. 2018. Т. 2. С. e25608.

11. Belbin L. и др. The Atlas of Living Australia: History, current state and future directions // Biodiversity Data Journal. 2021. Т. 9. С. e65023.

12. Belbin L., Williams K. J. Towards a national bio-environmental data facility: experiences from the Atlas of Living Australia // International Journal of Geographical Information Science. 2015. С. 1–20.

13. Benson D. A. и др. GenBank // Nucleic Acids Research. 2012. Т. 41. № D1. С. D36–D42.

14. Bisby F. A. The quiet revolution: Biodiversity informatics and the internet // Science. 2000. Т. 289. С. 2309–2312.

15. Blaustein R. The Encyclopedia of Life: Describing Species, Unifying Biology // BioScience. 2009. Т. 59. № 7. С. 551–556.

16. Bornmann L., Haunschild R., Mutz R. Growth rates of modern science: a latent piecewise growth curve approach to model publication numbers from established and new literature databases // Humanities and Social Sciences Communications 2021 8:1. 2021. Т. 8. № 1. С. 1–15.

17. Borowiec M. L. и др. Deep learning as a tool for ecology and evolution // Methods in Ecology and Evolution. 2022. Т. 13. № 8. С. 1640–1660.

18. Bowler D. E. и др. Decision-making of citizen scientists when recording species observations // Scientific Reports. 2022. Т. 12. № 1. С. 11069.

19. Brenskelle L. и др. Maximizing human effort for analyzing scientific images: A case study using digitized herbarium sheets // Applications in Plant Sciences. 2020. Т. 8. № 6.

20. Brodie J. и др. The Big Seaweed Search: Evaluating a citizen science project for a difficult to identify group of organisms // Aquatic Conservation: Marine and Freshwater Ecosystems. 2023. Т. 33. № 1. С. 44–55.

21. Callaghan C. T. и др. Three Frontiers for the Future of Biodiversity Research Using Citizen Science Data // BioScience. 2020. С. biaa133.

22. Callaghan C. T. и др. Quantifying effort needed to estimate species diversity from citizen science data // Ecosphere. 2022. Т. 13. № 4.

23. Callaghan C. T. и др. Optimizing future biodiversity sampling by citizen scientists // Proceedings of the Royal Society B: Biological Sciences. 2019a. Т. 286. № 1912. С. 20191487.

24. Callaghan C. T. и др. Improving big citizen science data: Moving beyond haphazard sampling // PLOS Biology. 2019b. Т. 17. № 6. С. e3000357.

25. Cardoso P. arakno: ARAchnid KNowledge Online. R package version 1.3.0: https://CRAN.R-project.org/package=arakno, 2022.

26. Carranza-Rojas J. и др. Going deeper in the automated identification of Herbarium specimens // BMC Evolutionary Biology. 2017. Т. 17. № 1. С. 181.

27. Chandler M. и др. Contribution of citizen science towards international biodiversity monitoring // Biological Conservation. 2017. Т. 213. С. 280–294.

28. Chang W. и др. shiny: Web Application Framework for R // 2022.

29. Cheng J., Karambelkar B., Xie Y. leaflet: Create Interactive Web Maps with the JavaScript ’Leaflet’ Library. R package version 2.1.1,:, 2022.

30. Conway J. и др. RPostgreSQL: R Interface to the ’PostgreSQL’ Database System // 2022.

31. Cornwell W. K. и др. What we (don’t) know about global plant diversity // Ecography. 2019. Т. 42. С. 1819–1831.

32. Daru B. H. и др. Widespread sampling biases in herbaria revealed from large-scale digitization // New Phytologist. 2018. Т. 217. № 2. С. 939–955.

33. Davidson S. C., Ruhs E. C. Understanding the dynamics of Arctic animal migrations in a changing world // Animal Migration. 2021. Т. 8. С. 56–64.

34. De Jong Y. и др. PESI - a taxonomic backbone for Europe // Biodiversity Data Journal. 2015. Т. 3. С. e5848.

35. Di Cecco G. J. и др. Observing the Observers: How Participants Contribute Data to iNaturalist and Implications for Biodiversity Science // BioScience. 2021. Т. 71. № 11. С. 1179–1188.

36. Di Minin E., Correia R. A., Toivonen T. Quantitative conservation geography // Trends in Ecology & Evolution. 2022. Т. 37. № 1. С. 42–52.

37. Dias D. и др. Repatriation Data: More than two million species occurrence records added to the Brazilian Biodiversity Information Facility Repository (SiBBr) // Biodiversity Data Journal. 2017. Т. 5. С. e12012.

38. Escribano N., Galicia D., Ariño A. H. The tragedy of the biodiversity data commons: a data impediment creeping nigher? // Database: the journal of biological databases and curation. 2018. Т. 2018.

39. Esyunin S. L. Catalogue of the spiders (Arachnida, Aranei) of the Urals and Cis-Ural region. Moscow: KMK Scientific Press Ltd, 2023 in print.

40. Esyunin S. L., Efimik V. E. Catalogue of the spiders (Arachnida, Aranei) of the Urals. Moscow: KMK Scientific Press Ltd, 1996.

41. Esyunin S. L., Kazantsev D. K. On the spider (Aranei) fauna of the Pechoro-Ilychskiy Reserve (North Urals), with the description of a new Agroeca species (Liocraniidae) // Arthropoda Selecta. 2007. Т. 16. № 4. С. 245–250.

42. Feng X. и др. A review of the heterogeneous landscape of biodiversity databases: Opportunities and challenges for a synthesized biodiversity knowledge base // Global Ecology and Biogeography. 2022. Т. 31. С. 1242–1260.

43. Filippova N. и др. Yugra State University Biological Collection (Khanty-Mansiysk, Russia): general and digitisation overview // Biodiversity Data Journal. 2022. Т. 10. С. e77669.

44. Fomichev A. A., Ballarin F., Marusik Y. M. A new genus of the family Nesticidae (Arachnida: Aranei) from the Caucasus // Arthropoda Selecta. 2022. Т. 31. С. 99–110.

45. Fox R. и др. Opinions of citizen scientists on open access to UK butterfly and moth occurrence data // Biodiversity and Conservation. 2019. Т. 28. № 12. С. 3321–3341.

46. Gallagher R. V. и др. Open Science principles for accelerating trait-based science across the Tree of Life // Nature Ecology & Evolution. 2020. Т. 4. № 3. С. 294–303.

47. Ganzevoort W. и др. Sharing biodiversity data: citizen scientists’ concerns and motivations // Biodiversity and Conservation. 2017. Т. 26. № 12. С. 2821–2837.

48. Gura T. Citizen science: Amateur experts // Nature. 2013. Т. 496. № 7444. С. 259–261.

49. Guralnick R., Walls R., Jetz W. Humboldt Core - toward a standardized capture of biological inventories for biodiversity monitoring, modeling and assessment // Ecography. 2018. Т. 41. № 5. С. 713–725.

50. Hand E. Citizen science: People power. Networks of human minds are taking citizen science to a new level // Nature. 2010. Т. 466. № 7307. С. 685–687.

51. Hardisty A., Roberts D. A decadal view of biodiversity informatics: challenges and priorities // BMC Ecology. 2013. Т. 13. № 1. С. 16.

52. Heidorn P. B. Shedding Light on the Dark Data in the Long Tail of Science // Library Trends. 2008. Т. 57. № 2. С. 280–299.

53. Hijmans R. raster: Geographic Data Analysis and Modeling. R package version 3.5-29:, 2022.

54. Hill A. и др. The notes from nature tool for unlocking biodiversity records from museum records through citizen science // ZooKeys. 2012. Т. 209. С. 219–233.

55. Hobern D. и др. Connecting data and expertise: A new alliance for biodiversity knowledge // Biodiversity Data Journal. 2019. Т. 7. № e33679. С. 1–20.

56. Hoogen J. и др. A global database of soil nematode abundance and functional group composition // Nature Scientific Data. 2020. Т. 7. № 103. С. 1–8.

57. Hortal J. и др. Seven Shortfalls that Beset Large-Scale Knowledge of Biodiversity // Annual Review of Ecology, Evolution, and Systematics. 2015. Т. 46. № 1. С. 523–549.

58. Høye T. T. и др. Deep learning and computer vision will transform entomology // Proceedings of the National Academy of Sciences. 2021. Т. 118. № 2. С. e2002545117.

59. Hughes A. C. и др. Sampling biases shape our view of the natural world // Ecography. 2021. Т. 44. № 9. С. 1259–1269.

60. Hussein B. R. и др. Applications of computer vision and machine learning techniques for digitized herbarium specimens: A systematic literature review // Ecological Informatics. 2022. Т. 69. С. 101641.

61. Ivanova N. V., Shashkov M. P. Biodiversity databases in Russia: towards a national portal // Arctic Science. 2017. Т. 3. № 3. С. 560–576.

62. Johnston A., Matechou E., Dennis E. B. Outstanding challenges and future directions for biodiversity monitoring using citizen science data // Methods in Ecology and Evolution. 2023. Т. 14. № 1. С. 103–116.

63. Kattge J. и др. TRY plant trait database enhanced coverage and open access // Global Change Biology. 2020. Т. 26. № 1. С. 119–188.

64. Kawrykow A. и др. Phylo: A Citizen Science Approach for Improving Multiple Sequence Alignment // PLoS ONE. 2012. Т. 7. № 3. С. e31362.

65. Keil P., Chase J. M. Global patterns and drivers of tree diversity integrated across a continuum of spatial grains // Nature Ecology & Evolution. 2019. № 3. С. 390–399.

66. Keuskamp J. A. и др. Tea Bag Index: a novel approach to collect uniform decomposition data across ecosystems // Methods in Ecology and Evolution. 2013. Т. 4. № 11. С. 1070–1075.

67. Koch W. и др. Maximizing citizen scientists’ contribution to automated species recognition // Scientific Reports. 2022. Т. 12. № 1. С. 7648.

68. Kohl H. A. и др. GLOBE Observer and the GO on a Trail Data Challenge: A Citizen Science Approach to Generating a Global Land Cover Land Use Reference Dataset // Frontiers in Climate. 2021. Т. 3. С. 620497.

69. König C. и др. Biodiversity data integrationthe significance of data resolution and domain // PLoS Biology. 2019. Т. 17(3). № e3000183. С. 1–16.

70. Kopperud B. T., Lidgard S., Liow L. H. Text-mined fossil biodiversity dynamics using machine learning // Proceedings of the Royal Society B: Biological Sciences. 2019. Т. 286. № 1901. С. 20190022.

71. Krause T. B. Cleaning data with OpenRefine // Folia Linguistica. 2021. Т. 55. № s42-s2. С. 527–533.

72. Lee J. и др. RNA design rules from a massive open laboratory // Proceedings of the National Academy of Sciences. 2014. Т. 111. № 6. С. 2122–2127.

73. Levontin L. и др. Standardizing the Assessment of Citizen Scientists’ Motivations: A Motivational Goal-Based Approach // Citizen Science: Theory and Practice. 2022. Т. 7. № 1. С. 25.

74. Lim S., Kim S., Kim D. Performance effect analysis for insect classification using convolutional neural network. Penang: IEEE, 2017. С. 210–215.

75. Martineau M. и др. Effective Training of Convolutional Neural Networks for Insect Image Recognition / под ред. J. Blanc-Talon и др. Cham: Springer International Publishing, 2018. С. 426–437.

76. Mesibov R. An audit of some processing effects in aggregated occurrence records // ZooKeys. 2018. Т. 751. С. 129–146.

77. Michener W. K. и др. Participatory design of DataONEEnabling cyberinfrastructure for the biological and environmental sciences // Ecological Informatics. 2012. Т. 11. С. 5–15.

78. Mikhailov K. G. Catalogue of the spiders of the territories of the former Soviet Union. Moscow: Zoological museum of the Moscow State University, 1997.

79. Mikhailov K. G. The spiders (Arachnida: Aranei) of Russia and adjacent countries: a non-annotated checklist // Arthropoda Selecta. 2013a. № Suppl. 3. С. 1–262.

80. Mikhailov K. G. On the spider fauna (Arachnida: Aranei) of the Mordovian State Reserve, Russia: preliminary results // Arthropoda Selecta. 2013b. Т. 22. С. 301–310.

81. Mora M., Araya J. Semi-automatic Extraction of Plants Morphological Characters from Taxonomic Descriptions Written in Spanish // Biodiversity Data Journal. 2018. Т. 6. С. e21282.

82. Mukhacheva S. V., Davydova Y. A., Sozontov A. N. Small mammals of background areas in the vicinity of the Karabash copper smelter (Southern Ural, Russia) // Biodiversity Data Journal. 2022. Т. 9. № e70599. С. 1–19.

83. Mukhacheva S. V., Sozontov A. N. Long-term Dynamics of Small Mammal Communities in the Period of Reduction of Copper Smelter Emissions: 2. β-Diversity // Russian Journal of Ecology. 2021. Т. 52. № 6. С. 533–542.

84. Nelson G., Ellis S. The history and impact of digitization and digital data mobilization on biodiversity research // Phil. Trans. R. Soc. B. 2018. Т. 374. № 20170391. С. 1–9.

85. Nentwig W., Gloor D., Kropf C. Spider taxonomists catch data on web // Nature. 2015. Т. 528. № 7583. С. 479–479.

86. Owens H. L. и др. occCite: Tools for querying and managing large biodiversity occurrence datasets // Ecography. 2021. Т. 44. № 8. С. 1228–1235.

87. Page R. Liberating links between datasets using lightweight data publishing: an example using plant names and the taxonomic literature // Biodiversity Data Journal. 2018. Т. 6. С. e27539.

88. Page R. D. M. Biodiversity informatics: the challenge of linking data and the role of shared identifiers // Briefings in Bioinformatics. 2008. Т. 9. № 5. С. 345–354.

89. Park D. S., Newman E. A., Breckheimer I. K. Scale gaps in landscape phenology: challenges and opportunities // Trends in Ecology & Evolution. 2021. Т. 36. № 8. С. 709–721.

90. Pebesma E. Simple Features for R: Standardized Support for Spatial Vector Data // The R Journal. 2018. Т. 10. № 1. С. 439–446.

91. Pebesma E., Bivand R. Spatial Data Science: With applications in R. London: Chapman; Hall/CRC, 2023.

92. Pekár S. и др. The World Spider Trait database: a centralized global open repository for curated data on spider traits // Database: the journal of biological databases and curation. 2021. Т. 2021. С. baab064.

93. Pezzini F. и др. The Brazilian Program for Biodiversity Research (PPBio) Information System // Biodiversity & Ecology. 2012. Т. 4. С. 265–274.

94. Phillips H. R. P. и др. Global data on earthworm abundance, biomass, diversity and corresponding environmental properties // Nature Scientific DataScientific Data. 2021. Т. 8. № 136. С. 1–12.

95. Pocock M. J. O. и др. A Vision for Global Biodiversity Monitoring With Citizen Science. : Elsevier, 2018. С. 169–223.

96. Pocock M. J. O. и др. Developing the global potential of citizen science: Assessing opportunities that benefit people, society and the environment in East Africa // Journal of Applied Ecology. 2019. Т. 56. № 2. С. 274–281.

97. Popkov A. и др. Machine learning for expert-level image-based identification of very similar species in the hyperdiverse plant bug family Miridae (Hemiptera: Heteroptera) // Systematic Entomology. 2022. Т. 47. № 3. С. 487–503.

98. Potapov A., Sandmann D., Scheu S. Ecotaxonomy: Linking traits, taxa, individuals and samples in a flexible virtual research environment for ecological studies // Biodiversity Information Science and Standards. 2019. Т. 3. С. e37166.

99. Ratnasingham S., Hebert P. D. N. BARCODING: bold: The Barcode of Life Data System // Molecular Ecology Notes. 2007. Т. 7. № 3. С. 355–364.

100. Reddy S., Dávalos L. M. Geographical sampling bias and its implications for conservation priorities in Africa: Sampling bias and conservation in Africa // Journal of Biogeography. 2003. Т. 30. № 11. С. 1719–1727.

101. Rees J., Cranston K. Automated assembly of a reference taxonomy for phylogenetic data synthesis // Biodiversity Data Journal. 2017. Т. 5. С. e12581.

102. Reichman O. J., Jones M. B., Schildhauer M. P. Challenges and Opportunities of Open Data in Ecology // Science. 2011. Т. 331. № 6018. С. 703–705.

103. Reshetnikov A. N. и др. Rarely naturalized, but widespread and even invasive: the paradox of a popular pet terrapin expansion in Eurasia // NeoBiota. 2023. Т. 81. С. 91–127.

104. Richter A. и др. Motivation and support services in citizen science insect monitoring: A cross-country study // Biological Conservation. 2021. Т. 263. С. 109325.

105. Rodionov I. V., Sozontov A. N. On Confidence Estimation Based on Quantitative Similarity Coefficients // Automation and Remote Control. 2020. Т. 81. № 2. С. 272–284.

106. Ruchin A. B. и др. Coleoptera (Insecta) Collected from Beer Traps in “Smolny” National Park (Russia) // Data. 2022a. Т. 7. № 11. С. 161.

107. Ruchin A. B. и др. Fauna of Adult Ground Beetles (Coleoptera, Carabidae) of the National Park «Smolny» (Russia) // Data. 2022b. Т. 7. № 7. С. 161.

108. Saran S. и др. A comprehensive review on biodiversity information portals // Biodiversity and Conservation. 2022. Т. 31. № 5-6. С. 1445–1468.

109. Saran S. и др. Indian Bioresource Information Network (IBIN) / под ред. R. R. Navalgund, A. S. Kumar, S. Nandy. Singapore: Springer Singapore, 2019. С. 251–264.

110. Schneider F. D. и др. Towards an ecological trait-data standard // Methods in Ecology and Evolution. 2019. Т. 10. № 12. С. 2006–2019.

111. Schulman L. и др. the Finnish Biodiversity Information Facility as a best-practice model for biodiversity data infrastructures // Nature Scientific Data. 2021. Т. 8. № 137. С. 1–16.

112. Scowen M. и др. The current and future uses of machine learning in ecosystem service research // Science of The Total Environment. 2021. Т. 799. С. 149263.

113. Seregin A. P. "Flora of Russia" on iNaturalist // 2021.

114. Serra-Diaz J. M. и др. Big data of tree species distributions: how big and how good? // Forest Ecosystems. 2017. Т. 4. № 1. С. 30.

115. Shashkov M., Ivanova N. Considerable Progress in Russian GBIF Community // Biodiversity Information Science and Standards. 2019. Т. 3. С. e37015.

116. Sievert C. Interactive Web-Based Data Visualization with R, plotly, and shiny. Boca Raton, FL: CRC Press, 2020.

117. Sozontov A. N. Spiders of the Udmurt Republic, Russia // Biodiversity Data Journal. 2021. Т. 9. № e70534. С. 1–27.

118. Sozontov A. N., Esyunin S. L. On the spider fauna (Arachnida: Aranei) of the ’Ust’-Belsk’ Natural Park and its vicinities // Arthropoda Selecta. 2014. Т. 23. № 3. С. 301–310.

119. Sozontov A. N., Esyunin S. L. Spiders of the Udmurt Republic: fauna, ecology, phenology and distribution. Moscow: KMK Scientific Press, 2022.

120. Sozontov A. N., Esyunin S. L., Ukhova N. L. Spiders (Arachnida: Araneae) of the Visim Biosphere Reserve (Middle Urals): 37 years of arachnological research // Biodiversity Data Journal. 2023 in print.

121. Staude I. R. и др. Directional turnover towards larger-ranged plants over time and across habitats // Ecology Letters. 2022. Т. 25. № 2. С. 466–482.

122. Sullivan B. L. и др. Using open access observational data for conservation action: A case study for birds // Biological Conservation. 2017. Т. 208. С. 5–14.

123. Sullivan B. L. и др. The eBird enterprise: An integrated approach to development and application of citizen science // Biological Conservation. 2014. Т. 169. С. 31–40.

124. Thelwall M., Sud P. Scopus 1900–2020: Growth in articles, abstracts, countries, fields, and journals // Quantitative Science Studies. 2022. Т. 3. № 1. С. 37–50.

125. Unger J., Merhof D., Renner S. Computer vision applied to herbarium specimens of German trees: testing the future utility of the millions of herbarium specimen images for automated identification // BMC Evolutionary Biology. 2016. Т. 16. № 1. С. 248.

126. Van Der Wal R. и др. The role of automated feedback in training and retaining biological recorders for citizen science: Automated Feedback for Citizen Science // Conservation Biology. 2016. Т. 30. № 3. С. 550–561.

127. Van Strien A. J. и др. Improving citizen science data for long-term monitoring of plant species in the Netherlands // Biodiversity and Conservation. 2022. Т. 31. № 11. С. 2781–2796.

128. Vattakaven T. и др. Best Practices for Data Management in Citizen Science - An Indian Outlook // Biodiversity Informatics. 2022. Т. 17.

129. Vattakaven T. и др. India Biodiversity Portal: An integrated, interactive and participatory biodiversity informatics platform // Biodiversity Data Journal. 2016. Т. 4. С. e10279.

130. Walter J., McPherson J. M., Guralnick R. P. Integrating biodiversity distribution knowledge: toward a global map of life // Trends in Ecology & Evolution. 2012. Т. 27. № 3. С. 151–159.

131. White A. E. и др. Generating segmentation masks of herbarium specimens and a data set for training segmentation models using deep learning // Applications in Plant Sciences. 2020. Т. 8. № 6.

132. Wickham H. ggplot2: Elegant Graphics for Data Analysis. New York, NY: Springer-Verlag, 2016.

133. Wickham H. и др. dplyr: A Grammar of Data Manipulation. R package version 1.0.10:, 2022.

134. Wickham H., Girlich M. tidyr: Tidy Messy Data. R package version 1.2.1:, 2022.

135. Wieczorek J. и др. Darwin Core: An Evolving Community-Developed Biodiversity Data Standard // PLoS ONE. 2012. Т. 7. № 1. С. e29715.

136. Wilkinson M. D. и др. The FAIR Guiding Principles for scientific data management and stewardship // Scientific Data. 2016. Т. 3. № 160018. С. 1–9.

137. Wilson E. O. The encyclopedia of life // Trends in Ecology & Evolution. 2003. Т. 18. № 2. С. 77–80.

138. WSC. World spider catalogue. Version 24 // 2023.

139. Younis S. и др. Taxon and trait recognition from digitized herbarium specimens using deep convolutional neural networks // Botany Letters. 2018. Т. 165. № 3-4. С. 377–383.

140. Бельская Е. А. и др. Напочвенные членистоногие темнохвойного леса после снижения выбросов медеплавильного завода: происходит ли восстановление сообществ? // Экология. 2023 in print.

141. Гасилин В. В. и др. Изменения состава и относительного обилия копытных евразийской лесостепной зоны в голоцене // Зоологический Журнал. 2021. Т. 100. № 12. С. 220–231.

142. Есюнин С. Л., Новокшенов В. Г. Интересные находки пауков (Aranei) из Юганского заповедника // Труды зоологического института АН СССР. 1992. Т. 226. С. 115–117.

143. Козлов С. В., Светлаков А. В. Применение регулярных выражений для обработки текстовых данных // International Journal of Open Information Technologies. 2022. Т. 10. № 9. С. 82–98.

144. Лисовский А. А. Современные методы фаунистических исследований: один в поле не воин. М.: Тов-во науч. изданий КМК, 2019. С. 136–138.

145. Лисовский А. А., и др. Портал "Млекопитающие России" // 2023.

146. Малых Д. А., Созонтов А. Н. Микростациальное распределение наземных членистоногих в лесах Свердловской области. Екатеринбург: Альфа Принт, 2022. С. 102–104.

147. Михайлов К. Г. Bibliographia Araneologica Rossica 17702011 // Труды Русского энтомологического общества. 2012. Т. 83. № 2. С. 1–229.

148. Петросян В. Г. и др. Применение ансамблевого подхода для создания моделей динамики ареалов самых опасных инвазионных видов растений России в условиях глобальных климатических изменений. Пущино: Институт физико-химических и биологических проблем почвоведения РАН, 2021. С. 96–98.

149. Родионов И. В., Созонтов А. Н. К вопросу о статистической значимости коэффициентов сходства. Екатеринбург: Гуманитарный университет, 2019. С. 595–595.

150. Серегин А. П. и др. “Флора России” на платформе iNaturalist: большие данные о биоразнообразии большой страны // Журнал общей биологии. 2020. Т. 81. № 3. С. 223–233.

151. Созонтов А. Н. Интегративный подход к гетерогенным данным из открытых источников, 2023. С. in print.

152. Созонтов А. Н. Пауки (Aranei) Удмуртской Республики: разнообразие, биотопические комплексы, структура населения. Автореф. дисс. … канд. биол. н. Ижевск:, 2018.

153. Созонтов А. Н. Мобилизация данных о распространении пауков (Araneae) России с привлечением возможностей citizen science. М.: Т-во научных изданий КМК, 2022. С. 153.

154. Суховеров В. С. Система автоматической обработки тематически ориентированных текстов с терминологическим словарем в формате регулярных выражений // №2 (2019). 2019. № 2.

155. Танасевич А. В. К изучению пауков (Aranei) Полярного Урала. Л.: Зоологический институт АН СССР, 1985. С. 52–62.

156. Тунева Т. К., Есюнин С. Л. К фауне пауков (Aranei) Леоновских гор (Челябинская область) // Евразиатский Энтомологический Журнал. 2012. Т. 11. С. 373–377.

157. Филиппова Н. В. и др. Информатика биоразнообразия: мировые тенденции, состояние дел в России и развитие направления в Ханты-Мансийском автономном округе // Динамика окружающей среды и глобальные изменения климата. 2017. Т. 8. № 2. С. 46–56.

158. Фридл Д. Регулярные выражения. 3-е изд. СПб: Символ-Плюс, 2008.

159. Хляп Л. А. и др. Самые опасные инвазионные околоводные млекопитающие России: ансамблевые модели пространственного распространения // Российский журнал биологических инвазий. 2023. Т. 16. № 2. С. 238–271.

Технологии мобилизации первичной информации о биоразнообразии: от литературного наследия к озеру данных

Форма 1. Сведения о проекте

1.1. Название проекта

Технологии мобилизации первичной информации о биоразнообразии: от литературного наследия к озеру данных

=The mobilization techniques for primary data on biodiversity: from literature legacy to digital lake

1.2. Приоритетное направление

1.3. Ключевые слова

1.4. Аннотация проекта

На русском

На английском

1.5. Ожидаемые результаты и их значимость

На русском

На английском

1.7. Планируемый состав научного коллектива

Соответствие профессионального уровня членов научного коллектива задачам проекта

1.12. Возможность использования результатов

Форма 2. Сведения о руководителе

2.5. Награды и премии

2.9. Перечень публикаций

2.10. Научные результаты

Основные научные результаты руководителя проекта за период с 1 января 2018 года

2.13. Опыт выполнения проектов

2.17. Образовательная деятельность

Форма 4. Содержание проекта

4.1. Научная проблема

Научная проблема, на решение которой направлен проект

4.2. Научная значимость

Научная значимость и актуальность решения обозначенной проблемы

4.3. Конкретные задачи

Конкретные задачи в рамках проблемы, на решение которой направлен проект, ее масштаб и комплексность

4.4. Научная новизна

4.5. Современное состояние исследований

Современное состояние исследований по данной проблеме, основные направления исследований в мировой науке и научные конкуренты

FAIR-принципы, data reuse, стандарты и чистота данных

Базы данных и их агрегаторы

Источники данных и проекты по цифровизации

Роль Citizen Science в добыче информации

Рис. 2. Плотность покрытия волонтёрскими наблюдениями живых организмов [Di Cecco и др., 2021].

Научные конкуренты

4.6. Методы, подходы, план и ожидаемые результаты

Предлагаемые методы и подходы, общий план работы на весь срок выполнения проекта и ожидаемые результаты

Инструменты и технологии оцифровки

Рис. 3. Схема онлайн-приложения

Машинное обучение

Модельные таксоны и регионы

Волонтерский проект

Рис. 4. Принцип организации Citizen Science проекта по оцифровке данных о биоразнообразии

Рис. 5. Схема Citizen Science проекта, реализуемых технологий и потоков данных

Ожидаемые результаты

4.7. Задел

Имеющийся у научного коллектива научный задел по проекту, наличие опыта совместной реализации проектов

Рис. 6. Прототип страницы ввода данных

4.8. Ресурсы имеющиеся

Перечень оборудования, материалов, информационных и других ресурсов, имеющихся у научного коллектива для выполнения проекта

4.9. План работы на первый год

План работы на первый год выполнения проекта

Рис. 7. Хронология первого года работы (2024 г.)

4.10. Cодержание работы научного коллектива

Планируемое на первый год содержание работы каждого члена научного коллектива (включая руководителя проекта)

4.11. Ожидаемые результаты (год 1)

Ожидаемые в конце первого года конкретные научные результаты

4.12. Приобретаемые ресурсы

Перечень планируемых к приобретению за счет гранта оборудования, материалов, информационных и других ресурсов для выполнения проекта

Список литературы

Глоссарий