Проект РНФ № 24-24-00460 – заявка в удобном для
чтения формате
Обновлено: 15.06.2023
Приоритетное направление развития науки, технологий и техники в Российской Федерации, критическая технология
Направление: 6. Рациональное природопользование
Технология: 19. Технологии мониторинга и прогнозирования состояния окружающей среды, предотвращения и ликвидации ее загрязнения.
(не более 15 терминов)
Информатика биоразнообразия, экология, зоология, биогеография, биоразнообразие, мониторинг, охрана природы, геоэкология, геоинформационные технологии, ГИС, большие данные, пауки, Урал
Английский:
Biodiversity informatics, ecology, zoology, biogeography, biodiversity, monitoring, conservation science, geoecology, geoinformational technologies, GIS system, big data, spiders, Urals
Функционирование экосистем определяет благополучие человека, обеспечивая плодородие почв, пищевую безопасность и доступ к жизненно важным ресурсам. Состояние экосистем тесно связано с биоразнообразием. Его изучение должно осуществляться в соответствии с мировыми стандартами качества, поскольку первичные данные о биоразнообразии лежат в основе управляющих решений в природоохранной деятельности, сельском и лесном хозяйстве. Эффективность этих решений и глубина понимания функционирования экосистем критически зависят от качества, доступности и репрезентативности первичных данных о биоразнообразии.
Подходы, применяемые для управления данными о биоразнообразии, существенно продвинулись за последнее десятилетие, но все ещё не в полной мере используют арсенал современных способов обработки данных и машинного обучения. Проект направлен на сокращение этого отставания. Будут разработаны и подготовлены к масштабированию технологии интенсивного извлечения первичных данных о распространении и разнообразии живых организмов из множества опубликованных статей, монографий и других печатных материалов, их переноса в цифровой формат в соответствии с современными стандартами управления данных.
В результате реализации проекта будет разработано онлайн-приложение для оцифровки литературных данных о находках живых организмов. Приложение будет оснащено модулями интеграции с информацией об условиях окружающей среды и видовых характеристиках организмов, а также модулем анализа и визуализации всего комплекса данных. К оцифровке литературных источников будут привлечены волонтеры в рамках проекта гражданской науки. В качестве модельного таксона выбраны пауки Уральского региона. Также будут использованы современные технологии искусственного интеллекта, а именно построение и обучение нейросети для извлечения данных о биоразнообразии из литературных источников. Полученный набор данных, содержащий 60 000 записей о 200 000 особей, будет размещен в свободном доступе вместе с инструментами анализа и визуализации, а также в виде цифровой копии на ведущих репозиториях для данных о биоразнообразии.
The functioning of ecosystems determines human sustainability by providing soil fertility, food security, and access to vital resources. The ecosystems’ condition is closely linked to biodiversity, and its study should be conducted in accordance with global quality standards, as primary data on biodiversity underlie management decisions in nature conservation, agriculture, and forestry. The effectiveness of these decisions and the depth of understanding of ecosystem functioning critically depend on the quality, availability, and representativeness of the primary biodiversity data.
Approaches used for managing biodiversity data have significantly advanced over the past decade, but they still do not fully use the arsenal of modern data processing and machine learning methods. This project aims to reduce this gap. Technologies for intensive extraction of primary data on the distribution and diversity of living organisms from a plenty of published articles, monographs, and other printed materials, and their transfer to digital format in accordance with modern data management standards will be developed and prepared for scaling up.
As a result of the project, the online application for digitizing literature data on living organism occurrences will be developed. The application will be equipped with modules for integrating information on environmental conditions and organism characteristics, as well as a module for analyzing and visualizing the entire data set. Volunteers will be involved in digitizing literary sources, within the citizen science project. Spiders of the Ural region were chosen as a model taxon. Modern artificial intelligence technologies will also be used: the construction and training of a neural network for extracting biodiversity data from literary sources. The resulting data set containing 60,000 records of 200,000 individuals will be made freely available along with analysis and visualization tools, as well as a digital copy on leading repositories for biodiversity data.
Извлечение данных о распространении и разнообразии живых организмов из множества опубликованных статей, монографий и других печатных материалов – насущная и актуальная задача современной экологии, решения для которой будут предложены в результате реализации проекта. Методы интенсивной оцифровки будут разработаны и оптимизированы, протестированы на удобном для этого таксоне и регионе (пауках Урала), подготовлены к масштабированию на больший таксономический и географический охват. В рамках проекта мы сравним эффективность принципиально разных подходов – Data Science и Citizen Science. Набор данных о пауках Урала, полученный в результате тестирования этих подходов, может в дальнейшем использоваться в проектах по экологии, биогеографии, охране природы.
Extracting data on the distribution and diversity of living organisms from a plenty of published articles, monographs, and other printed materials is an urgent and relevant task in modern ecology, the solutions for which will be proposed as a result of project implementation. Intensive digitization methods will be developed and optimized, tested on a suitable taxon and region (spiders in the Ural region), and prepared for scaling up to a larger taxonomic and geographic scope. Within the project, we will compare the effectiveness of fundamentally different approaches - Data Science and Citizen Science. The data set on spiders in the Ural region obtained through testing these approaches can be used in future projects on ecology, biogeography, and nature conservation.
1. Созонтов Артём Николаевич, 33 года, к.б.н. (руководитель). Институт экологии растений и животных УрО РАН, научный сотрудник (трудовой договор). | |
2. Иванова Наталья Владимировна, 33 года, к.б.н. (исполнитель). Институт математических проблем биологии – филиал Института прикладной математики им. М.В. Келдыша РАН, старший научный сотрудник (трудовой договор). | |
3. Соколова Софья Сергеевна, 31 год (исполнитель). Южно-Уральский Федеральный научный центр Минералогии и геоэкологии УрО РАН, младший научный сотрудник (трудовой договор), к моменту начала проекта предполагается начать обучение в аспирантуре Института экологии растений и животных УрО РАН. | |
4. Устинова Анастасия Леонидовна, 23 года (исполнитель). Пермский национальный исследовательский университет, аспирант. |
Созонтов А.Н. более 10 лет посвятил фауне, экологии, биогеографии и молекулярной филогенетике пауков, последние 5 лет углубленно занимается информатикой биоразнообразия, обработкой и анализом данных, пространственной экологией, геоинформационными технологиями. По этим направлениям Созонтов А.Н. читает курсы для студентов бакалавриата, магистрантов и аспирантов. Разработал ряд авторских скриптов и онлайн-приложений по управлению данными о биоразнообразии: конвертор табличных данных в формат DarwinCore `occurrence` (sozontov.shinyapps.io/gbif); приложение для поиска и картографической визуализации микологических находок Евразии; комплексную карту-приложение по первичным данным о различных компонентах биоты в условиях точечного промышленного загрязнения тяжелыми металлами. Опубликовал более 10 работ в журналах, индексируемых в списках WoS/Scopus и одну монографию. В дополнение к научно-педагогической деятельности занимается популяризацией науки.
Иванова Н.В. специалист с пятнадцатилетним опытом работы в области информатики биоразнообразия и изучения закономерностей пространственного распределения живых организмов. Последние 10 лет активно повышает квалификацию отечественных исследователей, которые занимаются данными о распространении и разнообразии живых организмов. Обеспечивает организационную и техническую поддержку национального портала, посвященного открытым данным о биоразнообразии. На эти темы в журналах, индексируемых в списках WoS/Scopus Иванова Н.В. опубликовала более 10 статей только за последние 5 лет.
Соколова С.С. выпускница пермской арахнологической школы, имеет 5 научных публикаций. Работает в системе природоохранных организаций, занимается популяризаторской деятельностью в формате проведения натуралистических экскурсий, повышает свою квалификацию в области организации Citizen Science проектов, участвуя в круглых столах, вебинарах, онлайн и .
Устинова АЛ. аспирант пермской арахнологической школы, владеет навыками работы в библиографических информационных системах. При консультационной поддержке А.Н. Созонтова освоила современные стандарты данных о биоразнообразии и продвинутые методы работы с ними.
Разработанные технологии вовлечения больших данных в общедоступный оборот (нейросеть, веб-приложение и волонтерский проект) легко поддаются масштабированию для других регионов и групп живых организмов. Вовлекаемые таким образом данные о распространении и разнообразии живых организмов могут стать научной основой для принятия управленческих решений в сельском и лесном хозяйстве, в природоохранной деятельности. База данных по паукам Урала, полученная в ходе оптимизации разрабатываемых технологий, может стать основой для мониторинга состояния окружающей среды и природных ресурсов, в т.ч. по биологическому контролю за насекомыми-фитофагами.
Награжден стипендией Президента РФ для молодых ученых (2016).
Принял участие в организации пяти всероссийских научных мероприятий (конференция молодых ученых «Экология: факты, гипотезы, модели», 2019, 2021, 2022, 2023, организатор, член комиссии, редактор сборника) и двух международных (IV Международное арахнологическое совещание «ArachnoMeeting», 2021, председатель; «VII полевая школа по почвенной зоологии и экологии», 2021, секретарь).
Sozontov A.N., Esyunin S.L. Spiders of the Udmurt Republic: fauna, ecology, phenology and distribution // Arthropoda Selecta. 2022. Vol. 31. Suppl. 5. P. 1-285. (Wos, Scopus)
Мухачева С.В., Созонтов А.Н. Многолетняя динамика сообществ
мелких млекопитающих в период снижения выбросов медеплавильного завода.
II. Бета-разнообразие // Экология, 2021, № 6, с. 470–480. (Wos,
Scopus)
=Mukhacheva S.V., Sozontov A.N., Long-term dynamics of small mammal
communities in the period of reduction of copper smelter emissions: 2.
β-diversity // Russian Journal of Ecology, 2021, Vol. 52, No. 6,
pp. 532–541.(Wos, Scopus)
Гасилин В.В., Девяшин М.М., Пластеева Н.А., Созонтов А.Н. Изменения состава и относительного обилия копытных евразийской лесостепной зоны в голоцене // Зоологический журнал. 2021. Т. 100. № 12. С. 220–231. (Wos, Scopus)
Rodionov I.V., Sozontov A.N. On Confidence Estimation Based on Quantitative Similarity Coefficients // Automation and Remote Control, 2020, Vol. 81. № 2, P. 272–284. (Wos, Scopus)
Sozontov A.N. Spiders of the Udmurt Republic, Russia // Biodiversity Data Journal. 2021. Vol. 9. № e70534. P. 1–27. (Wos, Scopus)
Mukhacheva S.V., Davydova Yu.A., Sozontov A.N. Small mammals of background areas in the vicinity of the Karabash copper smelter (Southern Urals, Russia) // Biodiversity Data Journal. 2022. Vol. 10. № e76215. P. 1–24. (Wos, Scopus)
Обобщены и проанализированы многолетние сборы пауков в Удмуртской Республике, в т.ч. предложен комплексный подход к синэкологическому анализу группировок пауков, соответствующий общемировым трендам в количественной обработке данных [Созонтов, 2018]. Полученный первичный материал, снабженный экспертными и аналитическими оценками по каждому из четырех сотен ранее обнаруженных видов, представлен в традиционном формате в виде монографии [Sozontov, Esyunin, 2022] и набора данных по стандарту DarwinCore [Sozontov, 2021]. Эти же наработки применены к многолетним данным о пауках Висимского биосферного заповедника [Sozontov, Esyunin, Ukhova, 2023 in print].
Выявлены первые стадии восстановления паукообразных и жужелиц после снижения выбросов медеплавильного завода, описана их специфика [Бельская и др., 2023 in print]. Проанализированы многолетние изменения β-разнообразия сообществ мелких млекопитающих в зоне действия медеплавильного завода в контексте снижения количества выбросов [Mukhacheva, Sozontov, 2021], показана ключевая роль загрязнения территории в структуру и вариабельность их населения. Проанализирована структура и населения млекопитающих и ее динамика региональном [Mukhacheva, Davydova, Sozontov, 2022] и континентальном [Гасилин и др., 2021] масштабе. При непосредственном участии А.Н. Созонтова начаты исследования функционального разнообразия членистоногих почвы и напочвенной подстилки [Малых, Созонтов, 2022].
Предложен аналитический алгоритм для оценки статистической значимости коэффициентов сходства и мер расстояния [Rodionov, Sozontov, 2020; Родионов, Созонтов, 2019] – основы кластерного, ординационного и других форм анализа многовидовых сообществ. Разработаны частные решения по сопоставлению биологических данных разного формата, качества и происхождения [Созонтов, 2023 в печати].
РФФИ 20-54-56054 “Клещи (Acari) берегов Каспийского моря: фауногенетические связи и структура сообществ” (2021-2023)
РФФИ 18-04-00160 “Микростациальное распределение крупных почвенных беспозвоночных на загрязненных территориях” (2018-2020)
РФФИ 14-04-31178 “Структура и тренды изменений фауны и населения наземных членистоногих в переходной зоогеографической области” (2014-2016) (руководитель)
Разработал ряд онлайн-приложений по управлению данными о биоразнообразии: конвертор табличных данных в формат DarwinCore `occurrence` (sozontov.shinyapps.io/gbif); приложение для поиска и картографической визуализации микологических находок Евразии; комплексную карту-приложение по первичным данным о различных компонентах биоты в условиях точечного промышленного загрязнения тяжелыми металлами.
Уральский федеральный университет, доцент с 2019 г. по наст.вр. Предметы: «Модели в экологии» (бакалавриат), «Современные методы обработки данных» (магистратура, авторский курс с модульной программой).
Удмуртский государственный университет, старший преподаватель c 2016 по 2019 г. Предметы: «Математические методы в биологии» (бакалавриат, авторский курс), «Компьютерные технологии в биологии» (бакалавриат), «Полевая практика по биоразнообразию» (бакалавриат).
Институт экологии растений и животных УрО РАН, старший преподаватель с 2020 г. по наст. вр. Предметы: «Статистическое сопровождение экологических исследований» (аспирантура), «Современные методы обработки данных» (аспирантура).
Руководство ВКР: магистерские диссертации (2), ВКР специалистов (2) и бакалавров (8).
Совместно с центром популяризации биоразнообразия «НатУРАЛист» занимается популяризацией науки: с 2019 г. проводит энтомологические экскурсии летом, читает публичные лекции в зимний период.
Полный иллюстрированный текст заявки в удобном для чтения формате прикреплен к заявке в виде pdf файла, а также размещен в свободном доступе по ссылке: https://ansozontov.github.io/faunistica
Исследования экологических механизмов и закономерностей имеют первостепенное значение в быстро меняющемся мире. Экосистемы обеспечивают благополучие человека, предоставляя чистый воздух, воду, плодородные почвы, продукты питания и другие жизненно важные ресурсы. Понимание функционирования экосистем и их компонентов позволяет разрабатывать эффективные природоохранные стратегии, смягчать последствия изменения климата и деградации окружающей среды, а также обеспечивать непрерывное предоставление основных экосистемных услуг. Прогресс в изучении этих закономерностей критически зависит от первичных данных о биоразнообразии, их качестве, доступности, репрезентативности. Однажды полученные данные можно и нужно использовать многократно, а это не всегда возможно.
Проект направлен на решение актуальной проблемы возврата первичных данных о разнообразии живых организмов в циклы многократного использования. Будучи однажды полученными, они не всегда оказываются опубликованными в печати, оставаясь на музейных этикетках, в полевых дневниках, лабораторных журналах и других рукописях. В случае же публикации данных в традиционном формате, возможности их многократного использования все равно существенно осложнены рядом одновременно требуемых условий: 1) осведомленность о существовании конкретных публикаций (эта проблема со временем становится лишь острее в связи с экспоненциальным ростом количества научных публикаций [Bornmann, Haunschild, Mutz, 2021] и журналов [Thelwall, Sud, 2022]); 2) доступ к тексту публикаций (если информация в приложении – доступ к приложению); 3) владение языком, на котором представлена информация. Далее необходимо: 4) вручную переписать или скопировать информацию; 5) привести информацию из разных источников к общему формату. В случае соблюдения всех требований, описанный процесс добычи первичных данных отнимает огромное количество времени, на порядки задерживает скорость работы и скорость накопления доступных для использования данных.
Существуют технические возможности и средства, использование которых упрощает обозначенные выше затруднения и даёт возможность получать колоссальные объёмы данных посредством поисковых запросов через пользовательский интерфейс, протоколы обмена данными между программами напрямую (API) или консольные запросы. Однако здесь появляется новая проблема – эти самые данные уже должны быть оцифрованы (а также стандартизированы и вычищены) и представлены в базах данных [Созонтов, 2023]. Предлагаемый проект направлен на решение этих проблем. Он прокладывает мост между прошлым и будущим, по которому из литературного наследия, не всегда даже индексируемого, массивы открытых данных о биоразнообразии смогут пополняться ценнейшей информацией, обнаружимой продвинутыми средствами поиска.
Более 10 лет назад стала очевидной глубокая зависимость фундаментальной экологии (и на локальном, и на глобальном уровнях) от высококачественных данных по широкому спектру таксонов и регионов. Бек с соавторами [Beck и др., 2012] считают вопросы аккумуляции и использования данных одним из четырех ключевых направлений современной экологии и биогеографии. Оцифрованные, качественные и проиндексированные данные служат важной основой для решения множества фундаментальных и прикладных проблем, позволяя даже с традиционными подходами работать в глобальном масштабе [Hoogen и др., 2020; Phillips и др., 2021] и/или в более высоком пространственном разрешении [Keil, Chase, 2019].
Собственно говоря, агрегирование данных изначально было одной из задач науки о биоразнообразии, пусть и не всегда формулируемой в явном виде [Ball-Damerow и др., 2019; Nelson, Ellis, 2018]. В ряде случаев решение этой задачи осложнено или невозможно (см. раздел 4.1): данные однажды получены, но остаются неиндексируемыми и не обнаружимыми. Возвращение таких «темных данных» в научный оборот – одно из ключевых направлений развития науки в XXI в. [Heidorn, 2008], что в полной мере касается и наук об окружающей среде [Amano, Lamming, Sutherland, 2016]. В сравнении с другими «большими вызовами» в экологии, здесь нет концептуальных проблем, но сам процесс накопленя данных рутинный и трудоёмкий. Необходимы оригинальные решения по его интенсификации и популяризации.
Для данных о биоразнообразии сейчас существуют агрегаторы (см. раздел 4.5) и разработанные научным сообществом стандарты [Guralnick, Walls, Jetz, 2018; Schneider и др., 2019; Wieczorek и др., 2012]. Это чрезвычайно важный этап, благодаря которому решение множества экологических вопросов продвинулось далеко вперед. Тем временем все ещё большой объем данных остается не отраженным в агрегаторах, а сами они – изолированы друг от друга [Feng и др., 2022] и пока лишь некоторые из них работают над взаимной интеграцией. Исследователи ожидают, что именно эти проблемы будут решены на следующем этапе крупного приращения знаний о глобальном биоразнообразии через интеграцию баз данных о биоразнообразии и вовлечение в них упускаемых пока что «темных данных» [König и др., 2019; Hobern и др., 2019]. Впрочем, достаточность этих двух задач вызывает сомнения, поскольку это само по себе напрямую не приводит к аналогичному увеличению объема знаний и глубины понимания экологических закономерностей [Feng и др., 2022]. Соответственно, необходимы новые подходы, облегчающие поиск, доступ, интеграцию и повторное использование данных о биоразнообразии.
Важно отметить, что специалисты по информатике биоразнообразия не считают глобальные порталы-агрегаторы способными удовлетворить все потребности в данных. Необходимость национальных и даже региональных ресурсов обусловлена их возможностями учитывать специфику как природных условий, так и местные приоритеты в решении прикладных задач [Belbin, Williams, 2015; Schulman и др., 2021]. Это полностью релевантно и для России, и для её регионов [Ivanova, Shashkov, 2017].
Разработка интерактивного веб-приложения для занесения литературных данных о находках живых организмов.
Запуск Citizen Science проекта по оцифровке литературных данных о разнообразии и распространении пауков Урала (тестирование приложения и формирование набора данных).
Разработка методов машинного обучения для оцифровки литературных данных и сравнение их эффективности с Citizen Science проектом
Интеграция оцифрованных данных с внешними ресурсами и источниками по условиям среды, филогении и функциональным признакам (traits) живых организмов.
Размещение полученного набора данных в сети и организация к нему открытого доступа.
Масштаб работы. Перечисленные задачи полностью находятся в рамках общенаучного тренда на размещение в открытых репозиториях и базах данных всей первичной информации. С использованием пауков уральского региона в качестве модельного таксона, будут созданы и отлажены технологии мобилизации литературных данных о находках живых организмов и интеграции этих БД с другими ресурсами. Разработанные технологии могут быть успешно масштабированы до любого региона и/или адаптированы для других групп живых организмов.
Комплексность работы. Проект является междисциплинарным, на стыке классических наук о жизни (экологии, биогеографии, зоологии) и Data Science, а также содержит элементы популяризации. Исполнители имеют классический естественно-научный бэкграунд (все), высокую квалификацию по информатике биоразнообразия и обработке данных (Созонтов А.Н., Иванова Н.В.) и опыт популяризаторской деятельности (Созонтов А.Н., Соколова С.С., Устинова А.Л.).
Проблема обеспечения исследователей удобным доступом ко всей накопленной первичной информации из литературного наследия прежде не имела удовлетворительного решения. Способы интенсификации и популяризации этой деятельности будет разработаны в результате реализации проекта. Это планируется сделать путем применения уже существующих информационных технологий и методов машинного обучения к задачам экологии.
Впервые будет разработана онлайн-платформа, оптимизированная под оцифровку литературных данных о находках живых организмов. Потенциал для масштабирования на больший таксономический и географический охват закладывается в веб-приложение изначально. Приложение будут дополнено модулями интеграции и видовых характеристик организмов, и условий окружающей среды. Другие ресурсы по управлению данными о биоразнообразии если и обогащают их, то только сведениями одного типа. Так же онлайн-приложение будет оснащено модулем анализа и визуализации всего комплекса данных.
В дополнение к веб-приложению мы запустим Citizen Science проект, привлекая волонтеров для оцифровки литературы. Проектов гражданской науки, специализированных на такой тематике, ранее не было. Однако мы считаем такой подход оправданным и перспективным, т.к. волонтеров ранее успешно привлекали для распознавания коллекционных материалов и регистрации наблюдений в природе.
Параллельно с этим мы натренируем нейросеть для извлечения данных о биоразнообразии из литературы. В отдельно взятой статье формат этикеточных данных (таксономические названия, локалитеты и координаты места сбора, дата и биотоп сбора) могут быть строго организованы, но их массовое распознавание и обработка не являются чем-то тривиальным ввиду существования десятков и сотен тысяч публикаций разного формата. Ранее из текста успешно извлекали только таксономические названия, были единичные успехи в отношении морфологических характеристик. Извлечение же слабоструктурированных этикеточных данных будет организовано впервые. Методы машинного обучения бурно развиваются и в настоящий момент уже доступны технологии и вычислительные мощности для решения задач качественно нового уровня.
Таким образом, в рамках проекта мы впервые реализуем два принципиально разных подхода одновременно – Data Science и Citizen Science, а также сравним их эффективность. Набор данных о пауках Урала, полученный в результате тестирования этих подходов, имеющий самостоятельную научную ценность, будет размещен в свободном доступе в сети вместе с инструментами анализа и визуализации онлайн, а также на ведущих репозиториях для данных о биоразнообразии.
Необходимость сбора новых данных и многократного их использования не вызывает сомнений в экологической академической среде [Reichman, Jones, Schildhauer, 2011]. Одни исследователи отмечают интенсивный (и даже экспоненциальный) рост объема данных о биоразнообразии [Bisby, 2000; Hobern и др., 2019], другие – активно эти данные используют в своей работе, сводя к минимуму усилия на обработку больших объемов литературы и/или полевые фазы исследования [Ball-Damerow и др., 2019]. В качестве примеров реализации такого масштабного подхода можно привести публикации по растениям Европы за последнее столетие [Staude и др., 2022], глобальным паттернам разнообразия растений [Cornwell и др., 2019], распространению и охране птиц [Sullivan и др., 2017], миграциям животных высоких широт [Davidson, Ruhs, 2021], теории и практике охраны природы [Di Minin, Correia, Toivonen, 2022] и многие другие.
В основе успешного многократного использования данных лежат принципы FAIR – Findability (обнаружимость), Accessibility (доступность), Interoperability (совместимость), Reusability (возможность повторного использования), сформулированные почти 10 лет назад [Wilkinson и др., 2016]. По реализации почти всех принципов достигнут существенный прогресс посредством агрегаторов, индексирования и даже устоявшегося лицензирования [Escribano, Galicia, Ariño, 2018], и только «совместимость» по-прежнему пребывает в фазе активной разработки. Примеров успешной асимметричной (однонаправленной и/или с ограничениями по формату) интеграции достаточно много [Feng и др., 2022]. Полностью симметричная интеграция, по-видимому, невозможна, т.к. каждый ресурс имеет свои уникальные решения и архитектурные особенности.
Нередко разные подходы к решению одних задач снижают чистоту и, соответственно, ценность данных. Одни базы данных проявляют гибкость по отношению к номенклатуре, другие более консервативны, что препятствует совместимости. Пространственные данные тоже могут быть причиной рассогласования. Например, находка без координат может быть по-разному обработана разными ресурсами, использующими разные алгоритмы геопривязки, что приведет к двум разным наборам координат для одного и того же наблюдения [Reddy, Dávalos, 2003; Serra-Diaz и др., 2017]. Необходимо создание общего стандарта и инструментов для оценки и очистки данных [Belbin и др., 2018; Mesibov, 2018]. Возможна также разработка протоколов перекрёстных ссылок между идентификаторами различных БД [Page, 2018]. Такой подход эффективен, но технологически сложен и трудоемок для освоения, поэтому сложно спрогнозировать насколько он будет распространён в дальнейшем. Так или иначе, и концепция Open Science, и FAIR принципы – мощные драйверы развития науки, обеспечивающие синергетический эффект от масштаба и обогащения одних больших данных другими. И пусть не все проблемы на этом пути решены, и не для всех решения просматриваются, это именно те подходы и принципы, от которых зависит дальнейшее развитие наук об окружающей среде [Ball-Damerow и др., 2019; Page, 2008].
Примеров успешных и востребованных баз данных о биоразнообразии огромное количество [Ariño, 2010; Owens и др., 2021]. Их исчерпывающий обзор не вписывается в рамки краткого обзора, поэтому ограничимся лишь упоминанием некоторых из них. Ключевой и наиболее универсальный ресурс – GBIF (Global Biodiversity Information Facility). Количество находок там удваивается каждые 1.5–2 года и к настоящему моменту их общее количество превысило 2.3 млрд. Кроме своей непосредственной функции он предоставляет ряд вспомогательных инструментов для управления данными о биоразнообразии – The Integrated Publishing Toolkit (IPT), Data validator, GBIF Registry of Scientific Collections и другие. Остальные ресурсы первичной информации специализированы на таксоне (например, eBird для птиц [Sullivan и др., 2014; Sullivan и др., 2017]) или регионе (Atlas of Living Australia для Австралии [Belbin и др., 2021], Biodiversity information system for Europe и PESI для Европы [De Jong и др., 2015], Information System about the Brazilian Biodiversity для Бразилии [Dias и др., 2017; Pezzini и др., 2012], Indian Bio-resource Information Network [Saran и др., 2019] и India Biodiversity Portal [Vattakaven и др., 2016] для Индии), или на таксоне и регионе, или наоборот, пытаются вовлечь в себя все [Michener и др., 2012].
Чрезвычайно важно обогащение таких БД пространственными данными и сведениями об окружающей среде, которые используются встроенными инструментами анализа. Это позволяет рассматривать миграции видов, границы ареалов, отслеживать перемещения, картографировать горячие точки биоразнообразия, моделировать численность, экологические ассоциации и многое другое [Saran и др., 2022]. Важными источниками этого обогащения служат БД функциональных признаков (traits) биологических видов (которые, впрочем, тоже остро нуждаются в выработке единых стандартов [Gallagher и др., 2020; Schneider и др., 2019]), например TRY plant trait database [Kattge и др., 2020], Ecotaxonomy (для животных, преимущественно почвенных) [Potapov, Sandmann, Scheu, 2019], The World Spider Trait database [Pekár и др., 2021] и другие. Из них всех наиболее комплексная - Encyclopedia of Life (EoL), действующая уже более 20 лет [Wilson, 2003]. Этот портал предоставляет информацию о филогении и морфологии организмов Земли, их биотических взаимодействиях и др., а также встроенные инструменты анализа [Blaustein, 2009]. Один из них – Virtual Ecological Research Assistant (VERA) – позволяет анализировать экологические сообщества и процессы посредством моделирования пищевых сетей, потоков вещества, энергии и биотических взаимодействий в них [An и др., 2020; An и др., 2018]. Для получения информации о находках портал EoL использует сведения из GBIF. Важен также доступ к БД и непосредственно нуклеотидных последовательностей (GenBank [Benson и др., 2012], The Barcode of Life Data System [Ratnasingham, Hebert, 2007]), агрегированных данных по таксономии (GBIF Backbone, Catalogue of Life [Bánki и др., 2018]) и даже филогении (Open Tree of Life), которые оперируют филогенетическими деревьями, построенными на нескольких генетических и таксономических источниках.
Перечисленные выше ресурсы и возможности внушают оптимизм [Nelson, Ellis, 2018]. Процесс оцифровки, начавшийся более 40 лет назад, эксперты характеризуют как лавинообразный [Walter, McPherson, Guralnick, 2012; Филиппова и др., 2017]. Важную роль в этом играют усилия волонтёров и со временем эта роль только возрастает [Chandler и др., 2017] (подробнее о Citizen Science см. ниже). Однако все еще нуждается в оцифровке, географической привязке, индексировании огромное количество данных о биоразнообразии [Reichman, Jones, Schildhauer, 2011; Saran и др., 2022]. В первую очередь это касается таких источников как музейные и частные коллекции, опубликованная литературы, рукописи, полевые дневники.
В США существует национальный портал «Интегрированные оцифрованные биологические коллекции» (iDigBio) по продвижению оцифровки. В её фокусе коллекции – биологические и палеонтологические, фотографии образцов и связанные с ними данные. BioCollect, разработанный организацией Atlas of Living Australia, еще более продвинутый и удобный инструмент для сбора данных биоразнообразии, экологии и управлении природными ресурсами (NRM). Он принимает неструктурированные данные в виде « », файлов данных, изображений, звуков и видео. С BioCollect тесно сопряжена краудсорсинговая платформа DigiVol, предназначенная для оцифровки изображений и коллекционных материалов, идентификации, маркировки, распознаванием данных с этикеток и других текстов, в т.ч. из исторических документов [Alony и др., 2020].
Впрочем, «цифровизация» не лишена проблем [Hardisty, Roberts, 2013; Hortal и др., 2015], и помимо технической стороны вопроса, есть и субъективный человеческий фактор. Он определяет неравномерность покрытия регионов планеты данными [Park, Newman, Breckheimer, 2021] (https://glaroc.github.io/gbif_globe), что, разумеется, неверно интерпретировать как разницу в видовом богатстве [Daru и др., 2018; Hughes и др., 2021]. Покрытие Северной Америки и Европы наблюдениями наиболее плотное (Рис. 1Б, 1В). На контрасте с этим все еще существует 13% свободной ото льда поверхности суши, на которой в настоящее время нет достоверных находок растений (Рис. 1А). Эти районы в основном расположены в России (несмотря на значительный недавний прогресс в обмене данными российским сообществом GBIF), Центральной и Юго-Восточной Азии и Северной Африке [Feng и др., 2022; Hughes и др., 2021].
Какими конкретно способами можно интенсифицировать извлечение из текста публикаций информацию о разнообразии и распространении живых организмов? На первый взгляд эта задача решается применением регулярных выражений – синтаксических правил и последовательностей символов, определяющих шаблон поиска в тексте [Фридл, 2008]. Это хорошо работает для извлечения, структурирования и очистки больших объемов текстовых данных, представленных в одном формате [Суховеров, 2019; Козлов, Светлаков, 2022], или хотя бы в ограниченном их количестве [Krause, 2021; Созонтов, 2023]. Однако форматов представления этикеточных данных настолько много, что пришлось бы продумывать правила для каждой отдельно взятой статьи, а следовательно, задача автоматизации не будет решена.
Более перспективным путем выглядит применение методов машинного обучения с учителем. В науках о разнообразии использование нейросетей находит всё более широкое применение [Borowiec и др., 2022; Høye и др., 2021; Hussein и др., 2022], вплоть до моделирования экосистемных функций и услуг [Scowen и др., 2021]. Наиболее широко известны успехи идентификации видов по фотографиям гербарных листов [Carranza-Rojas и др., 2017; Unger, Merhof, Renner, 2016; White и др., 2020; Younis и др., 2018] и коллекций насекомых [Martineau и др., 2018; Høye и др., 2021; Popkov и др., 2022], однако стоит помнить, что в приведенных примерах обработки изображений задействованы только свёрточные нейронные сети (convolutional neural network, CNN) [Lim, Kim, Kim, 2017], а это всего лишь одна архитектура нейросетей из множества существующих. В извлечении информации из литературы тоже есть прогресс, который сосредоточен в основном на извлечении таксономических названий [Kopperud, Lidgard, Liow, 2019; Rees, Cranston, 2017]. Редкий пример выхода за ти рамки – извлечение морфологических характеристик растений из описаний на испанском языке [Mora, Araya, 2018].
Citizen science («гражданская наука») – это практика вовлечения в научные проекты, людей, не являющихся профессиональными исследователями. Широкую огласку явление получило в начале прошлого десятилетия [Gura, 2013; Hand, 2010]. В наши дни в таких проектах участвуют миллионы людей ежегодно [Callaghan и др., 2019b], из них большая часть в развитых странах. Потенциал развивающихся стран пока раскрыт лишь в малой степени [Pocock и др., 2019; Vattakaven и др., 2022].
Самыми резонансными проектами гражданской науки становятся в основном астрономические и естественно-научные. Среди них: Spiral Graph – распознавание спиральных галактик, Globe at Night – анализ светового загрязнения, GLOBE Observer Clouds – наблюдение облаков и других природных явлений для уточнения прогнозов погоды, оптимизации погодных и климатических моделей [Kohl и др., 2021], Phylo – онлайн-игра, за которой стоит выравнивание нуклеотидных последовательностей [Kawrykow и др., 2012], EteRNA – анализ трехмерной структуры РНК и поиск их биологически активных вариантов [Lee и др., 2014], Stall Catchers – анализ кровоснабжения мозга мышей в игровой форме, и другие.
Очень большой охват получают проекты гражданской науки, связанные с “дикой” природой – наблюдение за объектами живой природы, анализ гербарных и коллекционных материалов, участие в их сборе или фоторегистрации [Callaghan и др., 2020; Chandler и др., 2017; Hill и др., 2012; Johnston, Matechou, Dennis, 2023]. Успешные примеры реализации: Big Seaweed Search – поиск и регистрация выброшенных на берег водорослей [Brodie и др., 2023], teatime4science использование чайных пакетиков для изучения разложения органического вещества в почве [Keuskamp и др., 2013], платформа и социальная сеть iNaturalist – глобальная регистрация встреч и фотографий биологических видов (рис. 2), пожалуй, крупнейший по охвату проект подобного рода [Di Cecco и др., 2021]. Существуют даже крайне оптимистичные мнения о трансформации науки о биоразнообразии благодаря связке с такими проектами [Pocock и др., 2018; Amano, Lamming, Sutherland, 2016; Pocock и др., 2019], а также о специфических подходах к “зашумлённым” данным такого происхождения [Callaghan и др., 2019a; Johnston, Matechou, Dennis, 2023].
Параллельно с реализацией проектов гражданской науки ведутся исследования её самой как явления, в т.ч. и с практической точки зрения – повышения результативности таких проектов [Brenskelle и др., 2020; Callaghan и др., 2019a; Koch и др., 2022; Van Strien и др., 2022], оценки их эффективности [Callaghan и др., 2022]. Стала понятна общая мотивация волонтеров для участия в Citizen Science, появляются возможности уточнить их мотивацию участия в конкретном проекте [Ganzevoort и др., 2017; Levontin и др., 2022; Richter и др., 2021]. Добровольцы возлагают большие надежды на влияние своих данных как на собственное обучение, так и на науку и управление [Bowler и др., 2022; Fox и др., 2019; Ganzevoort и др., 2017], что следует учитывать при планировании и реализации проекта. Обратная связь, сгенерированная в виде текста, побуждала волонтёров к вовлеченности и удержанию больше, нежели просто информация в виде уведомлений и инфографики [Van Der Wal и др., 2016], хотя динамическое отображение результатов труда волонтера тоже очень важно [Callaghan и др., 2019b]. Таким образом, вовлечение неспециалистов в исследования и добычу научной информации - популярный и эффективный подход, весь потенциал которого ещё только предстоит раскрыть.
Переход к цифровизации данных о биоразнообразии с энтузиазмом принят российским научным сообществом и уже имеется значительный прогресс [Shashkov, Ivanova, 2019]. Большую роль в этом сыграли специальные программы по мобилизации данных от GBIF и издательства Pensoft – West of Urals (2020), и Biota of Russia (2021). Среди наиболее деятельных в области информатики биоразнообрзия организаций – гербарий (группа А.П. Серегина [Серегин и др., 2020; Серегин и др., 2020]) и зоологический музей (группа А.А. Лисовского [Лисовский, 2019]) МГУ, Алтайский государственный университет (группа А.В. Ваганова (ССЫЛКИ)), Институт проблем экологии и эволюции (группа В.Г. Петросяна [Reshetnikov и др., 2023; Петросян и др., 2021; Хляп и др., 2023], Югорский государственный университет (группа Н.В. Филипповой [Filippova и др., 2022; Филиппова и др., 2017]), а также ряд заповедников центральной части России – Мордовский заповедник и Национальный парк “Смольный” (Группа А.Б. Ручина [Ruchin и др., 2022a; Ruchin и др., 2022b]), Приокско-террасный биосферный заповедник и некоторе другие. Однако деятельность перечисленных коллег касается оцифровки первичных данных (из гербариев и других коллекций), инициатив по вовлечению натуралистов в полевые наблюдения и дальнейшего использования уже оцифрованных данных [Seregin, 2021; Лисовский, и др., 2023]. Нам неизвестны примеры российских проектов по извлечению биологических данных из литературы и методам его интенсификации. К идее нашего проекта близка краудсорсинговая платформа DigiVol (часть ресурса Atlas of Living Australia) [Alony и др., 2020]. Однако она сильно специализирована географически. Концептуально же она, напротив, неспециализирована – предназначена для распознавания текстов с этикеток и других исторических документов, а также для оцифровки изображений и коллекций, идентификации материалов.
Для оптимизации ввода литературных данных будет разработано
интерактивное веб-приложение рис. 3. Такой способ
даёт кроссплатформенность – возможность использования с любого
устройства (компьютер, планшет, телефон) и любой операционной системы
(Windows, Linux, Android, MacOS, iOS) без необходимости устанавливать
какое-либо специализированное программное обеспечение, просто введя
URL-адрес в браузер. У пользователя будет возможность зафиксировать
любое из введенных полей для ускоренного многократного ввода остальных.
Это актуально как для таксономических публикаций, когда для одного
таксона приводится множество находок, так и экологических, где для одной
пробы или географической точки приводится множество таксонов. Приложение
будет написано на shiny – фреймворке, специализированном для созданий
веб-приложений на языке программирования R [Chang и др., 2022; Sievert, 2020] (примеры).
Ядро приложения генерирует веб-страницу, осуществляет контроль за
обработкой вводимых и отображаемых данных, оставляет возможности для
тонкой настройки пользовательского интерфейса таблицами стилей CSS. Мы
предусматриваем встроенные механизмы проверки вводимых данных. Например,
для автозаполнения таксономических названий без опечаток ядро приложения
будет синхронизировано с базой данных каталога пауков мира [WSC, 2023] пакетом
arakno
[Cardoso, 2022]. На основе каталога
ОКТМО и Росреестра аналогичный подход будет применен для названий
административных регионов, районов и населенных пунктов.
Предзагруженные (публикации, таксономические и географические
названия) и вводимые пользователями данные будут структурированы в виде
реляционной базы данных (набор таблиц, взаимосвязанных через
идентификаторы), созданной и управляемой PostgreSQL (v.14). Таблицы
базы: «пользователи», «публикации», «регионы», «таксоны» и ключевая –
«записи». Обращение из R в базу данных будет организовано средствами
пакета ‘RPostgreSQL’ [Conway и др., 2022]. Одна публикация
будет предложена для оцифровки более чем одному пользователю, поэтому
внесенные записи будут проходить кросс-верификацию и только в случае
совпадения попадать в основную базу, считаясь истинными находками.
Внутренняя обработка табличных данных будет выполняться средствами
пакетов dplyr
[Wickham и др., 2022] и
tidyr
[Wickham, Girlich, 2022],
пространственных данных – sf
[Pebesma, 2018], raster
[Hijmans,
2022], stars
[Pebesma, Bivand, 2023], визуализация
графиков и карт – ggplot2
[Wickham, 2016] и leaflet
[Cheng, Karambelkar,
Xie, 2022]. Приложение и система управления базами данных
(СУБД PostgreSQL) будет развернута на виртуальном сервере под
управлением OS Linux Ubuntu Server 22.04 LTS. Все технологии и
программы, используемые при создании веб-приложения, являются
бесплатными.
Онлайн-ресурс будет содержать функции поиска – табличного и пространственного, визуализации и анализа. Мы планируем разработку модулей для подгрузки данных по условиям среды и характеристикам видов пауков. В первом случае это высота н.у.м. – SRTM Digital Elevation Model, климатические данные – WorldClim, растительность – Global Forest Watch Open Data Portal и NASA Earth Observatory, тип землепользования – OpenStreetMap и Global Forest Watch Open Data Portal. Во втором – функциональные признаки (traits) – World Spider Trait database [Pekár и др., 2021], и данные по филогении – последовательности гена COI из Barcode of Life Data System (BOLD) [Ratnasingham, Hebert, 2007], GenBank [Benson и др., 2012] и консенсусные филогенетические деревья из проекта Open Tree of Life. Это позволит включать в анализ расчет разнообразия не только таксономического, но также функционального и филогенетического. Все перечисленные источники являются открытыми и их данные доступны через API (протокол обмена данными между программами напрямую, минуя интерфейс пользователя) или пакеты для R.
Для автоматизированного извлечения этикеточных данных из текстов (таксономические названия, локалитеты и координаты места сбора, дата и биотоп сбора и др.) будет разработана нейросетевая модель. Она будет натренирована методами глубокого обучения, при которых между входным и выходным слоями нейронов расположено до нескольких десятков скрытых слоёв. Исходные тексты будут предварительно разбиваться на фрагменты до 1500 знаков с перекрытием, а затем преобразованы в воспринимаемый нейросетью векторный формат набором алгоритмов Word2Vec. В качестве архитектуры самой нейросети будут опробованы Transformer и рекуррентные нейронные сети. Все перечисленные выше решения оптимизированы для учёта семантического контекста, последовательности слов, зависимостей между словами в тексте, и хорошо зарекомендовали себя в задачах, требующих внимания к этим аспектам естественного языка. Обучающая выборка из 40 статей с разнообразными форматами представления этикеточной информации будет сформирована и размечена силами коллектива исполнителей. В дальнейшем для дообучения нейросетевой модели статьи будут использованы статьи, обработанные волонтерами в ходе реализации Citizen Science проекта.
Проблемы потенциального переобучения модели (слишком точной подстройки под данные обучающей выборки и неспособности работать на новых, неизвестных данных) будут решены регуляризацией моделей. Регуляризация добавляет дополнительный штраф на определенные параметры модели, контролируя переобучение и делая её более устойчивой. Для этого применяются L1 регуляризация и Dropout. Первый способ позволяет отбросить ненужные признаки, что релевантно для нашего случая, когда целевые блоки текста строго очерчены, а остальные неинформативны. Второй способ случайно обнуляет некоторые из выходов слоя во время обучения, что поможет модели лучше справляться с неточностями, возникшими при распознавании сканов и опечатками, имевшимися в рукописях изначально.
В качестве модельного таксона для проекта по оцифровке пауки удобны по ряду причин. Во-первых, их таксономия на уровне родов и видов достаточно стабильна, а синонимы, номенклатурные акты и даже ошибочно указанные названия проиндексированы в регулярно обновляемом каталоге пауков мира [WSC, 2023; Nentwig, Gloor, Kropf, 2015]. Связь с его данными возможна минуя веб-интерфейс, - через API и arakno – пакет для R [Cardoso, 2022]. Во-вторых, перечень литературных источников, подлежащих оцифровке, исчерпывающий и четко очерченный. С.Л. Есюнин и К.Г. Михайлов в своих каталогах [Esyunin, Efimik, 1996; Mikhailov, 1997; Mikhailov, 2013a; Esyunin, 2023 in print] и библиографических сводках [Михайлов, 2012] тщательно учитывают все публикации по паукам России и Урала. Для Урала это 450 источников, для постсоветского пространства – почти 5000. Предварительно оценить объем данных можно взяв 8 фаунистических и таксономических публикаций в качестве примера [Esyunin, Kazantsev, 2007; Azarkina и др., 2018; Fomichev, Ballarin, Marusik, 2022; Mikhailov, 2013b; Sozontov, Esyunin, 2014; Есюнин, Новокшенов, 1992; Танасевич, 1985; Тунева, Есюнин, 2012]. Суммарно в них содержатся сведения о 1 420 находках (=occurrences – любое количество экземпляров одного вида, найденный в одной географической точке, в определенном биотопе, в одну дату и одним методом), основанных на 4 779 особях. Таким образом, общий объем «темных данных», подлежащих оцифровке, можно предварительно оценить в 80 000 находок и 270 000 особей, хотя реальное число может оказаться ниже, поскольку не все из публикаций оперируют находками. Перспектива масштабирования разрабатываемого подхода до всей учитываемой К.Г. Михайловым [Михайлов, 2012] территории может дать 860 000 находок и 2 900 000 особей.
Возможности и перспективы гражданской науки (Citizen Science, принцип действия на рис. 4) были освещены в разделе 4.5. Будет реализован оригинальный подход к оцифровке с привлечением волонтеров, чей труд по оцифровке возможно поощрять просветительскими материалами и мероприятиями. Они, организованные квалифицированными экспертами, эксклюзивны, что становится их ключевой ценностью. Общая схема Citizen Science проекта представлена на рис. 5.
Здесь отметим, что волонтерство не предполагает оплаты за труд, но не исключает других источников мотивации и форм поощрения. Последнее особенно актуально при ручной оцифровке данных – сравнительно трудоёмком процессе. Это требует поощрения и с точки зрения этики, и с точки зрения поддержания мотивации к участию в проекте. В качестве поощрений запланированы:
Познавательные заметки про строение, биологию, экологию и эволюцию пауков и родственных им групп
Лекции по этой же тематике
Экскурсии в природные экосистемы и в естественно-научные музеи
Мастер-классы и лабораторные работы на базе университетских коллекций и материально-приборной базы.
Будет разработана онлайн-платформа, оптимизированная для оцифровки литературных данных о находках живых организмов. Это позволит интенсифицировать оцифровку этих данных, и будет апробированой базой для масштабирования на больший таксономический и географический охват.
Будет реализован citizen science проект, с привлечением волонтеров для оцифровки литературы посредством разрабатываемого веб-приложения. Мы видим потенциал в таком подходе основываясь на успехах гражданской науки в распознавании коллекционных материалов и регистрации наблюдений в природе.
Будет обучена нейросеть для извлечения данных о биоразнообразии из литературы. Таким образом в рамках проекта будут реализованы два принципиально разных подхода: Data Science и Citizen Science. Полученные в результате проекта данные о пауках Урала будут доступны онлайн вместе с инструментами для анализа и визуализации. Они также будут размещены на ведущих репозиториях для данных о биоразнообразии.
Задел по проекту
В рамках проектов по экотоксикологии и микологии отработаны принципы
и технологии создания веб-приложений (см. п. 1.7 и 2.12). Разработана
архитектура веб-приложения для оцифровки в рамках citizen science
проекта, прототипирован интерфейс его разделов для ввода данных (рис. 6). Продумана архитектура реляционной БД с
таблицами «публикации», «авторы», «пользователи», «таксоны», «регионы»,
«записи пользователей», «чистые данные». На базе ОКТМО (Общероссийский
классификатор территорий муниципальных образований) подготовлен набор
названий населенных пунктов и административных единиц и их соответствия
друг другу. Разработан модуль проверки названий таксонов по каталогу
пауков мира [WSC,
2023] (в обход средств пакета rgbif
, которые все
равно обращаются к WSC).
Для апробации подхода собран исчерпывающий список из более чем 450 публикаций, сведения из которых подлежат оцифровке. Из них около 200 изначально цифровые, оставшаяся часть отсканирована на 30%. Получено предварительное согласие о сотрудничестве с организациями, занимающимися экологическим просвещением: центр популяризации биоразнообразия « », сообщество « » и др. В рамках их мероприятий анонсирован Citizen Science проект по оцифровке и собраны контакты экскурсантов, выразивших желание участвовать в настоящем проекте. План проекта по мобилизации данных о биоразнообразии пауков обсужден и согласован на профильной арахнологической секции XVI съезда Русского энтомологического общества [Созонтов, 2022].
Опыт совместной реализации проектов
Созонтов А.Н. и Иванова Н.В. совместными усилиями подготовили серию пленарных лекций и мастер-классов по информатике биоразнообразия (IV Международное арахнологическое совещание, онлайн; VII полевая школа по почвенной зоологии и экологии, Екатеринбург): «Публикация данных в репозитории GBIF – риск или новые возможности для исследователей?», «Функциональный аспект биоразнообразия», «Открытые репозитории о биоразнообразии: как получить и использовать данные портала GBIF.org», «Подготовка данных о сборах почвенных беспозвоночных для публикации через GBIF», «Работа в R: преодоление психологического барьера». Соколова С.С. и Созонтов А.Н. имеют опыт совместной популяризаторской деятельности – проведения энтомологических экскурсий для детей и взрослых.
Ресурсы ЦКП УрО РАН – вычислительный кластер “Уран”: 1700 CPU Intel Xeon (44 Tflop/s), 165 GPU NVIDIA Tesla (206 Tflop/s), необходимых для обучения нейронных сетей по распознаванию данных о биоразнообразии из научных публикаций
Ресурсы сервера Института экологии растений и животных УрО РАН (развертывание онлайн-приложения и хостинг сайта проекта)
Собран исчерпывающий перечень литературы, подлежащей оцифровке. Большое количество источников отсканированы в pdf, недостающие источники находятся в библиотеке Пермского национального исследовательского университета и зоологического музея МГУ (оригиналы и ксерокопии)
Информационная поддержка сообществ, занимающихся экологическим просвещением и популяризацией: Центр популяризации биоразнообразия , сообщество `
Идея проекта была озвучена представителям арахнологического сообщества [Созонтов, 2022] и получила всеобщую поддержку.
Дорожная карта реализации проекта представлена на рис. 7.
Разработка и тестирование ядра веб-приложения (январь-февраль, Созонтов А.Н., Иванова Н.В.).
Сбор pdf и метаданных публикаций (январь-февраль, Устинова А.Л.).
Разработка и тестирование пользовательского интерфейса и верстка сайта (март-апрель, все исполнители).
Формирование наборов пространственных и таксономических данных (Иванова Н.В., Устинова А.Л.).
Запуск проекта по оцифровке (май, Созонтов А.Н., Соколова С.С.).
Реализация проекта по оцифровке и его оптимизация (июнь-декабрь, Созонтов А.Н., Соколова С.С.).
Разработка модулей для интеграции видовых характеристик и пространственных данных из внешних источников (ноябрь-декабрь).
Работа над рукописью статьи об архитектуре, интерфейсе и функционале веб-приложения (Созонтов А.Н., Иванова Н.В., сентябрь-октябрь).
Предварительный анализ эффективности проекта, подготовка рукописи о нём (ноябрь-декабрь).
Созонтов А.Н.
Разработка и тестирование ядра веб-приложения, разработка пользовательского интерфейса и верстка сайта. Формирование наборов пространственных и таксономических данных. Запуск проекта по оцифровке и руководство им. Работа над рукописями для мобилизации литературных данных о находках биологических организмов, и о Citizen Science проекте по мобилизации данных.
Иванова Н.В.
Разработка и тестирование ядра веб-приложения. Формирование наборов пространственных и таксономических данных. Написание документации и руководства для веб-приложения. Работа над рукописями статей об архитектуре, интерфейсе и функционале веб-приложения для мобилизации литературных данных о находках биологических организмов, и о Citizen Science проекте по мобилизации данных.
Соколова С.С.
Тестирование веб-приложения. Разработка дизайна сайта. Сбор необходимых для проекта pdf и метаданных публикаций. Написание научно-популярных материалов для сайта. Запуск волонтёрского проекта по оцифровке. Работа над рукописью статьи о Citizen Science проекте по мобилизации данных.
Устинова А.Л.
Сбор необходимых для проекта pdf и метаданных публикаций. Написание научно-популярных материалов для сайта. Запуск волонёрского проекта по оцифровке. Работа над рукописью статьи о Citizen Science проекте по мобилизации данных.
Будет разработано и протестировано ядро веб-приложения для оцифровки данных о находках биологических организмов.
Будут собраны все необходимые для проекта по оцифровке pdf и метаданные публикаций.
Будут сформированы наборы пространственных данных с иерархической структурой административных регионов, районов и населенных пунктов исследуемого региона
Будет написана документация для развертывания и использования веб-приложения
Будет запущен волонтёрский проект по оцифровке
Будет подготовлена рукопись статьи о архитектуре, интерфейсе и функционале веб-приложения для мобилизации литературных данных о находках биологических организмов.
Будет подготовлена рукопись статьи, описывающей Citizen Science проект по мобилизации данных
Результаты работы первого года будут представлены в виде докладов на двух конференциях всероссийского уровня
Мобильные персональные компьютеры (2 шт, =160 т.р.) и настольный персональный компьютер с периферией (1 шт., =160 т.р.) для исполнителей.
Услуги по записи видеозаписи и монтажу роликов о проекте (75 т.р.).
Организация обучающих мастер-классов для пользователей разрабатываемого ресурса (160 т.р.).
Поездки исполнителей на конференции (доклады о результатах реализации проекта и его информационное продвижение, 90 т.р.).