Алгоритм восстановления пропущенных данных в выборке фитоиндикационного мониторинга с использованием метода главных компонент

Авторы

  • В. Н. Неспирный ФГБОУ ВО «Донецкий государственный университет»; ГБУ «Институт экономических исследований» Автор
  • А. И. Сафонов ФГБОУ ВО «Донецкий государственный университет» Автор

DOI:

https://doi.org/10.5281/

Ключевые слова:

Донбасс, экологический мониторинг, математическая статистика, импутация, фитоиндикация, метод главных компонент

Поддерживающие организации

Исследование выполнено в рамках работы Азово-Черноморского математического центра (соглашение от 29 февраля 2024 г. № 075-02-2024-1446), молодежной лаборатории «Диагностика и механизмы адаптации природных и антропогенно-трансформированных экосистем Донбасса» (№ НИОКТР 1023110700153-4-1.6.19;1.6.11;1.6.12), а также инициативной темы кафедры ботаники и экологии ДонГУ «Ботаника антропотехногенеза: индикация и оптимизация».,

Аннотация

Предложен подход к построению оценок для пропущенных значений в многомерных выборках. Достаточным условием его применимости является предположение о наличии между координатами наблюдаемой величины связей, которые хорошо аппроксимируются линейными уравнениями. Для выявления таких связей предполагается использование метода главных компонент с предварительной нормализацией. Восстановление пропущенной информации осуществляется путем проектирования неполных данных на подпространство, содержащее нескольких первых главных компонент. Для минимизации погрешности оценки метод главных компонент повторно применяется к части исходной выборки и исключаются неустойчивые компоненты, которые чувствительны к сокращению выборки и, как следствие, подвержены влиянию шума. Для демонстрации полученных результатов разработанный алгоритм был применен к экспериментальным данным фитоиндикационного мониторинга в 24-компонентной наблюдательной сети.

Скачивания

Данные по скачиваниям пока не доступны.

Библиографические ссылки

1. Аладышкина А. С., Лакшина В. В., Леонова Л. А., Максимов А. Г. Особенности работы с данными, характеризующими здоровье населения: заполнение пропусков в данных // Социальные аспекты здоровья населения. 2020. Т. 66, № 1. С. 1–28. DOI : 10.21045/2071-5021-2020-66-1-12. EDN : AMHNIZ.

2. Беспалова С. В., Сафонов А. И. Математическое моделирование в системе экологического фитомониторинга Донбасса // Проблемы экологии и охраны природы техногенного региона. 2023. № 1–2. С. 6–12. EDN : KUQQSL.

3. Бычков Ю. А. Сопоставление точности двух методов оценивания параметров при заполнении пропусков в данных газодобывающего предприятия // Информационные технологии и математическое моделирование в управлении сложными системами. 2022. № 3 (15). С. 7–13. DOI : 10.26731/2658-3704.2022.3(15).7–13. EDN : QFFXPV.

4. Грачев А. В. К восстановлению пропусков в экспериментальных данных // Вестник Нижегородского университета им. Н. И. Лобачевского. Серия: Радиофизика. 2004. № 1. С. 15–23. EDN : HROXAD.

5. Гунченко И. А. Полемостресс в Донбассе: постановка эксперимента // Вестник студенческого научного общества ГОУ ВПО «Донецкий национальный университет». 2024. Т. 1, № 16. С. 60–65. EDN : IYJHBJ.

6. Ермаков В. В. Современное развитие биогеохимических идей В. И. Вернадского // Геохимия. 2023. Т. 68, № 10. С. 995–1008. DOI : 10.31857/S0016752523100047. EDN : YHRINA.

7. Калинина А. В. Диагностика эдафотопов некоторых отвалов угольных шахт г. Макеевки методами фитотестирования // Проблемы экологии и охраны природы техногенного региона. 2019. № 1–2. С. 6–12. EDN : OJDSTP.

8. Клепиков О. В., Епринцев С. А., Шекоян С. В. Анализ данных социальногигиенического мониторинга регионов России, определяющих экологогигиеническую безопасность населения // Санитарный врач. 2020. № 1. С. 60–66. DOI : 10.33920/med-08-2001-08. EDN : GCUFZF.

9. Мирненко Н. С. Виды адвентивной флоры Донбасса в контексте палинологических экспертиз // Проблемы экологии и охраны природы техногенного региона. 2022. № 3–4. С. 21–29. EDN : SSMJMN.

10. Мирненко Э. И. Минерализация водных экосистем как фактор трансформации комплексов фитопланктона прудов г. Донецка // Проблемы экологии и охраны природы техногенного региона. 2021. № 3–4. С. 30–35. EDN : WQDSUN.

11.Неспирный В. Н., Сафонов А. И. Метод главных компонент в экологической диагностике Донбасса // Актуальные проблемы экологии и природопользования. М. : РУДН, 2024. Т. 1. С. 391–396.

12.Носков С. И., Бычков Ю. А. Вычислительные эксперименты с непрерывной формой метода максимальной согласованности в регрессионном анализе // Вестник Воронежского государственного технического университета. 2022. Т. 18, № 2. С. 7–12. DOI : 10.36622/VSTU.2022.18.2.001. EDN : LTYOVD.

13.Рожкова Д. А., Смородин Г. Н. Анализ методов обработки данных экологического мониторинга с пропущенными значениями // Подготовка профессиональных кадров в магистратуре для цифровой экономики (ПКМ-2023). СПб. : СПбГУТ, 2023. С. 391–395. EDN : FQVCWG.

14.Сафонов А. И. Весовые коэффициенты фитоквантификации в антропогенно трансформированной среде Донбасса // Проблемы экологии и охраны природы техногенного региона. 2022. № 1–2. С. 17–22. EDN : GUYSXP.

15.Сафонов А. И., Гермонова Е. А. Оценка геосистем Донбасса: фитоиндикация тератогенности и картографический анализ // Вестник Донецкого национального университета. Серия А : Естественные науки. 2023. № 1. С. 98–104. EDN : PHAMBH.

16. Тараканов Д. А. Восстановление пропущенных значений в данных гидрометеорологических наблюдений с использованием машинного обучения (на примере реки Белая, Республика Башкортостан) // Вестник Евразийской науки. 2023. Т. 15, № 6. https://esj.today/PDF/55NZVN623.pdf. EDN : HWQXFP.

17. Тронов К. А., Белов Ю. С. Система прогнозирования данных с механизмом восстановления пропущенных значений в беспроводных сенсорных медицинских сетях Интернета вещей // Известия Института инженерной физики. 2023. № 4 (70). С. 58–64. EDN : MBFEXT.

18.Цымблер М. Л., Юртин А. А. Восстановление пропущенных значений временного ряда на основе совместного применения аналитических алгоритмов и нейронных сетей // Вычислительные методы и программирование. 2023. Т. 24, № 3. С. 243–259. DOI : 10.26089/NumMet.v24r318. EDN : BJZYCZ.

19.Яркова О. Н. Импутация данных методами статистического моделирования // Инженерный вестник Дона. 2023. № 6 (102). С. 160–177. EDN : IPHPLT.

20.Adnan F. A., Jamaludin Kh. R., Wan Muhamad W. Z. A., Miskon S. A review of the current publication trends on missing data imputation over three decades: direction and future research // Neural Computing & Applications. 2022. Vol. 34, No. 21. P. 18325–18340. DOI : 10.1007/s00521-022-07702-7. EDN : JQUNWQ.

21.Berk L., Bertsimas D. Certifiably optimal sparse principal component analysis // Mathematical Programming Computation. 2019. Vol. 11, No 3. P. 381–420. DOI : 10.1007/s12532-018-0153-6. EDN : QQXKVS.

22.Ermakov V. V., Tyutikov S. F., Degtyaryov A. P., Gulyaeva U. A., Danilova V. N. Characteristics of the accumulation of metals by plants and the activity of soil enzymes in metallogenic territories of the Northern Caucasus // Geochemistry International. 2022. Vol. 60, No. 8. P. 772–778. DOI : 10.1134/s0016702922070023. EDN : HCOKUZ.

23.Gkoulis D., Bardaki C., Nikolaidou M., Kousiouris G., Tsadimas A. A Hybrid Simulation Platform for quality-aware evaluation of complex events in an IoT environment // Simulation Modelling Practice and Theory. 2024. Vol. 133. P. 102919. DOI : 10.1016/j.simpat.2024.102919. EDN : FXNHKM.

24.Kharchenko N. N., Kalaev V. N., Kornienko V. O. Mechanical resistance of Quercus robur L. at the environmental boundary of the species distribution in the steppe // IOP Conference Series: Earth and Environmental Science. 2021. P. 12049. DOI : 10.1088/1755-1315/875/1/012049. EDN : HNQTEI.

25.Kolesnikov S. I., Kuzina A. A., Minnikova T. V., Ter-misakyants T. A., Nevedomaya E. N., Akimenko Yu. V., Trufanov D. A., Kazeev K. Sh., Burachevskaya M. V., Minkina T. M., Shende S. S., Barakhov A. V. Biodiagnostics of resistance to the copper (Сu) pollution of forest soils at the dry and humid subtropics in the greater Caucasus Region // Forests. 2022. Vol. 13, No 10. P. 1720. DOI : 10.3390/f13101720. EDN : GEVKEQ.

26.Kurapeev D. I., Lushnov M. S., Man T., Zhukova N. A. Imputation and system modeling of acid-base state parameters for different groups of patients // Scientific and Technical Journal of Information Technologies, Mechanics and Optics. 2022. Vol. 22, No 1. P. 155–166. DOI : 10.17586/2226-1494-2022-22-1-155-166. EDN : THDBUO.

27.Nugroho H. A., Surendro K. Comprehensive bibliometric analysis of missing value imputation // IEEE Access. 2024. Vol. 12. P. 14819–14846. DOI : 10.1109/access.2024.3357533. EDN : NBGZND.

28.Palchevsky E. V. Method for improving the accuracy of predictive values of time series based on the imputation of historical data // Programmnaya Ingeneria. 2023. Vol. 14, No 6. P. 301–306. DOI : 10.17587/prin.14.301-306. EDN : PVYRZJ.

29. Safonov A. I., Alemasova A. S., Zinicovscaia I. I., Vergel K. N., Yushin N. S., Kravtsova A. V., Chaligava O. Morphogenetic abnormalities of bryobionts in geochemically contrasting conditions of Donbass // Geochemistry International. 2023. Vol. 61, No 10. P. 1036–1047. DOI : 10.1134/s0016702923100117. EDN : FICFYS.

30. Tien D. P. T., Van Dung D., My T. T. T., Frontasyeva M., Zinicovscaia I., Khiem L. H., Son N. A. Studying airborne trace elements in featured areas in Red River Delta and South Central Vietnam using moss biomonitoring technique and neutron activation analysis // Journal of Radioanalytical and Nuclear Chemistry. 2022. Vol. 331, No 1. P. 1–9. DOI : 10.1007/s10967-022-08331-z. EDN : QZMUXP.

31. Yao F., Coquery J., Lê Cao K. A. Independent Principal Component Analysis for biologically meaningful dimension reduction of large biological data sets // BMC Bioinformatics. 2012. Vol. 13, No 1. P. 1–15. DOI : 10.1186/1471-2105-13-24. EDN : WTNCDG.

32. Yeprintsev S. A., Klepikov O. V., Shekoyan S. V., Zhigulina E. V. Study of the impact of social and environmental factors on the spread of coronavirus infection in Russian Regions // IOP Conference Series: Earth and Environmental Science. 2021. P. 012007. DOI : 10.1088/1755-1315/688/1/012007. EDN : KNQAWL.

33. Yeprintsev S. A., Kurolap S. A., Komov I. V., Minnikov I. V. Y. Monitoring of factors of ecological safety of urbanized territories' population (by example of settlements of Voronezh region) // Life Science Journal. 2013. Vol. 10, No 12s. P. 846–848. EDN : UZUSAB.

34.Zhong R., Liu Sh., Li H., Zhang J. Sparse logistic functional principal component analysis for binary data // Statistics and Computing. 2023. Vol. 33, No 1. P. 15. DOI : 10.1007/s11222-022-10190-3. EDN : BFYFJC.

35. Zinicovscaia I., Safonov A., Kravtsova A., Chaligava O., Germonova E. Neutron activation analysis of rare earth elements (Sc, La, Ce, Nd, Sm, Eu, Tb, Dy, Yb) in the diagnosis of ecosystems of Donbass // Physics of Particles and Nuclei Letters. 2024. Vol. 21, No 2. P. 186–200. DOI : 10.1134/S1547477124020158. EDN : XTYWUI.

Загрузки

Опубликован

2024-06-28

Выпуск

Раздел

Флора, экология и охрана растительного мира

Как цитировать

[1]
2024. Алгоритм восстановления пропущенных данных в выборке фитоиндикационного мониторинга с использованием метода главных компонент. Проблемы экологии и охраны природы техногенного региона. 1 (Jun. 2024), 15–26. DOI:https://doi.org/10.5281/.