RECOGNITION OF HUMAN ACTIVITY BY VIDEO DATA

Anna V. Pyataeva; Mikhail A. Merko; Vladislava A. Zhukovskaya; Alena A. Kazakevich

doi:10.12731/2227-930X-2022-12-4-96-110

Anna V. Pyataeva СФУ https://orcid.org/0000-0002-0140-263X
Mikhail A. Merko СФУ
Vladislava A. Zhukovskaya СФУ https://orcid.org/0000-0002-6113-3128
Alena A. Kazakevich СФУ

DOI: https://doi.org/10.12731/2227-930X-2022-12-4-96-110

Ключевые слова: распознавание физической активности человека, глубокие нейронные сети, классификация действий

Аннотация

Настоящая работа посвящена решению задачи классификации вида физической активности человека по визуальным данным. Авторами предложено использование глубинных нейронных сетей с целью определения типа активности. Системы распознавания человеческой активности по видеоданным или отдельному изображению в настоящее время находят активное применение в различных областях человеческой деятельности от приложений для обучения занятиям спортом до системы контроля эффективности сотрудников предприятия, поэтому решение задачи распознавания действий человека по визуальным данным является актуальной задачей. Авторами разработан алгоритм определения типа физической активности по визуальным данным на основе моделей DenseNet121 и MobileNetV2, а затем самостоятельно построена модель глубокой нейронной сети, так как предварительно обученные сети не давали необходимой точности обнаружения типа физической активности, выполнен подбор гиперпараметров. Программная реализация модели выполнена в среде IDLE на языке программирования Python. Экспериментальные исследования, выполненные на специализированном наборе данных UCF50, содержащем 50 различных видов действий человека, подтверждают эффективность использования предложенного подхода для решения поставленной задачи. Дополнительно репрезентативность тестового набора данных увеличена с помощью видеопоследовательностей, полученных с YouTube.

Цель – разработка алгоритма определения физической активности человека по визуальным данным.

Метод или методология проведения работы: в работе использованы методы компьютерного зрения; методы глубокого обучения, а также методы объектно-ориентированного программирования.

Результаты: разработан алгоритм отслеживания физической активности человека по визуальным данным с применением технологий глубокого обучения.

Область применения результатов: применение полученных результатов целесообразно в системах мониторинга деятельности человека, например, при отслеживании преступной деятельности в работе правоохранительных органов, в медицинской диагностике, для отслеживания активности сотрудников офиса и др.

Скачивания

Данные скачивания пока не доступны.

Биографии авторов

Anna V. Pyataeva, СФУ

кандидат технических наук, доцент кафедры Систем искусственного интеллекта, Институт космических и информационных технологий

Mikhail A. Merko, СФУ

доцент кафедры Систем искусственного интеллекта, кандидат технических наук, Институт космических и информационных технологий

Vladislava A. Zhukovskaya, СФУ

студентка 1 курса магистратуры, Институт космических и информационных технологий

Alena A. Kazakevich, СФУ

студентка 2 курса магистратуры, Институт космических и информационных технологий

Литература

Список литературы

Николенко С. Глубокое обучение / С. Николенко, А. Кадурин, Е. Архангельская. СПб.: Питер, 2018. 480 с.

Андреас М. Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными. М.: Альфа-книга, 2017. 487 c.

Плас Д. Python для сложных задач. Наука о данных и машинное обучение. Руководство. М.: Питер, 2018. 759 c.

Chen Y., Guo M., Wang Z. An improved algorithm for human activity recognition using wearable sensors // 2016 Eighth International Conference on Advanced Computational Intelligence (ICACI). IEEE, 2016. С. 248-252.

Dong Y. et al. Dezert-Smarandache theory-based fusion for human activity recognition in body sensor networks // IEEE Transactions on Industrial Informatics. 2020. Т. 16. № 11. С. 7138-7149.

Pigou L. et al. Beyond temporal pooling: Recurrence and temporal convolutions for gesture recognition in video // International Journal of Computer Vision. 2018. Т. 126. № 2. С. 430-439.

Gadzicki K., Khamsehashari R., Zetzsche C. Early vs late fusion in multimodal convolutional neural networks // 2020 IEEE 23rd International Conference on Information Fusion (FUSION). IEEE, 2020. С. 1-6.

Ullah A. et al. Action recognition in video sequences using deep bi-directional LSTM with CNN features // IEEE access. 2017. Т. 6. С. 1155-1166.

Luo Y. et al. Lstm pose machines //Proceedings of the IEEE conference on computer vision and pattern recognition. 2018. С. 5207-5215.

Sargano A. B., Angelov P., Habib Z. A comprehensive review on handcrafted and learning-based action representation approaches for human activity recognition //Applied sciences. 2017. Т. 7. №. 1. С. 110.

UCF50 – Action Recognition Data [Электронный ресурс]. https://www.crcv.ucf.edu/data/UCF50.php (дата обращения: 12.10.2022)

Huang, G., Liu, Z., Van Der Maaten, L., Weinberger, K.Q. Densely connected convolutional networks // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition – 2017.

Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., Chen, L.C. MobilenetV2: inverted residuals and linear bottlenecks // Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition – 2018.

IDLE // Python 3.11.0 Documentation [Электронный ресурс]. https://docs.python.org/3/library/idle.html (дата обращения: 30.10.2022).

YouTube [Электронный ресурс]. https://www.youtube.com/ (дата обращения: 30.10.2022)

References

Nikolenko S., Kadurin A., Arkhangel’skaya E. Glubokoe obuchenie [Deep learning]. SPb.: Piter, 2018, 480 p.

Andreas M. Vvedenie v mashinnoe obuchenie s pomoshch’yu Python. Rukovodstvo dlya spetsialistov po rabote s dannymi [Introduction to Machine Learning with Python. A guide for data scientists]. M.: Al’fa-kniga, 2017, 487 p.

Plas D. Python dlya slozhnykh zadach. Nauka o dannykh i mashinnoe obuchenie. Rukovodstvo [Python for complex tasks. Data Science and Machine Learning. Guide]. M.: Piter, 2018, 759 p.

Chen Y., Guo M., Wang Z. An improved algorithm for human activity recognition using wearable sensors. 2016 Eighth International Conference on Advanced Computational Intelligence (ICACI). IEEE, 2016, pp. 248-252.

Dong Y. et al. Dezert-Smarandache theory-based fusion for human activity recognition in body sensor networks. IEEE Transactions on Industrial Informatics, 2020, vol. 16, no. 11, pp. 7138-7149.

Pigou L. et al. Beyond temporal pooling: Recurrence and temporal convolutions for gesture recognition in video. International Journal of Computer Vision, 2018, vol. 126, no. 2, pp. 430-439.

Gadzicki K., Khamsehashari R., Zetzsche C. Early vs late fusion in multimodal convolutional neural networks. 2020 IEEE 23rd International Conference on Information Fusion (FUSION). IEEE, 2020, pp. 1-6.

Ullah A. et al. Action recognition in video sequences using deep bi-directional LSTM with CNN features. IEEE access, 2017, vol. 6, pp. 1155-1166.

Luo Y. et al. Lstm pose machines. Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 5207-5215.

Sargano A. B., Angelov P., Habib Z. A comprehensive review on handcrafted and learning-based action representation approaches for human activity recognition. Applied sciences, 2017, vol. 7, no. 1, p. 110.

UCF50 – Action Recognition Data. https://www.crcv.ucf.edu/data/UCF50.php

Huang, G., Liu, Z., Van Der Maaten, L., Weinberger, K.Q. Densely connected convolutional networks. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition – 2017.

Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., Chen, L.C. MobilenetV2: inverted residuals and linear bottlenecks. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition – 2018.

IDLE // Python 3.11.0 Documentation. https://docs.python.org/3/library/idle.html

YouTube. https://www.youtube.com/

АВТОРАМ

ПОЛИТИКА ЖУРНАЛА

РАСПОЗНАВАНИЕ АКТИВНОСТИ ЧЕЛОВЕКА ПО ВИДЕОДАННЫМ

Аннотация

Скачивания

Биографии авторов

Литература