MEDUSA: A Multimodal Deep Fusion Multi-Stage Training Framework for Speech Emotion Recognition in Naturalistic Conditions

BibTex

Copy

@misc{katsamanis2025medusamultimodaldeep,
      title={MEDUSA: A Multimodal Deep Fusion Multi-Stage Training Framework for Speech Emotion Recognition in Naturalistic Conditions},
      author={Athanasios Katsamanis and Vassilis Katsouros and Efthymios Georgiou and Alexandros Potamianos and Georgios Chatzichristodoulou and Despoina Kosmopoulou and Antonios Kritikos and Anastasia Poulopoulou},
      year={2025},
      eprint={2506.09556},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2506.09556},
}

GitHub

medusa

HTTPS

https://github.com/emopodntua/medusa

SSH

git@github.com:emopodntua/medusa.git

CLI

gh repo clone emopodntua/medusa

Transform this paper into an audio lecture

Get an engaging lecture and Q&A format to quickly understand the paper in minutes, perfect for learning on the go.

Audio lecture

Q&A format

alphaXiv

Explore

State of the Art

Sign In

Labs

Feedback

Browser Extension

Dark mode

MEDUSA: A Multimodal Deep Fusion Multi-Stage Training Framework for Speech Emotion Recognition in Naturalistic Conditions