Multimodal (Audio, visual) 데이터를 이용해 speech enhancement를 수행한 논문이다. 논문 링크: https://arxiv.org/ftp/arxiv/papers/1703/1703.10893.pdf Introduction Speech enhancement (SE)란 speech signal의 잡음 제거를 의미한다. 대부분의 SE 기술들은 audio 데이터만을 이용하지만, 본 논문에서는 visual 데이터 (입모양 이미지)를 함께 이용해 SE의 성능을 높이는 데 성공했다. Method 본 논문에서 제안하는 Audio-Visual Deep CNN (AVDCNN) SE 모델은 audio-visual encoder-decoder network 구조를 가진다. 1. 우선, CNN을 ..