Multimodal (Audio, visual) 데이터를 이용해 speech enhancement를 수행한 논문이다.
논문 링크: https://arxiv.org/ftp/arxiv/papers/1703/1703.10893.pdf
Introduction
Speech enhancement (SE)란 speech signal의 잡음 제거를 의미한다.
대부분의 SE 기술들은 audio 데이터만을 이용하지만, 본 논문에서는 visual 데이터 (입모양 이미지)를 함께 이용해 SE의 성능을 높이는 데 성공했다.
Method
본 논문에서 제안하는 Audio-Visual Deep CNN (AVDCNN) SE 모델은 audio-visual encoder-decoder network 구조를 가진다.
1. 우선, CNN을 이용해 Audio 데이터 $X$와 visual 데이터 $Z$로부터 각각의 feature을 추출한다.
- Audio feature: $A_i=Conv_a2(Pool_a1(Conv_a1(X_i)))$
- Visual feature: $V_i=Conv_v3(Conv_v2(Conv_v1(Z_i)))$
2. 추출한 feature을 flatten한 후, concatenate하여 하나의 feature로 합친다.
- $F_i=[A_i' V_i']'$
3. 합쳐진 feature을 fc layer에 통과시킨 후, 두 개의 서로 다른 fc layer에 통과시켜 원본 audio와 visual 데이터를 복원한다.
- Reconstructed audio data: $\hat{Y}_i=FC_a3(FC2(FC1(F_i)))$
- Reconstructed visual data: $\hat{Z}_i=FC_v3(FC2(FC1(F_i)))$
4. Reconstruction loss를 계산하여 각 parameter을 업데이트한다.
- $\mathcal L=min_\theta(\frac1K\sum_{i=1}^K||\hat{Y}_i-Y_i||_2^2+\mu||\hat{Z}_i-Z_i||_2^2)$
학습에 사용된 파라미터 수는 다음과 같다.
Data Preprocessing
Audio 데이터의 경우 16kHz로 resampling하였고, mono channel만을 이용했다. STFT를 이용해 구한 Spectogram을 input으로 사용했다. Center frame의 앞뒤로 2개의 frame을 덧붙혀서, 최종적으로 각 time step마다 257*5 dimension을 갖게 된다.
Visual 데이터의 경우 비디오 데이터에서 Viola-Jones method를 이용해 입모양 부분만 검출했고, 16*24 pixel로 crop했다. 마찬가지로 center frame의 앞뒤로 2개의 frame을 덧붙혀서, 최종적으로 각 time step마다 16*24*3*5 dimension을 갖게 된다 (RGB channel 포함).
Results
(a)가 clean speech (target), (b)가 noisy speech (input) 이다. 맨 아래 (g)가 AVDCNN으로 speech enhancement를 수행한 결과이다.
visual 데이터 역시 잘 복원됨을 확인할 수 있다.