🌌 Deep Learning/논문 리뷰 [KOR]

[딥러닝 논문리뷰] Audio-Visual Speech Enhancement Using Multimodal Deep Convolutional Neural Networks

복만 2022. 9. 21. 20:28

Multimodal (Audio, visual) 데이터를 이용해 speech enhancement를 수행한 논문이다.

 

 

논문 링크: https://arxiv.org/ftp/arxiv/papers/1703/1703.10893.pdf

 

 

 

Introduction

Speech enhancement (SE)란 speech signal의 잡음 제거를 의미한다.

 

대부분의 SE 기술들은 audio 데이터만을 이용하지만, 본 논문에서는 visual 데이터 (입모양 이미지)를 함께 이용해 SE의 성능을 높이는 데 성공했다.

 

 

 

Method

본 논문에서 제안하는 Audio-Visual Deep CNN (AVDCNN) SE 모델은 audio-visual encoder-decoder network 구조를 가진다. 

 

 

1. 우선, CNN을 이용해 Audio 데이터 $X$와 visual 데이터 $Z$로부터 각각의 feature을 추출한다.

  • Audio feature: $A_i=Conv_a2(Pool_a1(Conv_a1(X_i)))$
  • Visual feature: $V_i=Conv_v3(Conv_v2(Conv_v1(Z_i)))$

 

 

2. 추출한 feature을 flatten한 후, concatenate하여 하나의 feature로 합친다.

  • $F_i=[A_i' V_i']'$

 

 

3. 합쳐진 feature을 fc layer에 통과시킨 후, 두 개의 서로 다른 fc layer에 통과시켜 원본 audio와 visual 데이터를 복원한다.

  • Reconstructed audio data: $\hat{Y}_i=FC_a3(FC2(FC1(F_i)))$
  • Reconstructed visual data: $\hat{Z}_i=FC_v3(FC2(FC1(F_i)))$

 

 

4. Reconstruction loss를 계산하여 각 parameter을 업데이트한다.

  • $\mathcal L=min_\theta(\frac1K\sum_{i=1}^K||\hat{Y}_i-Y_i||_2^2+\mu||\hat{Z}_i-Z_i||_2^2)$

 

 

학습에 사용된 파라미터 수는 다음과 같다.

 

 

 

Data Preprocessing

Audio 데이터의 경우 16kHz로 resampling하였고, mono channel만을 이용했다. STFT를 이용해 구한 Spectogram을 input으로 사용했다. Center frame의 앞뒤로 2개의 frame을 덧붙혀서, 최종적으로 각 time step마다 257*5 dimension을 갖게 된다.

 

Visual 데이터의 경우 비디오 데이터에서 Viola-Jones method를 이용해 입모양 부분만 검출했고, 16*24 pixel로 crop했다. 마찬가지로 center frame의 앞뒤로 2개의 frame을 덧붙혀서, 최종적으로 각 time step마다 16*24*3*5 dimension을 갖게 된다 (RGB channel 포함).

 

 

 

Results

 

(a)가 clean speech (target), (b)가 noisy speech (input) 이다. 맨 아래 (g)가 AVDCNN으로 speech enhancement를 수행한 결과이다.

 

 

visual 데이터 역시 잘 복원됨을 확인할 수 있다.

반응형