[딥러닝 논문리뷰] Audio-Visual Speech Enhancement Using Multimodal Deep Convolutional Neural Networks

🌌 Deep Learning/논문 리뷰 [KOR]

[딥러닝 논문리뷰] Audio-Visual Speech Enhancement Using Multimodal Deep Convolutional Neural Networks

복만 2022. 9. 21. 20:28

Multimodal (Audio, visual) 데이터를 이용해 speech enhancement를 수행한 논문이다.

논문 링크: https://arxiv.org/ftp/arxiv/papers/1703/1703.10893.pdf

Introduction

Speech enhancement (SE)란 speech signal의 잡음 제거를 의미한다.

대부분의 SE 기술들은 audio 데이터만을 이용하지만, 본 논문에서는 visual 데이터 (입모양 이미지)를 함께 이용해 SE의 성능을 높이는 데 성공했다.

Method

본 논문에서 제안하는 Audio-Visual Deep CNN (AVDCNN) SE 모델은 audio-visual encoder-decoder network 구조를 가진다.

1. 우선, CNN을 이용해 Audio 데이터 $X$ 와 visual 데이터 $Z$ 로부터 각각의 feature을 추출한다.

Audio feature: $A_i=Conv_a2(Pool_a1(Conv_a1(X_i)))$
Visual feature: $V_i=Conv_v3(Conv_v2(Conv_v1(Z_i)))$

2. 추출한 feature을 flatten한 후, concatenate하여 하나의 feature로 합친다.

$F_i=[A_i' V_i']'$

3. 합쳐진 feature을 fc layer에 통과시킨 후, 두 개의 서로 다른 fc layer에 통과시켜 원본 audio와 visual 데이터를 복원한다.

Reconstructed audio data: $\hat{Y}_i=FC_a3(FC2(FC1(F_i)))$
Reconstructed visual data: $\hat{Z}_i=FC_v3(FC2(FC1(F_i)))$

4. Reconstruction loss를 계산하여 각 parameter을 업데이트한다.

$\mathcal L=min_\theta(\frac1K\sum_{i=1}^K||\hat{Y}_i-Y_i||_2^2+\mu||\hat{Z}_i-Z_i||_2^2)$

학습에 사용된 파라미터 수는 다음과 같다.

Data Preprocessing

Audio 데이터의 경우 16kHz로 resampling하였고, mono channel만을 이용했다. STFT를 이용해 구한 Spectogram을 input으로 사용했다. Center frame의 앞뒤로 2개의 frame을 덧붙혀서, 최종적으로 각 time step마다 257*5 dimension을 갖게 된다.

Visual 데이터의 경우 비디오 데이터에서 Viola-Jones method를 이용해 입모양 부분만 검출했고, 16*24 pixel로 crop했다. 마찬가지로 center frame의 앞뒤로 2개의 frame을 덧붙혀서, 최종적으로 각 time step마다 16*24*3*5 dimension을 갖게 된다 (RGB channel 포함).

Results

(a)가 clean speech (target), (b)가 noisy speech (input) 이다. 맨 아래 (g)가 AVDCNN으로 speech enhancement를 수행한 결과이다.

visual 데이터 역시 잘 복원됨을 확인할 수 있다.

'🌌 Deep Learning > 논문 리뷰 [KOR]' 카테고리의 다른 글

Apple의 Multimodal LLM Ferret 논문 리뷰 (2)	2024.01.07
[딥러닝 논문리뷰] AdamP: Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights (Naver AI Lab, ICLR 2021) (0)	2023.07.23
[딥러닝 논문리뷰 + 코드] PointCutMix: Regularization Strategy for Point Cloud Classification (Neurocomputing 2022) (0)	2022.09.14
[딥러닝 논문리뷰] PointMLP - Rethinking Network Design and Local Geometry in Point Cloud: A Simple Residual MLP Framework (ICLR 2022) (0)	2022.08.21
[딥러닝 논문리뷰] SimSiam: Exploring Simple Siamese Representation Learning (CVPR 2021) (2)	2022.08.19

현재글[딥러닝 논문리뷰] Audio-Visual Speech Enhancement Using Multimodal Deep Convolutional Neural Networks

🐬

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

IBOK