반응형

딥러닝 논문리뷰 12

[딥러닝 논문리뷰] Audio-Visual Speech Enhancement Using Multimodal Deep Convolutional Neural Networks

Multimodal (Audio, visual) 데이터를 이용해 speech enhancement를 수행한 논문이다. 논문 링크: https://arxiv.org/ftp/arxiv/papers/1703/1703.10893.pdf Introduction Speech enhancement (SE)란 speech signal의 잡음 제거를 의미한다. 대부분의 SE 기술들은 audio 데이터만을 이용하지만, 본 논문에서는 visual 데이터 (입모양 이미지)를 함께 이용해 SE의 성능을 높이는 데 성공했다. Method 본 논문에서 제안하는 Audio-Visual Deep CNN (AVDCNN) SE 모델은 audio-visual encoder-decoder network 구조를 가진다. 1. 우선, CNN을 ..

[딥러닝 논문리뷰 + 코드] PointCutMix: Regularization Strategy for Point Cloud Classification (Neurocomputing 2022)

CutMix augmentation을 포인트클라우드 데이터에 적용한 논문이다. 두 포인트클라우드 데이터 간의 일대일 대응관계를 찾고, 이를 바탕으로 두 데이터를 섞는 두 가지 방법을 제안했다. Paper: https://arxiv.org/pdf/2101.01461.pdf Code: https://github.com/cuge1995/PointCutMix Introduction 이미지 데이터에 대해 mixed sample data augmentation (MSDA)가 활발하게 사용되어 왔다. 대표적인 예시는 MixUp (Zhang et al., 2018)과 CutMix (Yun et al., 2019) 가 있다. 본 논문에서는 포인트클라우드 데이터에 대해 CutMix를 수행하는 PointCutMix를 제안한..

[딥러닝 논문리뷰] SimSiam: Exploring Simple Siamese Representation Learning (CVPR 2021)

CVPR 2021에서 발표된 self-supervised learning 논문. 기존의 다른 self-supervised learning 방법인 SimCLR, SwAV, BYOL과의 비교를 통해 제안된 방법을 설명하고 있다. 개인적으로 문장이나 전체적인 구조가 매우 이해하기 쉽게 잘 쓰여져 있다고 느꼈다. 논문 링크 Introduction Self-supervsied learning에서는 보통 Siamese network 구조를 많이 이용한다. 이는 weight를 서로 공유하는 neural network를 의미하는데, 이들은 각 entity를 비교하는 데에 유용하게 사용될 수 있다. 그러나 Siamese network는 output이 하나의 constant로 수렴하는 collapsing이 발생할 수 있다..

[딥러닝 논문리뷰 + 코드] What uncertainties do we need in Bayesian deep learning for computer vision? (NeurIPS 2017)

논문: https://arxiv.org/pdf/1703.04977.pdf Epistemic uncertainty와 aleatoric uncertainty를 동시에 측정할 수 있게 해주는 방법을 소개한 논문이다. 논문을 간단히 정리하고 PyTorch 코드를 함께 소개하고자 한다. Uncertainty의 종류 1. Epistemic uncertainty (=Model uncertainty) 모델구조나 학습과정에서 발생하는 uncertainty이다. 모델이 충분히 학습되지 않았을 수도 있고, 전체 데이터 분포를 다 학습하지 못했을 수도 있고, 모델의 구조가 지나치게 단순하거나 복잡할 수도 있다. Epistemic uncertainty는 데이터셋 보강, 모델 구조 수정, 학습 방법 변경 등의 방법으로 줄일 수 ..

[딥러닝 논문리뷰] Momentum Contrast for Unsupervised Visual Representation Learning (MoCo) (CVPR 2020)

SimCLR와 함께 가장 유명한 contrastive learning-based self-supervised learning 논문이다. CVPR 2020에서 발표된 논문이고, Kaiming He가 저자로 참여하였다. Paper, Code GitHub - facebookresearch/moco: PyTorch implementation of MoCo: https://arxiv.org/abs/1911.05722 PyTorch implementation of MoCo: https://arxiv.org/abs/1911.05722 - GitHub - facebookresearch/moco: PyTorch implementation of MoCo: https://arxiv.org/abs/1911.05722 gith..

[딥러닝 논문리뷰] CSI: Novelty Detection via Contrastive Learning on Distributionally Shifted Instances (NeurIPS 2020)

NeurIPS 2020에서 발표된 CSI: Novelty Detection via Contrastive Learning on Distributionally Shifted Instances 라는 논문이다. Out-of-distribution detection에 SimCLR을 토대로 한 contrastive learning을 적용하였다. 논문: https://arxiv.org/pdf/2007.08176.pdf 코드: https://github.com/alinlab/CSI Abstract Novelty detection이라고도 부르는 Out-of-distribution (OOD) detection은, 주어진 sample이 training distribution 내부의 것인지 (in-distribution), ..

[딥러닝 논문리뷰 + 코드] CoordConv: An intriguing failing of convolutional neural networks and the CoordConv solution (NeurIPS 2018)

NeurIPS 2018에서 발표된 논문이다. 매우 간단한 toy set에서 standard convolution layer의 맹점을 보였으며, coordinate 정보를 extra channel에 포함시키는 매우 간단한 방식으로 convolution layer의 성능을 높일 수 있는 CoordConv를 제안하였다. Paper: https://proceedings.neurips.cc/paper/2018/file/60106888f8977b71e1f15db7bc9a88d1-Paper.pdf Code: https://github.com/uber-research/coordconv Abstract 본 논문에서는, convolution 구조가 잘 동작하지 않는 example인 coordinate transform p..

[딥러닝 논문리뷰] DANet: Dual Attention Network for Scene Segmentation (CVPR 2019)

CVPR 2019에 발표된 Dual Attention Network for Scene Segmentation이다. Scene segmentation에 attention을 적용하여 성능을 향상시켰다. 논문 링크: https://openaccess.thecvf.com/content_CVPR_2019/papers/Fu_Dual_Attention_Network_for_Scene_Segmentation_CVPR_2019_paper.pdf Code: https://github.com/junfu1115/DANet Abstract - self-attention을 이용해 scene segmentation task에서 rich contextual dependency를 포착는 것을 목표로 한다. - 기존의 attention..

[GAN Overview] GAN 주요 모델 정리 (GAN survey 논문 리뷰)

Generative Adversarial Networks in Computer Vision: A Survey and Taxonomy (CSUR 2021) 을 바탕으로, 중요한 GAN 모델들을 정리해 보고자 합니다. 논문에는 더 다양한 모델들이 소개되어 있으나, 그 중 일부만 정리하였습니다. GAN에 대해 어느 정도 배경지식이 있는 분들을 위한 글이며, 본 논문에서는 각 모델에 대한 간단한 요약만 포함하고 있어, 추가로 조사한 내용을 포함시켰으며 참고할 만한 외부 글들은 링크를 걸어놓았습니다. Paper: https://dl.acm.org/doi/pdf/10.1145/3439723 Code: https://github.com/sheqi/GAN_Review 목차는 다음과 같습니다. Introduction B..

[딥러닝 논문리뷰] Decoupling Representation and Classifier for Long-Tailed Recognition (ICLR 2020)

논문: https://arxiv.org/abs/1910.09217 코드: https://github.com/facebookresearch/classifier-balancing [ENG] https://bo-10000.tistory.com/110 [Review] Decoupling Representation and Classifier for Long-Tailed Recognition (ICLR 2020) Paper: https://arxiv.org/abs/1910.09217 Code: https://github.com/facebookresearch/classifier-balancing [KOR] https://bo-10000.tistory.com/109 [딥러닝 논문리뷰] Decoupling Represe..

반응형