반응형

🌌 Deep Learning/논문 리뷰 [KOR] 24

카카오브레인 Multimodal LLM Honeybee 논문 리뷰

카카오브레인에서 작년 말 Multimodal LLM인 Honeybee를 발표했다. 아쉽게도 한국어 모델은 아니고 영어 모델이고, 5개의 벤치마크에서 SoTA를 달성했다고 해서 뉴스가 엄청 많이 나왔다. 논문: https://arxiv.org/pdf/2312.06742.pdf 깃헙: https://github.com/kakaobrain/honeybee GitHub - kakaobrain/honeybee: The official implementation of project "Honeybee" The official implementation of project "Honeybee". Contribute to kakaobrain/honeybee development by creating an account o..

[딥러닝 논문리뷰] MeZO: Fine-Tuning Language Models with Just Forward Passes (NeurIPS 2023)

논문 링크: https://arxiv.org/pdf/2305.17333.pdf 발표 영상: https://neurips.cc/virtual/2023/poster/71437 코드: https://github.com/princeton-nlp/MeZO NeurIPS 2023 Abstract: Fine-tuning language models (LMs) has yielded success on diverse downstream tasks, but as LMs grow in size, backpropagation requires a prohibitively large amount of memory. Zeroth-order (ZO) methods can in principle estimate gradients us..

[딥러닝 논문리뷰] AIM: Scalable Pre-training of Large Autoregressive Image Models (Apple, 2024)

Apple에서 2024년 1월 large pretrained image model인 AIM(Autoregressive Image Models)을 발표했다. 코드와 model weight이 Github에 공개되어 있다. 논문 링크: https://arxiv.org/pdf/2401.08541.pdf GitHub: https://github.com/apple/ml-aim/tree/main AIM은 LLM에 영감을 받아 만들어진 대규모 vision 모델이다. BEiT (2021), Masked autoencoder(MAE) (2021) 등이 masked language modeling (MLM)을 통해 사전학습 시킨 것과 다르게, 주어진 패치로 다음 패치를 예측하는 autoregressive object를 이용..

Apple의 Multimodal LLM Ferret 논문 리뷰

Apple에서 2023년 10월 내놓은 Multimodal LLM인 Ferret의 논문이다. 모델 크기는 7B, 13B 두가지이며 Github에 코드와 checkpoint가 공개되어 있고, 비상업적 용도로 사용가능하다. 논문 링크: https://arxiv.org/pdf/2310.07704.pdf Github: https://github.com/apple/ml-ferret GitHub - apple/ml-ferret Contribute to apple/ml-ferret development by creating an account on GitHub. github.com Introduction Vision-language learning 모델의 주요한 두 capability는 referring과 groun..

[딥러닝 논문리뷰] AdamP: Slowing Down the Slowdown for Momentum Optimizers on Scale-invariant Weights (Naver AI Lab, ICLR 2021)

Adam의 문제점을 극복하는 새로운 optimizer인 AdamP를 제안하는 논문으로, Naver AI Lab & Naver Clova에서 ICLR 2021에 발표하였다. Paper: https://arxiv.org/pdf/2006.08217.pdf Project page: https://clovaai.github.io/AdamP/ Code: https://github.com/clovaai/adamp 1. Adam의 문제점 요약: Adam을 비롯한 momentum-based gradient descent optimzer들은 학습 도중 weight norm을 크게 증가시킨다. 그 원인은 다음과 같다. 대부분의 모델들에서 Batch normalization 등의 normalization 기법들을 사용해 we..

[딥러닝 논문리뷰] Audio-Visual Speech Enhancement Using Multimodal Deep Convolutional Neural Networks

Multimodal (Audio, visual) 데이터를 이용해 speech enhancement를 수행한 논문이다. 논문 링크: https://arxiv.org/ftp/arxiv/papers/1703/1703.10893.pdf Introduction Speech enhancement (SE)란 speech signal의 잡음 제거를 의미한다. 대부분의 SE 기술들은 audio 데이터만을 이용하지만, 본 논문에서는 visual 데이터 (입모양 이미지)를 함께 이용해 SE의 성능을 높이는 데 성공했다. Method 본 논문에서 제안하는 Audio-Visual Deep CNN (AVDCNN) SE 모델은 audio-visual encoder-decoder network 구조를 가진다. 1. 우선, CNN을 ..

[딥러닝 논문리뷰 + 코드] PointCutMix: Regularization Strategy for Point Cloud Classification (Neurocomputing 2022)

CutMix augmentation을 포인트클라우드 데이터에 적용한 논문이다. 두 포인트클라우드 데이터 간의 일대일 대응관계를 찾고, 이를 바탕으로 두 데이터를 섞는 두 가지 방법을 제안했다. Paper: https://arxiv.org/pdf/2101.01461.pdf Code: https://github.com/cuge1995/PointCutMix Introduction 이미지 데이터에 대해 mixed sample data augmentation (MSDA)가 활발하게 사용되어 왔다. 대표적인 예시는 MixUp (Zhang et al., 2018)과 CutMix (Yun et al., 2019) 가 있다. 본 논문에서는 포인트클라우드 데이터에 대해 CutMix를 수행하는 PointCutMix를 제안한..

[딥러닝 논문리뷰] PointMLP - Rethinking Network Design and Local Geometry in Point Cloud: A Simple Residual MLP Framework (ICLR 2022)

ICLR 2022에서 발표된 Pointcloud analysis를 위한 모델이다. 기존 Pointcloud analysis 모델들은 복잡한 local geometric extractor들을 이용해 왔는데, 이들과 달리 매우 간단한 구조로 SOTA를 달성할 수 있음을 보였다. Paper, Code 1. Introduction 기존 pointcloud 모델들은 3D geometric을 포착하기 위해 convolution, graph, attention 등 매우 복잡한 local geometric extractor들을 이용했는데, 이들은 computational overhead가 너무 크다는 단점이 있다. 저자들은 pointcloud analysis의 핵심은 detailed local geometrical i..

[딥러닝 논문리뷰] SimSiam: Exploring Simple Siamese Representation Learning (CVPR 2021)

CVPR 2021에서 발표된 self-supervised learning 논문. 기존의 다른 self-supervised learning 방법인 SimCLR, SwAV, BYOL과의 비교를 통해 제안된 방법을 설명하고 있다. 개인적으로 문장이나 전체적인 구조가 매우 이해하기 쉽게 잘 쓰여져 있다고 느꼈다. 논문 링크 Introduction Self-supervsied learning에서는 보통 Siamese network 구조를 많이 이용한다. 이는 weight를 서로 공유하는 neural network를 의미하는데, 이들은 각 entity를 비교하는 데에 유용하게 사용될 수 있다. 그러나 Siamese network는 output이 하나의 constant로 수렴하는 collapsing이 발생할 수 있다..

[딥러닝 논문리뷰 + 코드] What uncertainties do we need in Bayesian deep learning for computer vision? (NeurIPS 2017)

논문: https://arxiv.org/pdf/1703.04977.pdf Epistemic uncertainty와 aleatoric uncertainty를 동시에 측정할 수 있게 해주는 방법을 소개한 논문이다. 논문을 간단히 정리하고 PyTorch 코드를 함께 소개하고자 한다. Uncertainty의 종류 1. Epistemic uncertainty (=Model uncertainty) 모델구조나 학습과정에서 발생하는 uncertainty이다. 모델이 충분히 학습되지 않았을 수도 있고, 전체 데이터 분포를 다 학습하지 못했을 수도 있고, 모델의 구조가 지나치게 단순하거나 복잡할 수도 있다. Epistemic uncertainty는 데이터셋 보강, 모델 구조 수정, 학습 방법 변경 등의 방법으로 줄일 수 ..

반응형