[PyTorch] Autograd 작동방식 알아보기

🐍 Python & library/PyTorch

복만 2023. 12. 2. 23:20

위 동영상에서 PyTorch Autograd를 이해하기 쉽게 설명해주고 있다. 다음은 위 동영상을 간단히 정리한 글이다.

1. torch.Tensor

각 tensor은 다음의 attr을 갖는다

data: tensor의 값
grad: tensor의 gradient 값. is_leaf인 경우에만 gradient가 자동으로 저장된다.
grad_fn: gradient function. 해당 tensor가 어떤 연산을 통해 forward되었는지에 따라 결정된다.
- ex) a * b = c 인 경우 c의 grad_fn은 MulBackward이다.
- is_leaf인 경우 None
is_leaf: (backward 기준) 가장 마지막 tensor인지
requires_grad: 계산 그래프의 일부로 들어갈 것인지

grad_fn은 다음의 attr을 갖는다.

saved_tensors: forward 연산으로부터 받음
- 계산그래프에 포함되지 않은 in_place 연산 등으로 인해 tensor 값이 변경되는 경우를 대비하여 계산 당시의 tensor 값을 context 변수에 저장해 놓는다.
- 만약 "Add"처럼 이전 tensor 값이 필요하지 않은 연산의 경우 context 변수가 값을 저장해 두지 않아도 된다.
next_functions: 다음 tuple로 구성된 list
- backward기준으로 다음 tensor의 grad_fn
  - is_leaf이고 requires_grad일 경우 AcummulateGrad - 계산된 gradient를 self.grad에 저장
  - is_leaf이고 requires_grad가 아닐 경우 None
- grad_fn의 몇번째 input으로 전달될 것인지
  - 보통은 grad_fn이 하나의 input만 받지만 forward 연산의 output이 여러개인 경우 grad_fn이 여러개의 input을 받을 수 있다

tensor의 backward() 연산이 호출되면 해당 tensor은 gradient 1로 시작한다. 이 값이 grad_fn을 타고 흘러간다.

이전 tensor의 gradient가 MulBackward로 전달
- 1 → MulBackward
다음 tensor의 gradient를 계산하여 next_function으로 전달
- 다음 tensor의 gradient = 현재 연산에서의 gradient x 이전 tensor의 gradient (chain rule)
- 4 → Mulbackward
- 6 → AccumulateGrad
AccumulateGrad 함수는 해당 tensor의 grad에 gradient 저장

gradient는 is_leaf인 경우에만 저장된다. leaf가 아닌 tensor의 gradient는 저장되지 않고 grad_fn을 따라 전달되기만 한다.

그러나 intermediate tensor에도 gradient를 저장하고 싶다면 tensor.retain_grad() 메소드를 사용하면 된다.

PyTorch 2.0에서 달라지는 점 - torch.compile (1)	2023.05.06
[PyTorch] tensor.detach()의 기능과 예시 코드 (0)	2022.10.30
[PyTorch] nn.Embedding 초기화하기 (initialization) (0)	2022.10.27
Numpy & PyTorch로 2D fourier transform, inverse fourier transform하기 (1)	2022.08.27
[PyTorch] make_grid로 여러 개의 이미지 한번에 plot하기 (0)	2022.07.29

🐬