Limit(0)

2022년 8월 26일 금요일

19.3 len 함수와 print함수

이어서 Variable 클래스를 더 확장하여 파이썬의 len함수와도 함께 사용할 수 있도록 하겠습니다. len은 객체 수를 알려주는 파이썬의 표준 함수입니다. 다음과 같이 사용할 수 있지요.

x = [ 1, 2, 3, 4]
len(x)
4

x = np.array([1, 2, 3, 4])
len(x)
4

x = np.array([[1, 2, 3], [4, 5, 6]])
len(x)
2

이와 같이 리스트 등에 len함수를 사용하면 그 안에 포함된 원소 수를 반환합니다. ndarray인스턴스라면 첫 번째 차원의 원소 수를 반환합니다. 이제 이 len 함수가 Variable안의 원소수도 인식하도록 해보겠습니다.

class Variable:
  def __init__(self, data, name=None):
    if data is not None:
      if not isinstance(data, np.ndarray):
        raise TypeError('{} is not supported', format(type(data)))
    
    self.data = data
    self.name = name
    self.grad = None
    self.creator = None
    self.generation = 0
    
  def set_creator(self, func):
    self.creator = func
    self.generation = func.generation + 1     


  def backward(self, retain_grad=False):
    if self.grad is None:
      self.grad = np.ones_like(self.data)


    funcs = []
    seen_set = set()

    def add_func(f):
      if f not in seen_set:
        funcs.append(f)
        seen_set.add(f)
        funcs.sort(key=lambda x: x.generation)
    
    add_func(self.creator)

    while funcs:
      f = funcs.pop()   

      # 수정전 gys = [output.grad for output in f.outputs]  
      gys = [output().grad for output in f.outputs]  #
      gxs = f.backward(*gys)   
      if not isinstance(gxs, tuple):  
        gxs = (gxs,)
      
      for x, gx in zip(f.inputs, gxs):  
        if x.grad is None:
          x.grad = gx
        else:
          x.grad = x.grad + gx

        if x.creator is not None:
          add_func(x.creator)
      
      if not retain_grad:
        for y in f.outputs:
          y().grad = None   # y는 약한 참조(weakref)

  def cleargrad(self):
    self.grad = None

  
  @property
  def shape(self):
    return self.data.shape

  @property
  def ndim(self):
    return self.data.ndim
  
  @property
  def size(self):
    return self.data.size

  @property
  def dtype(self):
    return self.data.dtype


  def __len__(self):
    return len(self.data)

이와 같이 __len__이라는 특수 메서드를 구현하면 Variable 인스턴스에 대해서도 len 함수를 사용할 수 있게 됩니다. 이제 다음과 같은 코드를 작성할 수 있습니다.

파이썬에서 __init__ 와 __len__등 특별한 의미를 지닌 메서드는 밑줄 두개로 감싼 이름을 사용합니다.

x = Variable(np.array([[1, 2, 3], [4, 5, 6]]))
print(len(x))
2

마지막으로 Variable의 내용을 쉽게 확인할 수 있는 기능을 추가합니다. 바로 print 함수를 사용하여 Variable의 안의 데이터 내용을 출력하는 기능입니다. 즉, 다음 예처럼 사용하고자 합니다.

x = Variable(np.array([1, 2, 3]))
print(x)
variable([1 2 3])

x = Variable(None)
print(x)
variable(None)

x = Variable(np.array([[1, 2, 3], [4, 5, 6]]))
print(x)
variable([[1 2 3]
          [4 5 6]])

이와 같이 Variable 인스턴스를 print 함수에 건네면 안에 담긴 ndarray인스턴스의 내용을 출력하도록 하겠습니다. 이때 출력 결과는 variable(...) 형태로 통일하여 사용자에게 Variable 인스턴스임을 알려줍니다. 값이 None이거나 내용을 여러 줄로 출력해야 하는 경우도 지원합니다. 여러 줄일때는 공백 문자로 시작 위치를 조정하여 보기 좋게 출력합니다. 다음은 이상의 조건을 만족하는 Variable의 __repr__메서드 모습입니다.

class Variable:
  def __init__(self, data, name=None):
    if data is not None:
      if not isinstance(data, np.ndarray):
        raise TypeError('{} is not supported', format(type(data)))
    
    self.data = data
    self.name = name
    self.grad = None
    self.creator = None
    self.generation = 0
    
  def set_creator(self, func):
    self.creator = func
    self.generation = func.generation + 1     


  def backward(self, retain_grad=False):
    if self.grad is None:
      self.grad = np.ones_like(self.data)


    funcs = []
    seen_set = set()

    def add_func(f):
      if f not in seen_set:
        funcs.append(f)
        seen_set.add(f)
        funcs.sort(key=lambda x: x.generation)
    
    add_func(self.creator)

    while funcs:
      f = funcs.pop()   

      # 수정전 gys = [output.grad for output in f.outputs]  
      gys = [output().grad for output in f.outputs]  #
      gxs = f.backward(*gys)   
      if not isinstance(gxs, tuple):  
        gxs = (gxs,)
      
      for x, gx in zip(f.inputs, gxs):  
        if x.grad is None:
          x.grad = gx
        else:
          x.grad = x.grad + gx

        if x.creator is not None:
          add_func(x.creator)
      
      if not retain_grad:
        for y in f.outputs:
          y().grad = None   # y는 약한 참조(weakref)

  def cleargrad(self):
    self.grad = None

  
  @property
  def shape(self):
    return self.data.shape

  @property
  def ndim(self):
    return self.data.ndim
  
  @property
  def size(self):
    return self.data.size

  @property
  def dtype(self):
    return self.data.dtype


  def __len__(self):
    return len(self.data)

  def __repr__(self):
    if self.data is None:
      return 'variable(None)'
    
    p = str(self.data).replace('\n', '\n' + ' ' * 9)
    return 'variable('+ p + ')'

이처럼 print 한수가 출력해주는 문자열을 입맛에 맞게 정의하려면 __repr__메서드를 재정의 하면 됩니다. 반환값을 출력하고자 하는 문자열입니다. 앞의 코드에서는 str(self.data)를 이용하여 ndarray 인스턴스를 문자열로 변환했습니다. str 할수 안에서는 ndarray 인스턴스의 __str__ 함수가 호출되고 숫자가 문자열로 반환됩니다. 줄바꿈(\n)이 있으면 줄을 바꾼 후 새로운 줄 앞에 공백9개를 삽입하여 여러 줄에 걸친 출력도 숫자의 시작 위치가 가지런하게 표시되게 했습니다. 마지막으로 변환된 문자열을 'variable(...)' 현태로 감쌉니다.

이상으로 Variable 클래스를 '투명한 상자'로 만드는 작업을 일부 끝마쳤습니다. 다음 단계에서도 이 작업을 계속 이어갈 것입니다.

19.2 ndarray 인스턴스 변수

Variable은 데이터를 담는 '상자'역할을 합니다. 그러나 사용하는 사람 입장에서 중요한 것은 상자가 아니라 그 안의 '데이터'입니다. 그래서 Variable이 데이터인 것처럼 보이게 하는 장치, 즉 상자를 투명하게 해주는 장치를 만들겠습니다.

1단계에서 언급했듯이 수치 계산과 머신러닝 시스템은 다차원 배열(텐서)을 기본 데이터 구조로 사용합니다. 따라서 Variable클래스는 (스칼라는 무시하고) ndarray만을 취급하기로 했습니다. 그래서 이번 절의 목표는 Variable 인스턴스를 ndarray 인스턴스처럼 보이게 하는 것입니다.

Variable 안에 ndarray 인스턴스가 있습니다. 넘파이의 ndarray 인스턴스에는 다차원 배열용 인스턴스 변수가 몇 가지 제공됩니다. 다음은 그중 하나인 shape 인스턴스 변수를 사용하는 모습입니다.

import numpy as np
x = np.array([[1, 2, 3], [4, 5, 6]])
x.shape

인스턴스 변수 shape는 다차원 배열의 형상을 알려줍니다. 참고로 앞의 결과에서 (2, 3)은 수학에서 말하는 2 * 3 행렬을 뜻합니다. 이제 똑같은 작업을 Variable 인스턴스에서도 할 수 있도록 확장하겠습니다.

class Variable:
  def __init__(self, data, name=None):
    if data is not None:
      if not isinstance(data, np.ndarray):
        raise TypeError('{} is not supported', format(type(data)))
    
    self.data = data
    self.name = name
    self.grad = None
    self.creator = None
    self.generation = 0
    
  def set_creator(self, func):
    self.creator = func
    self.generation = func.generation + 1     


  def backward(self, retain_grad=False):
    if self.grad is None:
      self.grad = np.ones_like(self.data)


    funcs = []
    seen_set = set()

    def add_func(f):
      if f not in seen_set:
        funcs.append(f)
        seen_set.add(f)
        funcs.sort(key=lambda x: x.generation)
    
    add_func(self.creator)

    while funcs:
      f = funcs.pop()   

      # 수정전 gys = [output.grad for output in f.outputs]  
      gys = [output().grad for output in f.outputs]  #
      gxs = f.backward(*gys)   
      if not isinstance(gxs, tuple):  
        gxs = (gxs,)
      
      for x, gx in zip(f.inputs, gxs):  
        if x.grad is None:
          x.grad = gx
        else:
          x.grad = x.grad + gx

        if x.creator is not None:
          add_func(x.creator)
      
      if not retain_grad:
        for y in f.outputs:
          y().grad = None   # y는 약한 참조(weakref)

  def cleargrad(self):
    self.grad = None

  
  @property
  def shape(self):
    return self.data.shape

shape라는 메서드를 추가한 후 실제 데이터의 shape를 반환하도록 했습니다. 여기서 중요한 부분은 def shape(self): dkvdp cnrkehls @property라는 한줄입니다. 이 한 줄 덕분에 shape 메서드를 인스턴스 변수처럼 사용할 수 있게 됩니다. 확인해 보겠습니다.

x = Variable(np.array([[1, 2, 3], [4, 5, 6]]))
print(x.shape)    # x.shape() 대신 x.shape로 호출할 수 있다.
(2, 3)

이와 같이 메서드 호출이 아닌 인스턴스 변수로 데이터의 형상을 얻을 수 있습니다. 같은 방법으로 ndarray의 다른 인스턴스 변수들을 Variable에 추가할 수 있습니다. 여기에서는 다음 세 인스턴스 변수를 더 추가하겠습니다.

class Variable:
  def __init__(self, data, name=None):
    if data is not None:
      if not isinstance(data, np.ndarray):
        raise TypeError('{} is not supported', format(type(data)))
    
    self.data = data
    self.name = name
    self.grad = None
    self.creator = None
    self.generation = 0
    
  def set_creator(self, func):
    self.creator = func
    self.generation = func.generation + 1     


  def backward(self, retain_grad=False):
    if self.grad is None:
      self.grad = np.ones_like(self.data)


    funcs = []
    seen_set = set()

    def add_func(f):
      if f not in seen_set:
        funcs.append(f)
        seen_set.add(f)
        funcs.sort(key=lambda x: x.generation)
    
    add_func(self.creator)

    while funcs:
      f = funcs.pop()   

      # 수정전 gys = [output.grad for output in f.outputs]  
      gys = [output().grad for output in f.outputs]  #
      gxs = f.backward(*gys)   
      if not isinstance(gxs, tuple):  
        gxs = (gxs,)
      
      for x, gx in zip(f.inputs, gxs):  
        if x.grad is None:
          x.grad = gx
        else:
          x.grad = x.grad + gx

        if x.creator is not None:
          add_func(x.creator)
      
      if not retain_grad:
        for y in f.outputs:
          y().grad = None   # y는 약한 참조(weakref)

  def cleargrad(self):
    self.grad = None

  
  @property
  def shape(self):
    return self.data.shape

  @property
  def ndim(self):
    return self.data.ndim
  
  @property
  def size(self):
    return self.data.size

  @property
  def dtype(self):
    return self.data.dtype

보다시피 ndim, size, dtype이라는 3개의 인스턴스 변수를 추가했습니다. ndim은 차원 수, size는 원소 수, dtype은 데이터 타입을 나타냅니다. 이상으로 Variable에 필요한 인스턴스 변수를 모두 추가했습니다. 이외에도 ndarray에는 많은 인스턴스 변수가 존재하며, 그 모두를 추가할 수도 있습니다. 하지만 단순한 작업이라서 지면으로 설명하지 않겠습니다. 더 필요한 독자는 직접 추가햅조기 바랍니다.

이 책은 지금까지 ndarray 인스턴스의 데이터 타입의 dtype은 특별히 의식하지 않고 이야기를 진행했습니다. dtype을 지정하지 않으면 ndarray인스턴스는 (환경에 따라) float64 또는 int64로 초기화됩니다. 한편 신경망에서는 float32를 사용하는 경우가 많습니다.

2022년 8월 25일 목요일

19.1 변수 이름 지정

앞으로 우리는 수많은 변수를 처리할 것이라서 변수들을 서로 구분할 필요가 없습니다. 변수에 '이름'을 붙여줄 수 있도록 설정하면 해결되겠군요. 그래서 다음과 같이 Variable클래스에 name이라는 인스턴스 변수를 추가했습니다.

class Variable:
  def __init__(self, data, name=None):
    if data is not None:
      if not isinstance(data, np.ndarray):
        raise TypeError('{} is not supported', format(type(data)))
    
    self.data = data
    self.name = name
    self.grad = None
    self.creator = None
    self.generation = 0
    
  def set_creator(self, func):
    self.creator = func
    self.generation = func.generation + 1     


  def backward(self, retain_grad=False):
    if self.grad is None:
      self.grad = np.ones_like(self.data)


    funcs = []
    seen_set = set()

    def add_func(f):
      if f not in seen_set:
        funcs.append(f)
        seen_set.add(f)
        funcs.sort(key=lambda x: x.generation)
    
    add_func(self.creator)

    while funcs:
      f = funcs.pop()   

      # 수정전 gys = [output.grad for output in f.outputs]  
      gys = [output().grad for output in f.outputs]  #
      gxs = f.backward(*gys)   
      if not isinstance(gxs, tuple):  
        gxs = (gxs,)
      
      for x, gx in zip(f.inputs, gxs):  
        if x.grad is None:
          x.grad = gx
        else:
          x.grad = x.grad + gx

        if x.creator is not None:
          add_func(x.creator)
      
      if not retain_grad:
        for y in f.outputs:
          y().grad = None   # y는 약한 참조(weakref)

  def cleargrad(self):
    self.grad = None

이와 같이 초기화 인수 name=None을 추가하고 그 값을 인스턴스 변수 name에 설정합니다. 이제 예컨대 x = Variable(np.array(1.0)), 'input_x')라고 작성하면 변수 x의 이름은 input_x가 됩니다. 아무런 이름도 주지 않으면 변수명으로 None이 할당됩니다.

변수에 이름을 붙일 수 있다면, 예컨대 계산 그래프를 시작화할 때 변수 이름을 그래프에 표시할 수 있습니다. 계산 그래프 시각화는 25단계와 26단계를 참고하세요.

STEP 19 변수 사용성 개선

DeZero의 기초는 이미 완성했습니다. 지금 상태로도 계산 그래프를 만들고 자동으로 미분을 계산할 수 있습니다. 그래서 앞으로 할 일은 DeZero를 더 쉽게 사용하도록 개선하는 작업입니다.

그 첫걸음으로, 이번 단계에서는 Variable 클래스를 더욱 쉽게 사용할 수 있게 해보겠습니다.

2022년 8월 24일 수요일

18.5 with 문을 활용한 모드 전환

파이썬에는 with라고 하는, 후처리를 자동으로 수행하고자 할 때 사용할 수 있는 구문이 있습니다. 대표적인 예는 파일의 open과 close입니다. 예를 들어 with문 없이 파일에 무언가를 쓰려면 다음처럼 작성해야 합니다.

f = open('sample.txt', 'w')
f.write('hello world!')
f.close()

보다시피 open()으로 파일을 열고, 무언가를 쓰고, close()로 파일을 닫습니다. 이때 매번 close()하기란 귀찮기도 하거니와 깜빡하고 잊어버릴 때도 있습니다. with문은 이런 실수를 막아줍니다.

with open('sample.txt', 'w') as f:
  f.write('hello world!')

이 코드에서는 with블록에 들어갈 때 파일이 열립니다. with블록 안에서 파일은 계속 열린 상태고 블록을 빠져나올때(사용자에게 보이지 않는 곳에서) 자동으로 닫힙니다. 이와 같이 with문을 사용하는 것으로 'with 블록에 들어갈 때의 처리(후처리)'를 자동으로 할 수 있습니다.

이런한 with문의 원리를 이용하여 '역전파 비활성 모드'로 전화하려 합니다. 구체적으로 다음과 같은 식으로 사용하려 합니다(using_config 메서드의 구현은 조금 뒤에 설명합니다.).

with using_config('enable_backprop', False):
  x = Variable(np.array(2.0)
  y = square(x)

이와 같이 with using_config('enable_backprop', False): 안에서만 '역전파 비활성 모드'가 됩니다. 그리고 with블록을 벗어나면 일반 모드, 즉 '역전파 활성 모드'로 돌아갑니다.

'역전파 비활성 모드'로 일시적으로 전환하는 방법은 실전에서 자주 사용됩니다. 예컨대 신경망 학습에서는 모델 평가를 (학습 도중에)하기 위해 기울기가 필요 없는 모드를 사용하는 일이 자주 발생합니다.

그럼 with문을 사용한 모드 전환을 구현해볼까요? contextlib모듈을 사용하면 가장 쉽게 구현할 수 있습니다. 우선 contextlib모듈 사용법을 설명하겠습니다.

import contextlib

@contextlib.contextmanager
def config_test():
  print('start')      # 전처리
  try:
    yield
  finally:
    print('done')     # 후처리

with config_test():
  print('process...')


start
process...
done

앞의 코드처럼 @contextlib.contextmanager 데코레이터를 달면 문맥(context)을 판단하는 함수가 만들어집니다. 그리고 이 함수 안에서 yield전에는 전처리 로직은, yield 다음에는 후처리 로직을 작성합니다. 그러면 with config_test(): 형태의 구문을 사용할 수 있습니다. 이 구문을 사용하면 with블록 안으로 들어갈 때 전처리가 실행되고 블록 범위를 빠져나올 때 후처리가 실행됩니다.

with 블록 안에서예외가 발생할 수 있고, 발생한 예외는 yield를 실행하는 코드로 전달 됩니다. 따라서 yield는 try/finaliy로 감싸야 합니다.

이상을 바탕으로 using_config 함수를 다음과 같이 구현할 수 있습니다.

import contextlib

@contextlib.contextmanager
def using_config(name, value):
  old_value = getattr(Config, name)
  setattr(Config, name, value)
  try:
    yield
  finally:
    setattr(Config, name, old_value)

using_config(name, value)의 인수 중 name은 타입이 str이며, 사용할 Config속성의 이름(클래스 속성 이름)을 가리킵니다. 그리고 nmae을 getattr 함수에 넘겨 Config클래스에서 커내옵니다. 그런 다음 setattr함수를 사용하여 새로운 값을 설정합니다.

이제 with 블록에 들어갈 때 name으로 지정한 Config 크래스 속성이 value로 설정됩니다. 그리고 with블록에 빠져나오면서 원래 값(old_value)으로 복원됩니다. 그럼 using_config 함수를 실제로 사용해보죠.

with using_config('enable_backprop', False):
  x = Variable(np.array(2.0))
  y = square(x)

이와 같이 역전파가 필요 없는 경우에는 with 블록에서 순전파 코드만 실행합니다. 이제 불플요한 계산을 생략하고 메모리를 절약할 수 있습니다. 그러나 with using_config('enable_backprop', False): 라는 긴 코드를 매번 적어주기는 귀찮은 일이니 다음과 같이 no_grad라는 편의 함수를 준비했습니다.

def no_grad():
  return using_config('enable_backprop', False)

with no_grad():
  x = Variable(np.array(2.0))
  y = square(x)

no_grad 함수는 단순히 using_conig('enable_backprop', False)를 호출하는 코드를 return으로 돌려줄 뿐입니다. 이제 기울기가 필요 없을 때는 no_grad함수를 호출하면 됩니다.

이상으로 이번 단계를 마칩니다. 앞으로는 기울기 계산이 필요 없을 때, 즉 단순히 순전파 계산만 필요할 때는 방금 구현한 '모드 전환'을 사용하겠 습니다.

2022년 8월 21일 일요일

18.4 모드 전환

이상으로 역전파 활성/비활성을 구분 짓는 구조가 만들어졌습니다. 이 구조를 활용하면 다음과 같이 모드를 전환할 수 있습니다.

Config.enable_backprop = True
x = Variable(np.ones((100, 100, 100)))
y = square(square(square(x)))
y.backward()

Config.enable_backprop = False
x = Variable(np.ones((100, 100, 100)))
y = square(square(square(x)))

일부러 큰 다차원 배열을 준비해보았습니다. 형상이 (100, 100, 100)인 턴서입니다. 이 텐서에 square함수를 세번 적용합니다(그러면 원소별 제곱이 이루어집니다). 이때 Config. enable_backprop이 True면 중간 계산 결과가 (적어도 역전파가 완료되기 전까지는) 계속 유지되어 그만큼 메모리를 차지합니다. 한편 Config.enable_backprop이 False면 중간 계산 결과는 사용 후 곧바로 삭제됩니다(정확하게는 다른 객체에서의 참조가 없어지는 시점에 메모리에서 삭제됩니다).

이상으로 역전파 모드를 전환하는 구조가 완성되었습니다. 이어서 모드 전환을 더 쉽게 해주는 구조를 만들어볼까 합니다.

18.3 Config 클래스를 활요한 모드 전환

이제부터 순전파만 할 경우를 위한 개선을 DeZero에 추가하겠습니다. 우선 두 가지 모드, 즉 '역전파 활성 모드'와 '역전파 비활성 모드'를 전환하는 구조가 필요합니다. 간단히 다음 Config클래스를 이용할 것입니다.

보시다시피 아주 간단한 클래스입니다. 이 클래스의 속성은 (현재) 불러언 타입인 enable_backprop만 존재합니다. enable_backprop은 역전파가 가능한지 여부를 뜻하고, 이 값이 True면 '역전파 활성 모드'입니다.

설정 데이터는 단 한 군데에만 존재하는 게 좋습니다. 그래서 Config클래스는 인스턴스화하지 않고 '클래스' 상태로 이용합니다. 인스턴스는 여러 개 생성할 수 있지만 클래스는 항상 하나만 존재하기 때문이죠. 따라서 앞 코드에서 Config 클래스가 '클래스 속성'을 갖도록 설정했습니다.

Config클래스를 정의했으니 Function에서 참조하게 하여 모드를 전환할 수 있게 하겠습니다. 코드로는 다음과 같습니다.

import weakref    
class Function(object):
  def __call__(self, *inputs):
    xs = [x.data for x in inputs]
    ys = self.forward(*xs)  
    if not isinstance(ys, tuple):   
      ys = (ys,)
    outputs = [Variable(as_array(y)) for y in ys]

    if Config.enable_backprop:
      self.generation = max([x.generation for x in inputs]) # 1 세대 설정

      for output in outputs:
        output.set_creator(self)                            # 연결 설정   
      self.inputs = inputs  
      self.outputs = [weakref.ref(output) for output in outputs]  
   
    return outputs if len(outputs) > 1 else outputs[0]

이와 같이 Config.enable_Backprop이 True일 때만 역전파 코드가 실행됩니다. 1 에서 정하는 '세대'는 역전파 시 노드를 따라가는 순서를 정하는 데 사용됩니다. 따라서 '역전파 비활성 모드'에서는 필요하지 않습니다. 또한 2의 output.set_creator(self)는 계산들의 '연결'을 만드는데, 마찬가지로 '역전파 비활성 모드'에서는 필요 없습니다.