본문 바로가기
5급 공채 (행정고시)/2020년 나책형

[20행(나)-3940해] 2020년 5급 공채 (행정고시) PSAT 상황판단 나책형 39-40번 해설

by Topgemstone

문제

 

다음 글을 읽고 물음에 답하시오.

 

  ‘알파고는 기존 인공지능의 수읽기 능력뿐만 아니라 정책망과 가치망이라는 두 가지 인공신경망을 통해 인간 고수 못지않은 감각적 예측 능력(정책망)과 형세판단 능력(가치망)을 구현한 바둑 인공지능이다. 인간의 지능활동은 물리적인 차원에서 보면 뇌 안의 시냅스로 연결된 뉴런들이 주고받는 전기신호의 상호작용으로 인해 나타난다. 인공신경망은 인간의 뇌가 작동하는 방식에서 착안하여 만든 것이다.
  ‘학습을 거치지 않은 인공신경망은 무작위로 설정한 다수의 가중치를 갖고 있다. 이를 갖고 입력값을 처리했을 때 옳지 않은 출력값이 나온 경우, 올바른 결과를 도출하기 위해 가중치를 조절하는 것이 인공신경망의 학습과정이다. 따라서 오답에 따른 학습을 반복할수록 인공신경망의 정확도는 향상된다.
  알파고의 첫 번째 인공신경망인 정책망인간 고수라면 다음 수를 어디에 둘까?”를 예측한다. 입력(현 바둑판의 상황)과 출력(그 상황에서의 인간 고수의 착점) 사이의 관계를 간단한 함수로 표현할 수는 없다. 하지만 알파고는 일련의 사고가 단계별로 진행되므로 인공신경망의 입력과 출력 사이에 13개의 중간층을 둔 심층신경망을 통해 다음 수를 결정한다. 이 복잡한 인공신경망은 인간의 뇌에서 뉴런들이 주고받는 전기신호의 세기에 해당하는 가중치를 최적화해 나아간다. 이를 위해 인터넷 바둑 사이트의 69사용자의 기보 16만 건에서 추출된 약 3,000만 건의 착점을 학습했다. 3,000만 개의 예제를 학습하여 입력값을 넣었을 때 원하는 출력값이 나오게끔 하는 가중치를 각종 최적화 기법으로 찾는 방식이다.
  이러한 지도학습이 끝나면 강화학습이 시작된다. 지도학습으로 찾아낸 각 가중치를 조금씩 바꿔보는 것이다. 예를 들어 지도학습 결과 어떤 가중치가 0.3이었다면, 나머지 모든 조건은 동일한 상태에서 그 가중치만 0.4로 바꾼 인공신경망과 가중치가 0.3인 기존의 인공신경망을 여러 번 대국시켰을 때, 주로 이긴 인공신경망의 가중치를 선택하게 된다. 모든 가중치에 대해 이와 같은 과정을 반복하여 최적의 가중치를 찾게 되는 것이다.
  알파고의 두 번째 인공신경망인 가치망은 바둑의 대국이 끝날 때까지 시뮬레이션을 해보고 결과를 판단하는 대신에, 현재 장면으로부터 앞으로 몇 수만 진행시켜보고 그 상황에서 형세를 판단하는 것이다. 현대 바둑 이론으로도 형세의 유불리를 판단하는 기준이 몇 집인지 정량적으로 환산하기는 어렵다. 마찬가지로 정확한 평가 함수를 프로그래머가 알아야 할 필요가 없다. 평가 함수의 초깃값을 임의로 설정해놓고 정책망의 강화학습 때와 같이 두 가지 버전의 인공신경망을 대국시킨다. 만약 변경된 버전이 주로 이겼다면 그 다음 실험에서는 변경된 버전을 채택하는 과정을 무수히 반복한다. 이런 식으로 아주 정확한 평가 함수를 찾아갈 수 있는 것이다.

 

문제

 

윗글을 근거로 판단할 때 옳은 것은?

 

오답을 통한 학습과정을 더 많이 거칠수록 인공신경망의 정확도는 떨어진다.

알파고는 가중치를 최적화하는 과정에서 기보 한 건당 1,000이상의 착점을 학습했다.

알파고는 빠른 데이터 처리 능력 덕분에 인터넷 기보를 이용한 지도학습만으로도 정확한 형세판단 능력의 평가 함수를 찾을 수 있었다.

알파고가 바둑의 형세를 판단하도록 하기 위해서 프로그래머는 정확한 평가 함수를 알아야 한다.

최초에는 동일한 인공신경망이라고 해도 강화학습의 유무에 따라 인공신경망의 가중치는 달라질 수 있다.

 

해설
▷ 정답  ⑤

①. (X) 문단2)

오답에 따른 학습을 반복할수록 인공신경망의 정확도는 향상된다.

 

②. (X) 문단3)

알파고가 학습한 착점은 기보 16만 건에서 추출된 착점의 수 약 3,000만 건이므로, 기보 한 건당 평균 착점 수는 200건 미만이다.

 

③. (X) 문단4, 5)

지도학습 이후에 강화학습이 이루어지고, 정확한 형세판단의 평가 함수를 찾아가는 것은 가치망도 정책망처럼 강화학습과 같은 과정을 거치면서 계속해서 이루어진다. 따라서 지도학습만으로 정확한 형세판단의 평가 함수를 찾을 수 있는 것은 아니다.

 

④. (X) 문단5)

알파고가 바둑의 형세를 판단하도록 하는데 있어 정확한 평가 함수를 프로그래머가 알아야 할 필요는 없다.

 

⑤. (O) 문단4)

알파고는 강화학습을 통해 지도학습으로 찾아낸 각 가중치를 조금씩 바꿔보고, 주로 이긴 인공신경망의 가중치를 선택하게되므로 강화학습 이후에 인공신경망의 가중치가 달라질 수 있다.

 


 

문제

 

윗글과 다음 <상황>을 근거로 판단할 때, 최종적으로 선택할 알파고의 가중치 AB를 옳게 짝지은 것은?

 

<상 황>

다른 모든 조건이 동일한 상태에서 가중치 A, B만을 변경한다.
가중치 A0.4이고 가중치 B0.3인 인공신경망이 가중치 A0.3이고 가중치 B0.3인 인공신경망을 주로 이겼다.
가중치 A0.5이고 가중치 B0.3인 인공신경망이 가중치 A0.3이고 가중치 B0.3인 인공신경망을 주로 이겼다.
가중치 A0.4이고 가중치 B0.4인 인공신경망은 가중치 A0.4이고 가중치 B0.3인 인공신경망에게 주로 졌다.
가중치 A0.5이고 가중치 B0.3인 인공신경망은 가중치 A0.4이고 가중치 B0.3인 인공신경망에게 주로 졌다.
가중치 A0.4이고 가중치 B0.3인 인공신경망이 가중치 A0.4이고 가중치 B0.2인 인공신경망을 주로 이겼다.

   가중치 A 가중치 B

①    0.3         0.3

    0.4         0.2

    0.4         0.3

    0.4         0.4

    0.5         0.3

 

해설
▷ 정답  ③

가중치 A가 같은데 가중치 B가 다른 상황을 찾아보면 첫 번째 대국 결과와 두 번째 대국 결과, 그리고 네 번째 대국 결과가 있다.

 

첫 번째 대국 결과에서는 가중치 0.4, 두 번째 대국 결과에서는 가중치 0.5를 선택하게 된다.

 

한편, 네 번째 대국결과에서 가중치 B가 0.3으로 같은 상황에서 가중치 A가 0.4일 때가 0.5의 인공신경망을 주로 이기므로 가중치 A는 0.4를 최종적으로 선택하게 될 것이다.

 

가중치 A가 같은데 가중치 B가 다른 상황을 찾아보면 세 번째 대국결과와 다섯 번째 대국 결과가 있다.

 

이때 주로 이긴 인공신경망의 가중치 B의 값은 0.2와 0.4를 상대로 모두 이긴 0.3이므로 가중치 B는 0.3을 최종적으로 선택하게 될 것이다.

반응형

댓글