본문 바로가기

컴퓨터 관련 소식

파스칼 아키텍처 분석 : 역대 최고 넓이의 프론트엔드, IPC 25~30% 가량 개선 전망

이번에는 파스칼 아키텍처 분석 : 역대 최고 넓이의 프론트엔드, IPC 25~30% 가량 개선 전망에 대해 알아보겠습니다.

파스칼 아키텍처 분석 : 역대 최고 넓이의 프론트엔드, IPC 25~30% 가량 개선 전망

 

 

 

 

엔비디아의 차세대 GPU '파스칼'이 마침내 윤곽을 드러냈다. 최상위 칩셋인 GP100은 3840개의 쿠다코어와 1.4TB/s 대역폭의 HBM2 메모리로 무장하며, 현재 양산 중에 있고 내년 1분기 중 선적될 것이라고 전해졌다. GP100을 사용한 최초의 제품은 고성능 컴퓨팅용 연산 가속장치 '테슬라'의 차세대 모델이 될 것으로 알려졌으며 여기에는 GP100의 쿠다코어 일부를 비활성화한 컷팅 칩이 탑재될 것이라고 한다. 주목할 점은 작동 속도. 오늘의 주인공 테슬라 P100의 베이스 클럭은 1328MHz, 부스트 클럭은 무려 1480MHz에 달한다.

 

 

이로써 3584개로 컷다운된 쿠다코어에도 불구하고 총 10.6 테라플롭스에 달하는 단정밀도 연산성능을 구현, AMD의 피지가 차지하고 있던 최고 연산성능 GPU의 타이틀을 10개월여만에 탈환하게 되었으며, 특히 양사의 현세대 플래그십이 공히 배정밀도 연산성능을 소홀히 했던 것에서 차별화하여 단정밀도의 1/2에 해당하는 높은 배정밀도 연산성능을 갖게 되었다. 최근 각광받는 딥러닝 분야에 널리 쓰이는 '반정밀도' 연산의 경우 단정밀도의 2배에 해당하는 속도로 처리할 수 있어, 이론적으로 반정밀도 기준 21.2 테라플롭스의 성능을 낼 수도 있다. 일찍이 20 테라플롭스급 성능을 갖는 단일 칩셋은 존재한 적 없다.

 

 

그러나 지금까지 나열한 수치는 액면 그대로의 최소한도일 뿐이다. 세대가 교체되며, 그리고 아키텍처가 교체되며 가장 관심을 끄는 부분은 과연 개별 코어당 성능이 얼마나 향상되었느냐는 부분일 것이다. 이 글에서는 VGA 계산기를 활용, GP100 칩셋을 아키텍처 단위에서 분석해 볼 것이다. 우선 블럭 다이어그램을 보자. 쿠다코어 갯수가 증가한 만큼 전체 구성이 조밀해지는 것은 당연한 수순이나, 자세히 살펴보면 개별 '스트리밍 멀티프로세서' 단위가 쿠다코어가 전체적으로 늘어난 정도보다 훨씬 가파르게 세밀해졌음을 알 수 있다.

 

 

앞서 IYD에서는 이 글(링크) 을 통해, 마찬가지로 이례적인 아키텍처 변경이 동반되었던 케플러-맥스웰 세대교체기의 아키텍처 분석과 그로부터 도출되는 성능향상폭을 계측해본 바 있다. 뒤이어 엔비디아의 기술문서를 통해 실제 맥스웰의 IPC 향상폭이 IYD에서 예측한 수치와 맞아 떨어짐으로써(링크) 이러한 분석법이 효율적이라는 것이 증명되었는데, 이때 중요한 요소로 고려되었던 것이 바로 개별 SM의 '프론트엔드'에 해당하는 스케줄러와 디스패치 유닛이었다. 케플러에서 쿠다코어 48개당 하나씩 배치되던 스케줄러는 맥스웰 아키텍처 하에서 32개당 하나로 비율이 증가했으며, 파스칼에서는 그보다도 더욱 증가율을 높여 16 쿠다코어당 하나씩의 비율로 배치되게 되었다. 한 마디로 GPU 내부(SM 내부)에서 멀티프로세싱 효율을 더욱 높일 수 있게 된 것이다.

 

 

또한 주목할 부분은 블럭 다이어그램상 파스칼의 '메모리컨트롤러 블럭'이 8개로 그려져 있단 점이다. 현세대 최상위 GPU인 GM200의 경우 해당 블럭 여섯개가 SM들 주위를 둘러싸고 있다. 전통적으로 엔비디아의 GPU 아키텍처에서 GPU의 백엔드에 해당하는 ROP는 메모리 대역폭과 밀접한 관계에 있으며, 물리적으로도 메모리컨트롤러와 한 덩어리로 취급된다. 케플러까지는 GDDR5 메모리컨트롤러 64비트분(分)과 8개의 ROP가 한 묶음이었으나 맥스웰 들어 이 덩어리는 '느슨한 큰 덩어리'화 되어, 표면적으로는 GDDR5 메모리컨트롤러 64bit분 16 ROP가 한 단위를 형성하나 내부적으로는 이를 절반으로 분절해 선택적으로 활성/비활성화하는 것이 가능하다. 우리는 모두 지포스 GTX 970을 둘러싼 소동을 기억하고 있다.

 

물론 세대가 바뀌었으니만큼 '메모리컨트롤러 블럭'에 포함되는 ROP의 비율은 더 늘었을 수도 있다. 다만 글의 목적상 보수적인 접근을 취해 맥스웰 시절의 비율이 그대로 유지된다고 가정하면 블럭당 ROP 갯수는 16개가 된다. 산술적으로 16개의 ROP를 담은 블럭이 여덟 개 배치되었으니 GP100의 ROP 갯수는 총 128개가 될 가능성이 높다.

지금까지 얻은 내용을 정리해 보자.

 

GM200 : 3072 쿠다코어, 192 TMU, 96 ROP, 384bit GDDR5 7.0Gbps
GP100 : 3840 쿠다코어, 240 TMU, 128 ROP, 4096bit HBM2 1.4Gbps

 

이상의 자료를 바탕으로, VGA 계산기에 대입해 구한 상대성능비는 아래와 같다.

 

 

이에 따르면 GM200과 GP100이 동일한 작동속도를 가질 때 GP100쪽이 1.63배 가량 더 높은 성능을 보인다. 다만 이 수치가 그대로 IPC로 환산되는 것은 아니고, 기술했다시피 둘의 쿠다코어 갯수가 다르니 이를 반영해 '쿠다코어당 동클럭 성능'을 구해 보면 아래와 같은 식이 얻어진다.

 

1 : 1.65 = 3072 : 3840 * IPC_improvement

IPC_improvement = 1.63 * 3072 / 3840

IPC_improvement = 1.304

 

즉 파스칼은 쿠다코어당 동클럭 성능이 맥스웰보다 30% 가량 향상되었을 가능성이 높다. 무엇보다 앞서 맥스웰 역시 케플러 대비 35%의 IPC 향상을 보인 만큼 이 수치는 전례없거나 허황될 만큼 비현실적인 것이 아니다. 한편, 이 수치는 맥스웰과 파스칼이 동일한 작동속도를 갖는다는 전제 하에 구해진 것이지만 실제 둘의 작동속도는 같지 않다. 현 시점에 파스칼 아키텍처에 기반한 '상용 제품'으로 알려진 것이 테슬라 P100 단 하나뿐이라 이것을 파스칼측 대표로 삼는 것이 다소 정확성을 떨어뜨리는 요인일 수 있겠으나, 적어도 훗날 리테일 시장에 출시될 'GP100 기반 지포스' 그래픽카드의 성능을 가늠해 볼 유일한 지표란 점에서 테슬라 P100의 사양을 그대로 대입해 이론상의 게임 성능을 구해볼 것이다. 그 결과는 아래와 같다.

 

 

앞서 설명했듯 테슬라 P100은 GP100의 풀 칩을 사용하지 않았다. 전체 60개의 SM 중 4개가 비활성화되어 56 SM만을 탑재하고 있으나, 대신 작동 속도가 GM200보다 훨씬 높아져 거의 1.5GHz에 육박한다. 이러한 특징들이 모두 반영된 결과 VGA 계산기를 통해 환산된 성능지표는 위와 같다. 테슬라 P100과 동일한 사양을 갖는 가상의 그래픽카드는 현존하는 최상위 그래픽카드인 지포스 GTX 타이탄 X보다 2배 이상 빠르다. 흥미로운 사실은 앞서 이 글(링크) 에서 예측해 본 AMD의 차세대 플래그십 GPU, '그린란드'보다도 46%나 빠를 것으로 예측되었다는 점이다. 물론 위에서는 그린란드의 작동 속도를 알 수 없는 까닭에 보수적으로 라데온 R9 Fury X의 그것을 그대로 차용했다는 한계가 있다. GM200 / GP100 / 피지 / 그린란드를 모두 동일하게 1000MHz로 설정해 보면 이들의 IPC 비율은 대략 아래와 유사할 것으로 추측된다.

 

 

한편, 케플러에서 맥스웰로의 세대교체를 코어 갯수의 변화에 한정해 보았을 때 의외로 매우 소폭의 업그레이드였다는 사실을 아는 이는 많지 않다. GK110이 이미 2880개의 쿠다코어를 내장하고 있었는데, 최초의 하이엔드 맥스웰로써 투입되었던 GM204는 오히려 그보다 적어지기까지 했었고(2048 쿠다코어), 최종병기로 등장한 GM200 역시 3072개로 겨우 6.7% 증가하는 데 그쳤기 때문이다. 굳이 이 이야기를 꺼내는 것은 AMD / 엔비디아 양사 공통적으로 GPU 설계 패러다임이 큰 전환기를 맞았단 조짐이 보이는 까닭이다.

 

올해는 28nm 제조공정이 도입된 지 AMD에게는 6년, 엔비디아에게는 5년차가 되는 유서깊은 해이다. 실로 오랜만의 제조공정 진화치고는 양사 모두 코어 갯수의 증가폭이 지나치게 보수적이지 않은가. 그린란드는 아예 피지와 코어 갯수가 똑같고, GP100의 '3840'이라는 숫자 역시 GM200의 3072보다 겨우 25% 증가했을 따름이다. 과거의 제조공정 교체기를 생각해보면 한층 의아해질법 하다. 케플러 GK104는 페르미 GF100/110보다 무려 3배 더 많은 쿠다코어를 내장하게 되지 않았던가. 글쓴이는 그 미스테리의 해답을 'ROP의 상대적 증가'에서 찾아보고자 한다. 제조사들의 깊은 속내는 모르겠으나 연산성능과 ROP 성능이라는 전형적인 '두 마리 토끼' 클리셰에서 이젠 집토끼를 다시 찾기로 작정한듯 하다. 게이머들에게는 어느 때보다 은혜로운 한 해가 될 것이다.

사업자 정보 표시
(주)아이티엔조이 | 장경석 | 서울특별시 용산구 청파로 132, 나진상가 19동 2층 나열 특 2호 | 사업자 등록번호 : 106-86-59287 | TEL : 02-1599-1239 | Mail : help@itenjoy.co.kr | 통신판매신고번호 : 제2017-서울용산-0055호 | 사이버몰의 이용약관 바로가기