본문 바로가기

컴퓨터 관련 소식

GP102를 둘러싼 진실 혹은 오해 : 차기 왕의 묘연한 행방

이번에는 GP102를 둘러싼 진실 혹은 오해 : 차기 왕의 묘연한 행방에 대해 알아보겠습니다.

GP102를 둘러싼 진실 혹은 오해 : 차기 왕의 묘연한 행방

 

엔비디아가 테슬라 P100을 공개했던 지난 4월 초만 하더라도 그와 쌍둥이인 지포스의 등장은 단지 시간 문제일 것으로 여겨졌다. 게임용 그래픽카드인 지포스와 전용 연산장치인 테슬라가 겨냥하는 시장 사이에는 결코 좁혀질 수 없는 깊은 골이 파여 있지만 GPU가 범용 연산의 영역에 진출하게 되며 이들의 구조적인 차이는 빠른 속도로 좁혀졌고, 급기야 당대의 테슬라와 똑같은 하드웨어 사양으로 파생되는 지포스 라인업 '지포스 타이탄'이 추가되면서 금단의 사랑은 결실을 맺었다. 사실, 오늘날의 시각에서 '그래픽카드'가 슈퍼컴퓨팅에 이용되는 것은 더 이상 놀랍지 않다.

 

최초의 타이탄이었던 지포스 GTX 타이탄은 그보다 두어달 앞서 출시된 테슬라 K20X와 완벽히 똑같은 물리적 사양을 갖고 있는데, 단지 GK110이라는 동일한 실리콘을 탑재했다는 것뿐 아니라 15개의 스트리밍 멀티프로세서(SM) 중 한 개를 비활성화한 컷팅 칩이라는 점마저 닮아 있었다. 이후 테슬라 라인업에 GK110 풀 칩이 적용된 모델(K40)이 추가되자 지포스 역시 GTX 타이탄 블랙을 등장시키며 두 라인업 사이의 부창부수는 이어졌다. 맥스웰 세대 들어 GM204 기반의 GTX 980과 테슬라 M6, GM200 기반의 GTX 타이탄 X와 테슬라 M40이 그 계보를 이었음은 물론이다.

 

이런 역사적 배경 탓이었을까. 몇년간의 학습이 누적되며 하드웨어 매니아들의 무의식 깊은 곳엔 '테슬라는 지포스의 미래' 라는 명제가 깊이 각인되었고 이로 인한 연상작용은 한달 반 전의 한 발표회에서 그날 언급조차 되지 않았던 '차기 지포스'의 청사진을 그려내기에 이르렀다. 그러나 여기에는 중대한 허점이 있었다. 누구도 당시엔 그걸 발견하지 못했다. 테슬라 P100이 가진 수많은 압도적인 숫자들 - 3584개의 쿠다코어, 컴퓨터의 역사 이래 최초로 20 테라플롭스(FP16 반정밀도 한정) 연산성능을 갖춘 단일 칩의 등장, 32GB의 HBM2 등 - 에 취해 누구도 그걸 지적할 겨를이 없었으리라. 그러나 지나고 보면 가장 사소한 허점으로부터 모든 가설이 깨지는 법이다. 이날의 반전은 바로 이것이었다.

 

 

눈치챘는가? 일단 그걸 논외로 하고, 지난주 한 외신으로부터 불거져 나온 루머로 시선을 옮겨 보자.

 

중국의 하드웨어 전문 매체 ChipHell은 지난 18일 그들의 정보원으로부터 차기 하이엔드 지포스 관련 정보를 입수했다며 그 사양을 공개한 바 있다. 여기에 '세 번째 GTX 타이탄' 이 포함된 것은 놀랄 일이 아니다. 또한 그로부터 파생될 GTX 1080 Ti 등이 끼어 있는 것도 별로 새삼스럽지 않다. 정작 사람들을 혼란스럽게 한 것은 GP102라는 정체불명의 칩의 등장이었다. GP100을 이름만 달리한 것이라기엔(GF100/110, GK110/210 등 당대의 '빅 뷰티' 칩들은 테슬라와 지포스 양측에 적용되는 코드네임을 명목상으로나마 다르게 한 적이 있다) 이들이 밝힌 다이 면적과 집적된 트랜지스터 수 등이 이미 알려진 GP100과 판이하게 달랐다. 액면 그대로 받아들이자면, 엔비디아가 한 아키텍처 기반의 '빅 칩' 두 개를 동시에 설계해 왔다는 것이다. 과연 가능한 일일까.

 

 

시계를 잠시 2년 전으로 돌려 보자. 사실 이때 엔비디아는 여느 세대교체기와 달리, 맥스웰을 출시한 이후에도 케플러를 완전히 단종시킬 수는 없었는데, 바로 배정밀도 연산성능의 부재 때문이었다. 따라서 최상위 테슬라/타이탄 라인업으로써 GK110의 수요는 맥스웰이 주력 아키텍처가 된 지난 2년 내내 여전히 존재했고, 즉 설계팀이 가동된 시기가 순차적으로 엇갈렸을 뿐 두 개의 '빅 칩'을 동일한 시대 동안 생산하고 있었다는 점에서 분명 이례적인 것이었다. 당장 엔비디아의 CEO 젠슨 황부터 '배정밀도 연산성능이 필요한 곳을 위해 타이탄 Z가 여전히 제공된다'고 못박은 바 있다.

 

 

파스칼 세대에 접어들며 가해진 가장 중요한 변화는 단연 16nm FinFET의 도입이다. 단숨에 집적률이 세 배 뛰어오르며 그동안(특히 28nm 공정의 2차 시기였던 맥스웰 세대에) 못다 한, 밀려 있던 여러 과제를 수행할 수 있게 되었는데 그 중 하나가 배정밀도 연산성능의 복원이라는 사실은 그리 새삼스럽지도 않을 것이다.

 

앞서 '28nm 공정 2차 시기'라는 표현에 압축적으로 담아내었듯, 케플러에서 맥스웰로 이행하던 시기에는 세대교체에 걸맞는 성능향상을 집약하기엔 칩이 지나치게 커진다는 딜레마가 있었다. 이를 위해 엔비디아가 선택한 전략은 두 가지로, 하나가 연산성능(쿠다코어) 대비 렌더링 성능(ROP)을 대폭 증가시킨 것이었고(=쿠다코어의 상대적 감소, ROP의 상대적 증가) 다른 하나는 배정밀도 연산유닛을 대폭 삭감하는 것이었다. 이러한 전략은 공통적으로 (연산성능이 중시되는) 타이탄이나 테슬라엔 명백한 약점이었으나, 마침 동일한 문제를 AMD도 겪고 있었기에(피지 역시 하와이와 비교해 배정밀도 연산유닛을 대폭 제거한 버전) 한 세대쯤 타이탄/테슬라는 쉬어 가도 괜찮겠다고 판단한 것이다. (물론 타이탄이라는 이름의 그래픽카드는 있었지만, 전통적인 의미에서의 타이탄과 거리가 있었단 얘기다.)

 

일종의 적대적 신사협정이 체결되었다 : 엔비디아는 연산용 최상위 라인업에 GK110을 한 세대 더 연임시키는 것으로, AMD 역시 마찬가지로 하와이를 최상위 파이어프로 라인업에 1년 더 유임하는 것으로 이 시기 양사의 HPC 라인업은 형식적으로만 존재했다. 이 시기의 타이탄/테슬라가 과거와 궤가 달랐다는 건, 이례적으로 타이탄 X가 먼저 출시되고도 상당한 기간 동안 GM200 기반 테슬라가 나오지 않았단 사실이 방증한다. 심지어 엔비디아 관계자에 따르면 "맥스웰은 딥러닝(단정밀도 이하, 주로 반정밀도)에 최적화된 것으로 배정밀도 HPC용으로는 적합하지 않다"는 증언도 있었던 상황이다.

 

반면 제조공정이 개선되며 가장 큰 걸림돌이 해결된 지금, 엔비디아는 아니나다를까 배정밀도 연산유닛을 대거 보강한 GP100을 첫 타자로 내보냈다. 여기서 중요한 것은 칩의 크기인데, GK110이 580mm2, GM200이 600mm2였으며 GP100이 610mm2로 앞의 둘은 그렇다치더라도 GP100은 공정이 바뀌었음에도 여전히 비슷한 크기대에 머물러 있어 의문을 자아낸다. 다시 말해 '더 집적할 여력'이 있음에도 칩의 크기를 늘릴 수 없는, 생산상의 크리티컬 포인트(예컨대 600mm2를 넘어서는 순간 수율이 급격히 떨어진다든지)가 있다는 의미이리라.

 

바꿔 말해, 이 같은 '한계 크기'의 칩을 지금까지처럼 GM200이 담당하던 시장에 그대로 투입하는 것으로는 도저히 수지타산을 맞출 수 없음을 의미하기도 한다. 반도체의 생산단가는 칩의 면적에 비례하고 최신 제조공정일수록 비싸다는 것을 생각하면 현 수준의 이익률을 현상유지만 하기 위해서라도 칩의 면적이 최신 제조공정으로 이행하며 비싸진 '공정 단가'를 상쇄할 만큼 작아져야 한다. (특히 핀펫 공정은 일반 판형 공정보다 비싸기로 유명하다.) 순수한 ROI(투입 대비 산출) 측면에서만 바라보면 GP100은 애초 GM200의 대체재가 될 수 없었다.

 

GP100이 두 세대를 건너 GK110의(정확히는 듀얼 GK110 : 타이탄 Z, 테슬라 K80) 진정한 후계자로써 배정밀도 연산성능이 중시되는 정통 HPC 시장을 겨냥하고 나왔다면, GP104는 GM204의 후속작임이 너무도 명백하다. 여기서는 다이 면적이 398mm2에서 314mm2로 줄어들어 순조로운 세대교체가 가능하다. 심지어 가격은 더 올라 ROI 측면에서 이보다 더 좋을 순 없다! 그렇다면 GM200이 맡고 있던 '게임용 최상위' 포지션이 공백으로 남는데, 이를 위해 'GP100에서 배정밀도 연산유닛만을 제거한 네이티브 설계 버전'의 칩을 투입하는 것은 적어도 논리적으로 아무 하자가 없다. 설계 단계에서 비용이 증가하는 문제가 있지만 당면 과제를 해소하기 위한 투자쯤으로 충분한 명분이 있고, 무엇보다 최근 2년 동안도 빅 뷰티인 GK110과 GM200을 공동 생산해 왔기에 이제 와서 라인 비용이 늘어날 이유도 없다. 구 GK110 라인이 GP100을, GM200 라인이 GP100에서 배정밀도 연산유닛이 제거된 버전을 생산하게 하면 그만이다. ChipHell이 상정한 GP102라는 존재가 바로 후자를 의미한다.

 

 

이쯤에서, 서두에 지적한 '사소한 허점'을 다시 한번 살펴볼 차례다. 엔비디아의 공식 슬라이드에 따르면 GP100은, 놀랍게도 '래스터 엔진'이 없다. 흔히 ROP라고 뭉뚱그려지는 이 부분은 GPU 내부의 다른 연산유닛들이 조합한 3차원 영상 정보를 '2차원화'해 주는 곳이다. 다시 말해 렌더링을 담당하는 곳으로 흔히 그래픽 성능이라 일컫는 부분의 핵심이다. 그런데 GP100의 슬라이드에 바로 이 ROP가 누락된 것이다.

 

물론, 혹 파스칼부터 내부 구조가 바뀌었다거나, 다이어그램을 표현하는 양식이 달라졌다고 반론할 사람이 있을 수 있다. 글쓴이 역시 이 글에서는 메모리컨트롤러와 ROP가 뭉뚱그려져 있다고 간주했고, 실제 엔비디아의 GPU 설계에서 '8 ROP & 64bit 메모리컨트롤러 파티션'이 하나의 단위를 이루기에 틀린 접근은 아니다. 그러나 아래의 그림을 보자.

 

 

위 그림에서 오른쪽은 GM200, 왼쪽은 GP104의 다이어그램이다. 보다시피 양쪽 모두 너무도 선명한 노란색으로 래스터 엔진을 표시해두고 있다. 참고로 덧붙이자면 GP104는 GP100보다 한 달 가량 더 늦게 나왔다. 즉 '달라진 양식' 따위는 존재하지 않는다는 것. 결국 GP100의 다이어그램을 작성하며 엔비디아가 의도적/의식적으로 래스터 엔진 부분을 삭제했음이 명백해졌다. 단순히 -그래픽카드 아닌- '테슬라로써' 그 정체성을 의식해 명기하지 않은 것일 수 있지만, 그렇다면 다른 외신의 기사를 보도록 하자. 유럽 최대의 하드웨어 매체 <Hardware> 로부터 보도된 기사 일부를 번역한 것이다.

 

"Ce GPU de plus de 15 milliards de transistors fait de nombreux compromis totalement orientes vers le calcul haute performance et qui n'ont pas specialement d'interet dans le cadre du rendu temps reel pour les jeux video."

 

"This GPU, made of more than 15 billion transistors, compromises many things to fit in high performance computing solely, and has no interest in real-time rendering for video games."

 

"150억개 이상의 트랜지스터를 집적한 이 GPU는 오로지 고성능 컴퓨팅만을 위해 많은 것을 타협했으며, 비디오게임을 위한 실시간 렌더링에는 전혀 관심을 두지 않았다."

 

나아가, 원문의 마지막 문단은 HBM(HBM/HBM2 전반을 말함) 메모리와 인터포저의 낮은 수율(높은 가격)때문에라도 이에 기반한 그래픽카드의 생산이 극도로 제한적일 수밖에 없고, 따라서 엔비디아는 두 개의 하이엔드 GPU를 병행 개발하기로 '실용적인 결단'(pragmatic decision)을 내렸다고 단언하고 있다. 이에 따르면 ChipHell을 비롯한 다른 GP102의 존재를 전제한 외신들이 하나같이 GP102에 GDDR5X를 짝지은 이유 역시 설명이 된다.

 

결국, 지금까지 살펴본 모든 정보를 종합하면 -심지어 그 첫번째 단추는 엔비디아 자신이 제공했던 것이다!- 도달하는 결론은 GM200의 맞후임으로 엔비디아가 개발 중인 제3의 GPU가 분명 실재한다는 것이다. 전체 연산유닛 총 수의 4분의 1에 육박하는, 로직 자체의 복잡도를 생각하면 차지하는 면적은 그 이상일 가능성이 높은 배정밀도 연산유닛을 제거하는 것만으로 엔비디아는 GP100이 한 발짝도 다가가지 못했던 '스윗 스팟'을 GP102을 통해 달성할 수 있을 것이다. (GP100은 제조공정이 미세화되었음에도 배정밀도 연산유닛을 대거 확충한 탓에 '한계 크기'에서 조금도 축소되지 못했었다.)

 

혹여나 GP100 기반의 지포스가 없으리라는 전망에 실망한 이들이 있다면 이렇게 말해두고 싶다. "그럴 필요 없다."

 

애초 GP100은 "그래픽 프로세서" 가 아니었다. GPU의 정체성이나 다름없는, 백엔드에 해당하는 래스터 엔진을 생략한 - 차라리 3840코어짜리 CPU에 가까운 것이다. 처음부터 그래픽카드가 될 리 없던 칩을 두고 '그래픽카드로 나오지 않아 아쉽다' 는 것은 성립할 수 없다.

 

나아가, 루머들이 언급하고 있는 GP102의 사양 자체도 GP100에 비해 전혀 떨어지지 않는다. 쿠다코어 갯수는 똑같이 3840개를 전제하고 있는데다, 테슬라 P100이 공개되었을 당시 1480MHz라는 작동 속도는 모든 이를 충격에 빠뜨렸지만 이후 공개된 지포스 GTX 1080의 작동속도 1733MHz는 P100을 초라하게 만들 지경이었음을 상기하자. GP102가 실존한다면, 이것은 배정밀도 연산유닛을 대폭 삭제하고, 다이 면적 역시 축소된 것일 만큼 오히려 GP100보다 고클럭화가 더 용이할 것이다. 애초 그래픽 프로세서가 아닌 GP100과 이러한 비교가 무의미한 것이겠지만, 만약 지포스로서의 비교가 가능했더라도, GP100 기반의 지포스보다 GP102 기반의 지포스가 더 높은 게임성능을 가질 것이란 얘기다.

 

AMD가 유례 없는 연막작전으로 폴라리스에 대한 세간의 관심을 증폭시키듯 엔비디아 역시 차기 대권을 거머쥘 GPU의 정체를 베일에 싸 둠으로써 매니아들의 기대를 돋우고 있다. 다가오는 연말, 우리는 어떤 그래픽카드들을 보게 될까. 즐거운 상상이 아닐 수 없다.

사업자 정보 표시
(주)아이티엔조이 | 장경석 | 서울특별시 용산구 청파로 132, 나진상가 19동 2층 나열 특 2호 | 사업자 등록번호 : 106-86-59287 | TEL : 02-1599-1239 | Mail : help@itenjoy.co.kr | 통신판매신고번호 : 제2017-서울용산-0055호 | 사이버몰의 이용약관 바로가기