조회 수 5954 추천 수 13 댓글 13
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄 첨부

7 . GeForce RTX 에디터스 데이: 튜링 아키텍처

 

NVIDIA가 새롭게 공개한 튜링 아키텍처는 기존의 파스칼 아키텍처와 비교했을 때 여러 부분에서 차이점을 보이고 있습니다.

최근 젠슨 황 회장의 발표를 통해 공개되었다시피 레이 트레이싱(Ray-Tracing) 기술이 단연 돋보였지만, 코어 구조나 아키텍처 자체에도 변화점이 존재했습니다.

본 페이지에서는 GeForce RTX 에디터스 데이에서 공개되었던 프리젠테이션의 슬라이드 이미지와 더불어 부연설명을 첨언하는 형태로 튜링 아키텍처를 소개하도록 하겠습니다.

 

※ GeForce RTX 에디터스 데이에 사용된 프리젠테이션의 슬라이드 이미지가 많은 관계로 파트별로 페이지를 나누었습니다.

 

 

 

▲ 프리젠테이션 발표에 앞서 파트별 발표자가 먼저 소개되었습니다.

 

 

▲ 그래픽 카드의 재발명이라는 거창한 표현으로 시작된 프리젠테이션은 NVIDIA RTX 기술와 튜링 아키텍처, 그리고 이들이 접목된 GeForce RTX 20 시리즈로 크게 나누었습니다.

 

▲ 발표의 서두는 Epic Games의 CEO인 Tim Sweeney의 소감으로 시작되었습니다. GeForce RTX와 NVIDIA 튜링 아키텍처는 레이 트레이싱 가속과 인공지능 하드웨어, 프로그래밍 가능한 쉐이딩(음영)을 최초로 하나의 GPU에 결합하여 게임 개발에 매우 강력한 기반을 마련했다고 소개하고 있습니다.

 

 

▲ 튜링 아키텍처는 크게 텐서 코어와 RT 코어, 그리고 확장된 쉐이딩(음영)으로 나눌 수 있습니다.

 

▲ 튜링 아키텍처가 적용된 TU102의 풀칩 다이 사진입니다. RTX 2080 Ti는 TU102 풀칩의 커팅 버전으로, 풀칩은 4,608 CUDA 코어와 72 RT 코어,576 텐서 코어로 구성됩니다.

 

▲ 위 이미지는 클릭 시 큰 화면으로 감상할 수 있습니다.

 

▲ 튜링 그래픽 카드의 SM(Stream Multiprocessor) 구조는 이전 일반 소비자용 제품에 도입된 파스칼 아키텍처와 비교했을 때 큰 변화를 맞이했습니다. 일반 소비자용 제품군에서 볼 수 없었던 볼타 GV100 아키텍처의 기능이 통합된 형태의 구조라고 볼 수 있는데, SM의 내부 구조가 1개의 TPC와 64개의 INT32 코어, 그리고 64개의 FP32 코어로 구분되며, 연산 코어 측면에 텐서 코어가 부착되어 있어 SM당 총 8개의 텐서 코어가 탑재되는 형태입니다.

각 SM은 다시 4개의 프로세싱 블록으로 구분할 수 있으며, 각 프로세싱 블록에는 FP32 코어와 INT32코어, 텐서 코어 외에도 1개의 워프 스케줄러 및 디스패치 유닛이 구성됩니다. 또한, 블록당 L0 명령어 캐시와 64KB 레지스터 파일이 탑재되어 있으며, 4개의 프로세싱 블록이 묶여 96KB의 통합형 L1 데이터 캐시 / 공유 메모리를 활용하는 구조입니다.

 

여기에 각 SM당 1개의 RT 코어로 구성되며, 기존의 파스칼 GP10x GPU가 하나의 SM에 1 TPC와 128 FP32 코어로 구성되는 것과 큰 차이를 보입니다.

 

▲ 단순히 구조상으로만 본다면 FP32 코어가 반토막이 났기 때문에 성능상 손해를 볼 수 있다고 생각할 수 있겠지만, 오늘날 활용하는 여러 소프트웨어에서는 100개의 부동소수점 명령어당 36개의 정수 파이프 연산이 추가로 일어나며, 튜링 아키텍처는 INT32 연산용 코어가 구성되어 있기 때문에 약 36% 가량의 처리량 효율이 증가한다고 해석할 수 있습니다. 이 때문에 오히려 파스칼 아키텍처보다 더 나은 성능 효율을 가져올 수 있습니다.

 

▲ 또한 튜링 SM은 공유 메모리와 L1 및 텍스쳐 캐싱을 위해서 새로운 통합 아키텍처를 적용했습니다. 파스칼 아키텍처의 통합된 LOAD/STORE 유닛을 2개로 구성하여 대역폭을 증가시키고, L1 메모리가 공유 메모리를 끌어다 쓸 수 있는 구조이기 때문에 결론적으로 L1 캐시가 최대 2.7배 가량 증대된 효과를 지니게 되었고, 이는 L1 적중 레이턴시 속도를 향상하는데 큰 도움을 줍니다. 여기에 L2 캐시 역시 파스칼 아키텍처 대비 2배로 증가했는데, 이 역시 성능 상의 이득으로 이어집니다.

 

▲ GPU 내의 SM 구조가 파스칼과 확연히 달라지면서 튜링 그래픽 카드는 파스칼 그래픽 카드에 비해 CUDA 코어당 50%의 성능 향상을 달성하게 되었습니다.

 

▲ 또한 튜링 그래픽 카드는 그래픽 산업 분야 최초로 GDDR6 메모리 모듈을 적용하게 되었고, 기존의 GDDR5X의 11Gbps보다 늘어난 14Gbps의 클럭 유효 속도로 동작하게 됩니다. 또한, 각 신호의 끝단 폭을 최적화하여 누화(전기적 간섭) 현상을 40% 가량 줄였습니다.

누화 현상은 데이터의 혼재나 유실과 관련이 있기 때문에 이를 줄이게 되면 데이터 전송 효율이 증대되는 효과를 가져옵니다.

 

▲ 메모리 클럭의 향상과 누화 현상 최소화 및 메모리 압축 기술을 통해서 트래픽을 최소화한 결과, 파스칼 대비 튜링의 유효 대역폭은 50% 가량 증가한 효과를 보게 됩니다.

 

▲ 앞서 언급한 튜링 아키텍처는 기존 NVIDIA 그래픽 카드와는 달리 RT 코어와 텐서 코어가 탑재되어 있는 것이 가장 큰 특징이라고 소개했습니다. 텐서 코어는 기본적으로 딥러닝이나 AI 프로그래밍과 같이 높은 정밀도를 요구하는 고부하 연산 작업에 활용되는 코어라고 생각하면 이해가 쉬울 것 같습니다.

 

 

▲ 위 도표만으로는 이해가 어려울 수 있는데, 텐서 코어의 동작 환경을 간략히 도표화한 모습입니다. 텐서 코어는 신경 회로망 학습이나 추론 기능에 특화되어 있으며, 행렬과 행렬 간의 곱셈 연산을 빠르게 처리하는데 탁월한 능력을 보여줍니다.

 

▲ 텐서 코어를 지님으로 인해 행렬 간의 곱셈을 매우 빠르게 처리하는 것이 가능해졌고, 이는 관련 연산을 요구하는 작업에서 높은 효율로 이어질 것입니다.

 

 

▲ 마지막으로 튜링 SM에 새롭게 도입된 코어는 실시간으로 레이 트레이싱을 처리하기 위해 적용된 RT 코어입니다.

 

 

▲ 3D 모델링은 삼각형의 폴리곤 구조가 겹겹이 쌓이는 구조인데, 레이 트레이싱 처리를 위해서는 수많은 폴리곤의 바다 속에서 특정 폴리곤 조각을 찾아내는 처리 과정이 필요합니다.

 

 

▲ 튜링 SM에 포함되어 있는 RT 코어는 BVH(Bounding Volume Hierarchy) 알고리즘과 Ray/Triangle 교차 테스트(레디 캐스팅)를 빠르게 수행할 수 있는 가속 기능을 탑재하고 있어 효율적인 폴리곤 탐색이 가능합니다.

 

 

▲ 기존의 SM 구조로는 쉐이더 영역에서 BVH 탐색 작업을 Ray 당 몇 천번씩 되풀이해야 하는 문제점을 안고 있었습니다.

 

▲ 튜링SM은 RT 코어가 해당 기능을 대리 수행하면서 빠르고 효율적으로 BVH 탐색 작업을 진행하게 됩니다.

 

▲ Ray 처리에 최적화된 RT 코어를 탑재함으로 인해, RTX 2080 Ti는 GTX 1080 Ti에 비해 10배 가량 빠른 Giga Ray 처리 속도를 보여줍니다.

 

▲ 결국 튜링 SM은 실수 연산 외에도 정수 연산을 처리할 수 있는 INT32 코어, 레이 트레이싱 가속을 담당하는 RT 코어, 딥러닝 등의 정밀 연산을 요구하는 작업에 효율적인 텐서 코어를 탑재하고 있기 때문에 이들 모두를 접목한 게임이나 소프트웨어 처리 성능은 기존의 TFLOPS와 같은 단위로 정립하기 어렵기 때문에, RTX-OPS라는 새로운 단위가 만들어 졌습니다.

 

▲ RTX 2080 Ti 파운더스 에디션을 예로 들어보자면, 하나의 프레임을 계산하기 위해 위와 같은 공식이 성립되고, 최종적으로 78T RTX-OPS를 지니게 됩니다.

 

▲ 튜링 아키텍처에서 새롭게 적용되는 부문에는 쉐이딩 처리를 위한 고급 기술들이 있습니다.

 

▲ 우리가 사는 현실을 컴퓨터 환경으로 옮겨놓기에는 풍부하고 기하학적인 요소들을 한 군데에 모아야합니다. 이러한 요소를 한꺼번에 표현하기 위해서는 LOD(Level of Detail)를 떨어뜨릴 수밖에 없는데, 만약 높은 품질을 유지하기 위해서는 굉장히 빠른 LOD 계산과 높은 드로우콜(Draw Call)을 처리해내야 합니다.

 

▲ 튜링 아키텍처에서는 이런 문제를 해결하기 위해 메쉬 쉐이더를 도입했습니다.

오늘날 사용하는 전체 지오메트리 처리 파이프 라인은 버텍스 쉐이더를 활용해 레스터라이저용 삼각형을 직접 만들어내거나 테셀레이션 쉐이더를 활용해서 레스터화를 진행하며, 이를 통해 최종 결과물(폴리곤)을 생성해내는 형식입니다.

새롭게 메쉬 쉐이더가 도입된 파이프 라인은 조금 다른 처리 방식을 지니게 됩니다. 일단 그림에서 보는 것과 같이 태스크 쉐이더와 메쉬 쉐이더가 기존의 쉐이더들이 맡고 있는 역할을 대신 수행하는 것을 알 수 있는데, 태스크 쉐이더는 쉽게 말해 최적화를 담당하는 영역인데, 객체 목록을 읽어들이면서 각 객체의 크기에 따라 적절한 LOD를 적용 후 메쉬 쉐이더로 넘겨주는 역할을 합니다. 그러면 메쉬 쉐이더는 전달 받은 데이터와 테셀레이션이 필요한 폴리곤에 테셀레이션을 적용 후 레스터화를 진행하는데, 결국 메쉬 쉐이더를 적용함으로 인해 기존 파이프 라인에 비해서 높은 효율성을 지니게 된다는 것이 주요 골자입니다.

 

 

 

▲ Variable Rate Shading은 VR을 위한 기술입니다. VR 시스템이 해결해야 할 가장 큰 숙제는 처리해야 할 데이터의 양을 최소화하는 것인데, 이 때 전체적인 그래픽 품질이 떨어지지 않는 것이 중요합니다. 가변적 음영 처리는 이전 세대에서 쉐이딩 작업량을 최적화하기 위해 사용하던 MRS나 LMS와는 달리, VRS(Variable Rate Shading) 기술을 적용해 훨씬 유연하고 효율적으로 처리합니다. 

 

▲ VRS가 활용되는 케이스에는 위와 같은 경우를 들 수 있습니다.

 

▲복잡하면서도 높은 비중을 차지하지 않는 사물의 경우라면 내용에 따라 적응형 음영 처리를 적용할 수 있습니다. RVS를 활용하면 원본과 비교했을 때 큰 화질 손실이 없으면서도 더 낮은 데이터 전송량을 지니는 것이 가능합니다.

 

 

 

 

 

 

▲ 이밖에도 더 많은 것을 원하는 개발자들을 위해 멀티뷰 렌더링이나 텍스쳐 공간 음영 기술이 포함되어 있습니다.

 

▲ 튜링 기반의 그래픽 카드의 외적인 부분에서 가장 큰 차이를 보이는 것은 다름 아닌 USB Type-C 포트일 것입니다. VirtualLink 기능을 위해 도입된 이 출력 포트는 모션 추적을 위한 USB 3.1 Gen2 전송 속도를 지원하며, HBR3 디스플레이포트 4레인 혹은 HBR3 디스플레이포트 2레인 + USB 3.1 Gen2 2레인으로 나누어 활용할 수 있습니다.

 

▲ 튜링 그래픽 카드에 도입된 기술 중에서 많은 비중을 할당하고 있는 것은 가상 현실에 대한 부문입니다. 앞서 소개했던 데이터 압축 기술이나 음영 처리 기술은 굉장히 많은 데이터를 처리해야 하는 가상 현실 게임 등에서 유용하게 활용할 수 있는 기술들입니다.

 

▲ 튜링 그래픽 카드에 와서 새롭게 바뀐 부분 중 하나는 비디오 인코딩 및 디코딩 기능입니다. HEVC(H.265) 코덱을 통해서 실시간으로 8K 30Hz HDR 화면을 인코딩하는 것이 가능해졌으며, HEVC와 H.264 코덱에서 각각 최대 25% 및 최대 15%의 비트레이트 절약할 수 있도록 효율이 증대됐습니다. 특히 이런 인코딩 성능의 향상은 그래픽 카드를 활용한 스트리밍에서 각광받을텐데, 1080P를 기준으로는 x264 CPU 가속에 비해 현저히 낮은 CPU 사용률과 무손실 프레임을 제공할 수 있으며, 4K 해상도에서 CPU 사용율과 드랍 프레임의 비율이 1% 수준에 그쳐 원활하고 깨끗한 방송 송출이 가능하겠습니다.

 

▲ 지금까지 소개한 튜링 아키텍처가 적용된 TU102 풀 다이 스펙입니다. RTX 2080 Ti에 해당하는 TU102는 컷칩이지만, 풀 다이에 근접하는 성능을 보여줍니다.

 

리뷰 목차

  • profile
    WeisseLuchs 2018-09-14
    정말 대단하네요. 잘 봤습니다.
    남은 리뷰들도 기대하겠습니다 :))
  • profile
    -쉐도우 2018-09-14
    거대한 다이 ㄷ. 2070이 깡성능만으로는 1080에 어떨련지 하고 있는게 아쉽네요. 980ti--1070옆글을 해봤던 사람이라 더더욱이요.

    결국 게임사가 저런 기술들을 사용을 과연 할 것인지가 문젠데, 소니와 마소의 새로운 콘솔쪽은 또 암드랑 쎄쎄세하고 있으니 말이죠.
  • profile
    Xeolite 2018-09-15
    벤치를 기대합니다아앗!!
  • profile
    ZerothS 2018-09-15
    간만에 보는 즐거워지는 글입니다 ㅠㅠ
    벤치 기대합니다!
  • profile
    루니크 2018-09-15
    크기는 비슷하군요.
    성능 기대되네요.
  • profile
    반달의눈 2018-09-15
    제가 위의 글을 다 읽어보진않았는데..
    레이트레이싱 기술 적용하면 프레임 반토막나면 안하느니 못할것같은데..
    그리고 실시간 레이트레이싱기술이든 가짜로 흉내낸 레이트레이싱기술이든 어떤 기술이든간에.. 그냥 사람눈에만 최대한 리얼하게만 보이면 짱이라고 생각되여..
    영화에 주인공이 CG건 진짜 사람이건간에 관객눈에는 리얼하게만 보이면 되듯이..
    근데 게임은 프레임이 있으니깐여..
  • profile
    민트유리 2018-09-18
    60라인도 빨리 좀 나오면 좋는데 2019년이라니 ㅠ
  • profile
    족제비 2018-09-18
    성능이 궁급합니다 ㅎㅎ 남은 리뷰 기대하겠습니다.
  • profile
    러브유 2018-09-18
    개인적으로 기존과 비교와 디자인은 다소 아쉽지만, 소음만큼은 크게 개선되었을 것으로 보이네요 -ㅅ-
  • profile
    팟피몬 2018-09-18
    레퍼가 투팬을 달고 나오다니 신기하네요 ㄷㄷ
  • profile
    폭풍의용자 2018-09-19
    이렇게 매력적인 디자인이라니... 디자인 하나만 봐도 뽐뿌가 확 오네요 ㄷㄷ...
  • profile
    소원하는자 2018-10-07
    RTC형태로 작동가능하다는건데... 지금 OS부터와 괴를 달리하는대요..ㄷㄷ 그리고 스마트계열도도 순수한 RTC는 포기하고 가는 추세인데...

    단순작업에서는 가능하지만 여러가지 작업을 동시에 하는 멀티 테스킹 환경에서 과연 그래픽코어가 RTC성능을 내주실지 관건입니다.

    하드웨어 안되면 그냥 이제 작동도 안되는 시대가 오는건가요? ㅋㅋ 하드웨어 구려도 조금 딜레이있게 사용할수 있는 상용컴퓨터에서 말이죠 ㅋ
  • profile
    thebest 2018-10-15
    래퍼런스인데 팬이 두개라서 그런지 gtx 시리즈 보다는 발열이 조금 있을것같은데...

  1. MSI GeForce RTX 2080 Ti GAMING X TRIO D6 11GB

    지난 2018년 9월 19일 오후 10시, NVIDIA는 GeForce RTX 20 시리즈에 대한 엠바고를 정식으로 해제함과 동시에 각종 미디어를 통해서 GeForce RTX 20 시리즈의 실제 성능을 공개했습니다. 플레이웨어즈에서도 각종 테스트를 통해서 GeForce RTX 20 시리즈의 성능을 살펴본 바가 있었으며, 이전 세대 성능 향상비와 비교해본...
    Date2018.09.26 CategoryVGA ByJesuaR Views5608
    Read More
  2. GIGABYTE H310M DS2V 듀러블에디션 : 프리뷰

    인텔 기준 i7 이상 하이엔드 제품군들은 '성능'을 강점으로 삼고 있으나 모든 사람들이 그 성능 및 기능들을 필요로 하지는 않기 때문에 i5 이하 메인스트림 제품군들이 판매량으로 보자면 월등히 많습니다. 이들 제품군에서 가장 중요한 것은 '가성비(가격대성능비)'이며,특히 기능,혹은 구성 한 두가지 ...
    Date2018.09.21 Category메인보드 By플웨즈 Views1656
    Read More
  3. MSI GeForce RTX 2080 Ti GAMING X TRIO : Preview

    2018년 9월 19일 한국 시간 오후 10시를 기준으로 엠바고가 해제된 GeForce RTX 20 시리즈는 구조가 변경된 CUDA 코어와 레이 트레이싱 연산을 담당하는 RT코어, 딥러닝 기반의 빠른 연산을 처리하는 텐서코어가 하나의 다이로 묶여 GPU의 개념을 새롭게 확립한 제품이었습니다. 2년이라는 공백을 깨고 NVIDIA가 야심차게 ...
    Date2018.09.20 CategoryVGA ByJesuaR Views2876
    Read More
  4. GIGABYTE GeForce RTX 2080 Gaming D6 8GB : Preview

    드디어 많은 게이머가 기다려오던 NVIDIA의 신형 그래픽 카드, RTX 20 시리즈가 그 모습을 드러냈습니다. 새롭게 공개된 GeForce RTX 20 시리즈의 파운더스 에디션 모델은 기존의 블로워 팬 디자인을 과감히 던져버리면서 2개의 플라워형 팬을 탑재해 소음과 쿨링 성능이라는 두 마리의 토끼를 모두 잡겠다는 포부를 밝혔고...
    Date2018.09.20 CategoryVGA ByJesuaR Views2199
    Read More
  5. NVIDIA GeForce RTX 20 시리즈 : GPU의 재정의

    플레이웨어즈에서는 지난 2018년 9월 14일, 한국 시간으로 오후 10시를 기점으로 튜링 아키텍처에 대한 엠바고가 공식 해제되는 것을 기념하여 제품 언박싱 사진과 함께 GeForce RTX 에디터스 데이에서 발표되었던 프리젠테이션의 내용을 소개해드린 바가 있었습니다(링크 바로가기). NVIDIA는 정수부와 실수부 연산을 처리...
    Date2018.09.19 CategoryVGA ByJesuaR Views7916
    Read More
  6. 스카이디지탈 아리아판 벽걸이 CD플레이어2

    소니 워크맨이 활발하던 시절, 아재세대인 필자는 처음 CD플레이어로 이적(그당시 그룹명 패닉)의 "달팽이"를 들었을 때의 감동이 아직도 잊혀지지 않습니다. 그 만큼 아날로그에서 디지털로의 변화는 극적이었으며 충격적이었는데... 그 당시 태어난 세대가 성인이 된 지금 디지털 음원, 네트워크의 발전으로 인해 스트리...
    Date2018.09.18 Category음향기기 By플웨즈 Views1517
    Read More
  7. NVIDIA GeForce RTX 20 시리즈 미리보기 : 언박싱 및 튜링 아키텍처 소개

    ▲ GeForce RTX - Graphics Reinvented (Up to 2160P) 하드웨어의 발전은 어디까지 이어질 수 있을까요? 컴퓨터가 아직 많은 이들에게 활용되지 않던 시절에는 3D 구체 하나를 생성하는 것만으로도 굉장한 일이었을 것입니다. 2D 그래픽으로 3D를 모사하던, 소위 말하는 2.5D 그래픽이 등장하던 시절만 해도 그래픽의 수준이...
    Date2018.09.14 CategoryVGA ByJesuaR Views5954
    Read More
  8. SSD 데이터도 복구 가능, 씨게이트 바라쿠다 SSD 및 레스큐 플랜 소개

    ▲ The Guardian Series of Internal Hard Drives (한국어 자막 / Up to 1080P) 1990년대 후반과 2000년 초까지만 해도 하드디스크 시장은 춘추전국시대에 가까웠습니다. 지금은 흡수병합 되거나 없어진 제조사가 많지만 당시에는 여러 제조사가 앞다투어 하드디스크를 제조해내었고, 국내만 하더라도 삼성이 하드디스크를 ...
    Date2018.09.14 CategorySSD ByJesuaR Views8040
    Read More
  9. 마이크로닉스 MANIC i168

    국내 게임시장 특성은 혼자 플레이하는 패키지 보다는 다수가 함께 즐기는 온라인 게임의 영역이 훨씬 더 크게 자리잡고 있습니다. 온라인 게임의 특성상 빠른 마우스 포인팅, 키보드 인풋만큼 중요한 것이 유저간의 커뮤니케이션입니다. 따라서 "게이밍 헤드셋"은 국내에서 꾸준히 큰 인기를 인기를 끌어왔으며 앞으로도 ...
    Date2018.09.14 Category음향기기 By플웨즈 Views1253
    Read More
  10. Colorful CN600S M.2 2280 240GB

    하드디스크를 쓰던 시절, 저장 장치는 일반적인 시스템 내에서 가장 느린 장치로 취급되었습니다. 특히 하드디스크와 혼용하여 사용하던 플로피 디스크는 답답할 정도의 속도였는데, 플로피 디스크의 특성상 인식 불량이나 데이터 손상이 잦고 전송 속도 자체도 느려 다방면에서 문제를 안고 있었습니다. 당시 함께 활용되...
    Date2018.09.13 CategorySSD ByJesuaR Views2514
    Read More
목록
Board Pagination Prev 1 ... 13 14 15 16 17 18 19 20 21 22 ... 334 Next
/ 334