지금까지 이런 그래픽카드는 없었다.- 엔비디아 지포스 GTX680
상태바
지금까지 이런 그래픽카드는 없었다.- 엔비디아 지포스 GTX680
  • PC사랑
  • 승인 2012.04.27 11:18
  • 댓글 0
이 기사를 공유합니다



어떻게 효율을 높일 수 있었나
AMD 라데온 HD7970에게는‘ 세계 최초’란 으리으리한 이름이 유난히도 많이 붙었다. 28나노미터 제조공정, PCI 익스프레스 3.0, 다이렉트 X 11.1을 제일 먼저 도입했으니 자랑할 만하다. 신기술 도입과 신제품 출시에서 경쟁사보다 늦어진 엔비디아는 무엇을 내세워야 할까? 케플러 아키텍처의 지포스GTX680도 PCI 익스프레스 3.0이나 28나노미터 제조 공정을 도입했지만 엔비디아는 이런 특징을 크게 내세우지 않았다. 어차피 경쟁 회사 제품도 모두 갖춘 것들이기 때문이다. 엔비디아가 케플러에서 제일 크게 강조한 것은 바로 높은 효율이다.

작년에 열렸던 GDC 2011에서 에픽 게임스는 사마리안 데모를 공개했다. 지포스 GTX580 3개가 필요했을 정도로 높은 수준의 그래픽을 뽐낸 데모다. 1년이 지난 지금 에픽의 사마리안 데모는 지포스 GTX680 발표회에 한 번 더 등장했다. 뛰어난 그래픽은 1년 전이나 지금이나 달라진 것이 없지만 이번에는 지포스 GTX680 1개만으로 실행할 수 있었다. 이전 세대 제품과 비교해 극도로 높아진 효율은 어떻게 구현한 것일까? 답은 아키텍처 재설계다.

높은 효율의 비밀은 작은 코어
이전 세대인 지포스 GTX580은 GPU에 16개의 SM을 얹었다. 1개의 SM은 1개의 제어 회로와 32개의 스트리밍 프로세서로 구성한다. 이 구조에서 주목해야 할 것은 GPU에서 실제 연산을 하면서 성능에 큰 영향을 주는 부분이 스트리밍 프로세서라는 점이다. 엔비디아는 여기에 착안해 지포스 GTX680에서 SM을 발전시킨 SMX를 8개 얹었다. 192개의 스트리밍 프로세서를 하나의 제어 회로가 관리하면서, GPU 칩에서 제어 회로가 차지하는 비중이 줄어들어 그 자리에 더 많은 코어를 넣을 수 있게 됐다. 성능이 높아진 건 물론이고 성능 이외의 전기를 쓰는 부분이 줄어드니 전력 효율도 높아진다. 제어 회로와 함께 줄어든 캐시 용량은 캐시 성능을 늘려 해결했다. 지포스 GTX580의 GF110과 비교하면 지포스 GTX680의 GK104는 L2 캐시 대역폭이 73%, 캐시적중률이 30% 늘었다.

32개에서 192개로 변화는 제어 회로가 담당하는 코어 수를 무조건 늘린다고 되는 것은 아니다. 제어 회로의 부담을 줄여줄 알맞은 조치가 필수다. 엔비디아는 케플러에서 하드웨어 기반 명령 스케줄 관리를 줄이는 대신 드라이버 소프트웨어가 처리하는 비중을 늘렸다. 소프트웨어가 명령 스케줄을 미리 처리한 다음 하드웨어로 넘기면서 제어 회로가 처리하는 과정이 줄었다. 파이프라인 단계도 줄였다. 페르미는 GPU의 파이프라인 단계를 늘려 상대적으로 높은 클록을 내 성능을 높이는 방법을 골랐다. 그러나 케플러는 파이프라인 단계를 줄여 처리 과정을 간소하게 바꿨다. 때문에 케플러부터는 GPU 코어클록과 스트리밍 프로세서의 쉐이더 클록이 전 세대처럼 2배 차이가 아닌 똑같은 클록으로 작동한다. 클록은 줄였지만 코어 수를 늘리면서 성능과 전력효율 모두 높였다.

코어 크기를 줄이는 데는 메모리 시스템도 한몫 했다. GPU와 메모리 사이의 데이터 대역폭을 높이는 방법은 두 가지가 있다. 메모리 작동 클록을 빠르게 하거나 메모리 버스를 늘리는 것이다. 고급형 그래픽카드들은 메모리 버스를 늘리는 방법을 많이 쓰지만, 메모리 버스를 늘리면 GPU 다이에서 메모리연결 부분이 그만큼 커진다.
GPU 크기를 줄이려면 메모리 클록을 빠르게 하는 편이 낫다. 지포스GTX680의 메모리 버스는 지포스 GTX580의 384비트에서 256비트로 줄었지만 대신 메모리 유효 클록을 6GHz로 높여 메모리 대역폭은 지포스 GTX580과 같은 수준인 192.26GB/s를 유지했다.









이런 방법이 코어 크기를 얼마나 줄였을까? 지포스 GTX580의 GF110은 TSMC의 40나노미터 공정을 써서 30억 개의 트랜지스터를 넣는데 520㎟가 필요했다. 라데온 HD7970은 트랜지스터 수를 43억 개로 늘렸지만 TSMC 28나노미터로 제조 공정을 업그레이드해서 코어 크기는 365㎟에 그쳤다. 물론지포스 GTX580보다 성능도 더 좋다. 하지만 지포스 GTX680의 GK104에 견줄 정도는 아니다. 똑같은 TSMC 28나노미터 공정을 써서 만들었지만 코어설계 최적화로 지포스 GTX680의 트랜지스터 수는 35억 개에 머문다. GPU다이 크기는 294㎟로 훨씬 작다. GT200 아키텍처 이후 제일 크기가 작고 전력 이용량이 낮은 최상위 그래픽카드 GPU인 셈이다. 코어 크기가 작으면 제조 원가 절감부터 전력 이용량 감소까지 여러 장점이 있지만, 기능이나 성능이 못하지 않을까 의심이 들 수밖에 없다. 미리 답을 말하자면‘ 절대 그렇지 않다.’

더 빠르고 부드럽고 풍부하게 해줄 새 기능
지포스 GTX680의 새 기능은 달라진 코어 구조만큼이나 화려하다. 그 중 하나가 GPU 부스트다. CPU에선 TDP에 맞춰 코어 클록을 높여 성능을 향상시키는 인텔 터보 부스트나 AMD 터보 코어가 있다. GPU에서 이런 기능을 도입한 건 엔비디아 GPU 부스트가 처음이다. 그래픽카드의 전력 이용량과 점유율을 확인해 GPU와 메모리의 클록과 전압을 조절, TDP 범위 내에서 성능을 높인다. 미리 정해둔 설정 값에 따라 움직이는 것이 아니라 순수한 모니터링의 결과에 따라 실시간으로 변하는 것으로 성능을 훨씬 탄력적으로 조절할 수 있다. GPU 부스트는 자동으로 작동하기 때문에 이용자가 따로 설정할필요는 없으며 오버클록 해도 GPU 부스트는 여전히 작동한다.

다이렉트 X 11에서 제일 큰 관심거리 중 하나인 테셀레이션은 어떨까? 지포스는 항상 테셀레이션에서 강한 모습을 보였고 그것은 케플러에서도 변함없다. 케플러는 폴리모프 엔진을 2.0으로 업그레이드하면서 성능을 두 배로 높였다. 테셀레이션 엔진의 수는 절반으로 줄었지만 엔진 효율이 높아지면서 성능도 따라 늘었다. 테셀레이션과 함께 화려한 화면을 만들어줄 텍스처 성능도 강화했다. 텍스처 유닛의 수가 두 배로 늘어난 것은 물론이고, 100만 개넘는 텍스처를 동시에 조작할 수 있게 됐다. 전작에서 128개에 그쳤던 것과 비교하면 비교가 안 되는 큰 발전이다. 다만 아직 다이렉트 X에선 이 기능을 쓸 수 없어 OpenGL API에서만 볼 수 있다는 점이 아쉽다.





계단 현상을 줄여줄 안티 에일리어싱 기술도 발전했다. 높은 성능과 뛰어난 화질을 자랑하는 FXAA는 물론이고 TXAA가 새로 늘었다. TXAA의 작동 원리는 자세히 밝혀지진 않았지만 하드웨어 안티 에일리어싱 처리와 CG 필름 방식의 조합이며, TXAA의 T가 시간을 의미한다는 것 까지만 알려졌다. TXAA는 우선 케플러 아키텍처 그래픽카드부터 시작해 지포스 400과 500 시리즈등 다른 제품으로 확대할 계획이다. TXAA를 게임에 적용할 게임 개발사들도크라이텍과 에픽 게임스를 비롯해 다수 섭외한 상태다.

일반적인 LCD 모니터는 1초에 60번까지 화면을 갱신할 수 있다. 게임의 초 당프레임이 이를 넘어가면 화면의 위아래가 서로 엇갈리는 티어링(Tearing) 현상이 나타난다. 수직 동기화 기능을 켜면 프레임을 30fps나 60fps으로 맞춰티어링 현상을 없앨 수 있지만 수직 동기화 기능이 완벽한 건 아니다. 화면에 나오는 내용에 따라 초 당 프레임이 60fps에서 30fps로 급격하게 떨어지는 스투터(Stutter) 현상이 발생할 수 있기 때문이다. 이 문제를 해결해줄 수직 동기화 기능의 완성형이 적응형 수직 동기화(Adaptive Vertical Sync)다. 적응형수직 동기화는 초 당 프레임이 60fps 미만일 때 일시적으로 수직 동기화 기능을 꺼서 화면을 더 부드럽게 표시한다.

지포스 시리즈는 AMD가 아이피니티 기술을 선보인 후 줄곧 멀티 디스플레이 기능에서 라데온 시리즈에게 뒤졌다. 3대의 모니터에 3D 스테레오 효과를 표시하는 3D 스테레오 비전을 내놔 분위기 전환을 노렸지만 2개의 그래픽카드를 SLI로 구성해야만 쓸 수 있었다. 이 숙제도 케플러가 풀었다. 케플러는 SLI를 구성하지 않아도 그래픽카드 하나로 3D 스테레오 비전을 쓸 수 있다. 최대 연결할 수 있는 모니터 수는 4대로 늘었다. 3대의 모니터를 이어3D 화면을 표시하면서 나머지 한 대엔 2D 화면을 표시할 수도 있다. 화면 출력 개선과 함께 동영상 인코딩 엔진도 NVENC를 도입해 처리 속도와 동영상품질을 높였다.







이것이 진정한 울트라북이다
울트라북의‘ 울트라’는 이름만으로도 강력한 인상을 주기 충분하다. 울트라북의‘ 울트라’함은 얇은 두께, 가벼운 무게, 강력한 성능에서 찾을 수 있다. 하지만 여전히 CPU 내장 그래픽을 달고 있어 변변찮은 3D 게임 하나 돌릴 수 없다는 건 옥의 티다. 인텔은 울트라북에 대해 CPU 성능과 배터리 지속 성능, 무게와 두께, 빠른 응답 속도를 필수 요건으로 내세웠지만 3D 그래픽 성능에 대해선 딱히 정해두지 않았다. 외장 그래픽을 달면 울트라북의 필수인 얇은 두께와 긴 배터리이용 시간을 충족할 수 없기 때문에 그렇게 판단한 것으로 보인다. 여기에서 엔비디아는 인텔과 꽤 다른 의견을 가지고 있다. 강력한 CPU 성능은 더 말할 것도 없고 8시간 지속 배터리와 20mm의 얇은 두께에 최신 3D 게임을 쾌적하게 즐길 수 있어야 진짜 울트라북이라 부를 수 있다는 견해다. 일리 있는 주장이지만 지금까지 그런 노트북은 존재하지 않았다. 하지만 앞으론 다르다. 엔비디아가 지포스 600M 시리즈를 결합한 고성능 저전력 노트북을 공개했기 때문이다.

지포스 600M 시리즈는 케플러 외에 페르미 아키텍처도 섞여 있다. 배터리지속 시간을 늘리기 위해 클록을 자동으로 높이는 GPU 부스트 기능은 뺐다. 지포스 600M 시리즈의 대표 코어는 GK107이다. 2개의 SMX를 갖춰 최대384개의 스트리밍 프로세서를 쓰는 GPU다. 지포스 GT640M이면 <배트맨:아캄 시티> <배틀필드 3> <크라이시스 2> <엘더 스크롤 5: 스카이림>을 하이옵션에서 30fps 이상으로 즐길 수 있다. 아직은 지포스 600M 시리즈를 얹은 노트북이 에이서 타임라인 울트라 M3 하나뿐이지만 아이비브리지가 공식 출시되면 케플러 외장 그래픽과 조합한 노트북이 대거 쏟아질 전망이다.

데스크톱 PC 그래픽 최강자, 지포스 GTX680
케플러는 코어 크기를 줄여 전력 이용량을 낮췄다. 하지만 3D그래픽카드에서 제일 중요한 건 성능이다. 낮은 전력 이용은 3D성능이 충분히 높을 때 빛을 낸다. 전기를 덜 쓰는 만큼 3D 성능이 떨어진다면 그것은 당연한 것이지 놀랄 일은 아니다. 코어i5-2500K와 8GB 메모리, 128GB SSD로 구성한 테스트 시스템에서 지포스 GTX680은 엔비디아 최상위 그래픽카드다운 높은 성능으로 라데온 HD7970을 제치고 전력 이용량과 온도를 비교한 결과도 더 높은 수준을 보였다.







케플러 아키텍처, 이제 시작이다.
지포스 GTX680은 우수한 성능은 기본, 풍부한 기능에 낮은 전력 이용량까지 갖춰 최강 그래픽카드의 자리에 올랐다. 한 가지 아쉬운 건 아직 중급기와 보급기 소식이 없다는 것. 라데온 HD7900을 시작으로 7800과 7700이 연달아 나온 AMD와 비교하면 이상하리만큼 조용하다. 또 일부 익스트림 유저 중에는 더 비싼 값과 전기요금을 내고서라도 성능을 더 끌어올린 제품을 기대하는 경우도 있다. 지포스 GTX680이 플래그쉽에 어울리지 않게 전력 이용량이 낮기 때문이다. 어느 쪽이 됐건 바람은 같다. 데스크톱 PC와 노트북을 아우르는 케플러 아키텍처의 다음 그래픽카드가 나오길 기대한다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.