인텔 프로세서 성능 향상의 역사
상태바
인텔 프로세서 성능 향상의 역사
  • 정환용 기자
  • 승인 2016.05.30 16:17
  • 댓글 2
이 기사를 공유합니다

반도체업계, 무어의 법칙 포기하다

인텔의 공동 창업차 고든 무어는 1965년 당시 잡지 ‘일렉트로닉스’에 실었던 논문 형태의 글에서 ‘반도체의 집적회로 성능은 2년마다 2배로 증가한다’는 말을 했다. 세간에는 그 주기가 18개월로 알려져 있는데, 무어는 18개월이라고 말한 적이 없다. 아래의 그래프를 보면 2년 주기로 성장해 온 역사가 무어의 법칙과 잘 맞는 걸 볼 수 있다. 성능의 향상은 곧 프로세서에 집적되는 트랜지스터의 숫자로 가늠할 수 있는 만큼, 사람들은 프로세서에 얼마나 많은 트랜지스터가 집적되는지에 항상 관심을 보여 왔다.

2010년 이전에 이미 프로세서의 동작 속도는 한계에 다다랐다. 2년에 2배 상승하는 폭을 따라가려면 CPU의 코어 집적도를 계속해서 높여야 하는데, 제한된 크기에 트랜지스터를 집적하는 기술에 물리적인 한계가 왔기 때문이다. 최신 제품인 ‘스카이레이크’ 라인업이 14nm 공정으로 제작됐는데, 생물의 DNA 한 가닥의 지름이 2.5nm인 점을 감안하면 얼마나 미세한 작업인지 상상하기 어려울 정도다.

그래서 방향을 전환한 것이 멀티 코어 기술이다. 현재 스카이레이크 i7-6700K는 물리 코어 4개에 가상 스레드를 8개로 활용할 수 있다. 각 코어는 4.0GHz로 동작하는데, 이는 i7-4790K 데빌스캐년과 함께 인텔 CPU 사상 최고 속도다.(AMD 프로세서의 경우 4.0GHz 이상의 속도를 가진 제품이 몇 있다. FX 9590은 4.7GHz로 CPU 전체를 통틀어 단일 코어 속도로는 가장 빠르다) 현존하는 최대 숫자의 코어가 집적된 프로세서는 일반 소비자용이 아니라 전문가용으로 개발된 ‘인텔 제온 Phi’ 제품군으로, 동작 속도는 1.238GHz로 낮아 보이지만 최대 61코어와 244스레드로 구성된 PCIe 프로세서다.

단적으로, 1979년에 트랜지스터가 29,000개 집적된 ‘8088’이 출시됐다. 무어의 법칙에 따르면, 지금까지 18번의 트랜지스터 집적 수가 두 배씩 증가해 왔을 것이다. 37년이 지난 현재는 최대 720억 개의 트랜지스터를 품고 있는 프로세서(제온 브로드웰 E5 시리즈)가 출시돼 있다. 29,000에 2를 18번 곱하면(29,000 X 218) 약 76억이니, 대강의 계산으로는 꽤 정확한 법칙이다. 하지만 반도체 업계는 더 이상 제조 공정의 소형화가 어렵고, 가능하다 해도 이로 인한 생산비용의 전복(顚覆)이 우려된다고 했다. 최저 5nm까지는 이론적으로도 가능하지만, 그 이상은 어렵다는 것이다. 고든 무어가 얘기했던 성능 향상의 법칙이 어떻게 진행돼 왔는지, 인텔의 역사를 되짚어 보며 알아보자.

▲ 1979년 출시된 'Intel 8088'(왼쪽)은 29,000개의 트랜지스터가 집적됐고, 40년이 채 못 된 2016년 현재는 72억 개가 집적된 'Xeon E5 Broadwell'이 출시됐다. 제조공정은 1979년 대비 0.4%로 소형화됐다.

 

▲ 1971년 인텔이 출시한 최초의 마이크로프로세서는 ‘Intel 4004’였다. 10마이크로미터(㎛) 공정으로 생산된 4004는 14㎟의 면적에 3,500개의 트랜지스터가 집적됐다. 그리고 약 40여년이 지난 현재 최신 6세대 프로세서에는 약 17.5억개의 트랜지스터가 집적돼 있다.


 

Intel 8088
생산: 1979년
제조공정: 3,000nm
트랜지스터: 29,000개

1978년 개발된 8086을 기반으로 만들어진 8088은 5~10MHz의 속도로 동작했다. 지금 보면 하찮은 속도지만 당시 PC계의 공룡이었던 IBM의 PC에 많이 사용된 프로세서였다. 더불어 8088이 개발된 시점의 인텔은 지금처럼 거대하지 않아서, 마이크로 프로세서의 기술을 다른 회사와 공유하라는 IBM의 압박에 고개를 조아려야 했다. 그리고 이 기술을 전수받은 AMD가 점점 거대해지며, 인텔은 스스로 호랑이 새끼를 키운 격이 됐다.

 

Intel 80186
생산: 1982년
제조공정: 3,000nm
트랜지스터: 55,000개
1982년에는 트랜지스터 집적률를 두 배 가까이 높인 80186이 개발되는데, 속도는 6~12MHz로 크게 나아지진 않았다. 하지만 8비트였던 외부 버스를 16비트로 높였고, 일부 개별 명령어의 처리 속도는 8086보다 최대 20배 가까이 빠르기도 했다. 연산 능력은 초당 1백만 개의 명령을 처리할 수 있었다. 하지만 당시 IBM PC와의 호환성이 없어 개인용보다는 임베디드 시스템 등에 많이 사용됐고, 학습용이나 그래픽 워크스테이션에도 사용됐다.

 

Intel 80286
- 트랜지스터 집적 수 2배 돌파,
‘286 컴퓨터’의 프로세서
생산: 1982년
제조공정: 1,500nm
트랜지스터: 134,000개
익히 알고 있는 80년대의 ‘286 컴퓨터’가 이 이름에서 나왔다. 당시 IBM의 ‘갑질’에 시달렸던 인텔은, 새로 등장한 PC 제조업체 컴팩과 손을 잡고 IBM PC와 호환되는 컴퓨터를 80286을 기반으로 제작, 출시했다. 이를테면 IBM의 하청업체 정도였던 인텔이 새로운 파트너를 만나 갑과 을의 관계를 뒤집기 시작한 것이다. 13만여 개의 트랜지스터가 집적된 80286은 동작 속도가 최대 25MHz로 전작 대비 2배 이상 빨라졌다.

 

Intel 80386
생산: 1985년
제조공정: 1,500nm
트랜지스터: 275,000개
PC를 다뤘던 사람들 중 ‘386 컴퓨터’를 모르는 사람은 없을 것이다. x86 CPU 시리즈 처음으로 32비트 아키텍처로 만든 80386은 16~40MHz의 획기적인 속도로 성능이 크게 향상됐다. 80386을 사용한 PC도 IBM보다 컴팩을 통해 먼저 생산됐다. 하지만 프로세서와 메인보드의 가격이 높아 보급 속도는 매우 더딘 편이었다. 몇 년 뒤 동일한 구조에 외부 버스가 16비트로 제한된 저가형 제품이 추가돼 보급 속도에 박차를 가할 수 있었다.

 

Intel 80486
- 트랜지스터 1백만 개 돌파
생산: 1989년
제조공정: 1,000nm
트랜지스터: 1,180,235개
처음으로 단일 프로세서에 트랜지스터가 1백만 개가 넘게 집적됐다. 80486은 제조 공정도 전작의 2/3로 작아지고, 트랜지스터 집적도도 4배가 되며 동작 속도가 최대 133MHz로 빨라질 수 있었다. 8KB 용량의 명령어·데이터 캐시 메모리가 추가됐고, 부동소수점 연산을 도와주는 코프로세서가 기본으로 장착되기도 했다. 덕분에 같은 동작 속도에서의 성능은 전작 80386DX보다 2배 가까이 향상됐다. 이 라인업부터 방열판과 CPU 쿨링팬이 필수가 됐다.

 

Pentium
- 제조공정 첫 100nm 단위 진입
생산: 1993년
제조공정: 800nm
트랜지스터: 3,100,000개
인텔은 이전까지는 모델명으로 항상 숫자를 사용했으나, 숫자 모델명을 독점할 수 없다는 소송 판결을 받고 신제품 이름에 586 대신 ‘펜티엄’이라는 이름을 사용했다. 처음으로 제조 공정이 백 nm 단위로 작아졌고, 트랜지스터 집적도 3배, 동작 속도도 60~300MHz로 2배 이상 빨라졌다. 기자가 386 컴퓨터 다음으로 구입했던 것이 166MHz 속도의 펜티엄 MMX 프로세서 기반의 PC였던 것이 기억난다.(당시에는 PC를 잘 몰라서 바가지 좀 썼다)

 

Pentium Pro
생산: 1995년
제조공정: 500nm
트랜지스터: 5,500,000개
인텔의 프로세서 업계 점령은 계속됐고, 인텔은 성능 대비 가격보다는 성능 향상에 집중했다. ‘펜티엄’이란 접두사를 가진 제품군이 계속 출시됐는데, ‘펜티엄 프로’는 일반 사용자보다는 고성능 PC에 많이 사용됐다. 동작 속도는 150~200MHz 정도여서 성능 향상은 크지 않았지만 2차(L2) 캐시 메모리가 256KB, 512KB 용량으로 탑재됐다. 하지만 이 때문에 가격대가 높았고, 업그레이드에도 제한이 커서 일반 사용자들에겐 환영받지 못했다.

 

Pentium III Katmai
- 제조공정 소형화 가속
생산: 1999년
제조공정: 250nm
트랜지스터: 9,500,000개
마이크로아키텍처의 제조 공정은 계속 소형화됐다. 펜티엄 3에 이르러 그 크기는 250nm까지 작아졌고, 트랜지스터 집적도는 더욱 높아졌다. 코어의 규격에 따라 총 4가지 제품군으로 출시됐는데, ‘카트마이’는 트랜지스터는 950만 개가 집적돼 사실상 1천만 개에 상당하는 정도를 탑재할 수 있을 만큼의 기술력을 입증할 수 있게 됐다. 동작 속도는 450~600MHz로 계속해서 빨라졌고, FSB(Front Side Bus)도 100/133MHz로 빨라졌다.

 

Pentium III Coppermine
생산: 1999년
제조공정: 180nm
트랜지스터: 21,000,000개
펜티엄 3에서 가장 큰 성능 향상을 이룬 ‘코퍼마인’은 트랜지스터 집적 2천만 개를 돌파하고, 제조공정을 200nm 이하로 낮춰 생산됐다. 더불어 펜티엄 프로 이후에 다시 L2 캐시 메모리를 다이에 내장하며 슬롯 방식에서 소켓 방식으로 돌아오기도 했다. 인텔 프로세서 최초로 동작 속도 1GHz를 넘긴 제품이기도 하다. 당시 펜티엄 2 프로세서를 지원하는 메인보드 대부분이 펜티엄 3도 지원해 완제품 뿐 아니라 업그레이드용으로도 많이 판매됐다.

 

Pentium III Tualatin
생산: 2001년
제조공정: 130nm
트랜지스터: 45,000,000개
펜티엄 3 시리즈 최고의 성능을 자랑했던 ‘투알라틴’은 제조공정 소형화는 물론, 2년여 만에 트랜지스터를 2배 이상인 4,500만 개 집적하며 1,4GHz 속도를 달성했다. 이는 이후에 출시된 펜티엄 4 윌라멧 시리즈보다 높은 성능으로, 당시 판매되던 완제품 PC 중 투알라틴이 장착된 PC는 어느 브랜드에서도 가장 비싼 제품이었다. 메인보드에서 이를 지원하는 모델이 많지 않아 보급이 빠른 편은 아니었다. 당시 MS의 게임 콘솔 Xbox에도 사용됐다.

 

Pentium IV Prescott
- 트랜지스터 첫 1억 개 돌파,
제조공정 10nm 단위 진입
생산: 2004년
제조공정: 90nm
트랜지스터: 112,000,000개
7번째 x86 아키텍처 프로세서인 펜티엄 4는 싱글 코어 시대의 마지막 프로세서였다. 윌라멧, 노스우드를 거쳐 2004년 발표된 세 번째 라인업 ‘프레스캇’은 처음으로 제조공정이 10 단위로 낮아졌고, L2 캐시 메모리도 1~2MB를 탑재했다. 트랜지스터는 처음으로 1억 개를 넘겼고, 마지막 시리즈인 6x0에선 1억6,900만 개를 집적했다. 동작 속도는 2.4GHz부터 3.8GHz까지 향상됐지만, 발열이 심해 ‘프레스핫’으로 불리는 굴욕을 안기도 했다.

 

Pentium D
- 트랜지스터 집적 수 3배
생산: 2006년
제조공정: 65nm
트랜지스터: 362,000,000개
펜티엄 D는 인텔이 ‘펜티엄’이란 이름을 사용한 마지막 제품으로, ‘스미스필드’와 ‘프레슬러’ 시리즈로 발표됐다. 사실 이 제품은 코어 2 듀오보다 먼저 듀얼 코어를 사용한 프로세서였지만, 동시에 제품 자체에 문제가 많았다. 트랜지스터를 3억 개 넘게 집적했지만, L2 캐시가 공유가 아니라 절반씩 나눠 집적돼 코어 간 병목현상이 심했고, 발열도 무척 심했다. 반 년만에 제대로 된 듀얼코어 프로세서가 등장하며 빠르게 사장된 비운의 제품이다.

 

Core 2 Duo Conroe
- 첫 듀얼(2) 코어,
트랜지스터 숫자 감소
생산: 2006년
제조공정: 65nm
트랜지스터: 291,000,000개
텍사스의 도시 이름을 따 온 코어 2 듀오 ‘콘로’를, 진정한 ‘인텔의 첫 듀얼 코어’로 인정하는 사람이 더 많다. 트랜지스터 집적도는 전작인 펜티엄 D보다 낮지만, 제조 공정을 45nm로 줄이고 전력 소모도 효율적으로 낮췄다. 콘로부터 울프데일까지 다양한 모델명으로 생산됐으며, 1.06~3.33GHz 속도의 코어 2개가 협업하는 구조로 동작한다. 절연막을 기존의 실리콘에서 누전을 줄일 수 있는 신소재인 ‘high-K’ 물질로 바꾼 첫 프로세서다.

 

Core 2 Quad
- 인텔 첫 쿼드(4) 코어
생산: 2008년
제조공정: 45nm
트랜지스터: 731,000,000개
트랜지스터를 2배 이상으로 늘인 코어를 2개 더 늘여 총 4개의 코어를 사용한 ‘코어’ 시리즈. 이 때부터 ‘펜티엄’이란 이름이 다른 제품군으로 분류됐다. 그 유명한 ‘켄츠할배’ 켄츠필드가 이 제품군에 속하며, 명예의 전당에 올라도 될 만큼의 성능으로 큰 인기를 끌었다.(아직도 현역으로 사용되는 켄츠필드는 오버클럭 연습용으로도 좋다) 켄츠필드는 65nm로 생산됐지만, 후속작 ‘요크필드’는 45nm로 공정이 개선됐다. 트랜지스터 집적도는 7억 개 돌파.

 

Core i7 Sandy Bridge
- 첫 내장그래픽 탑재,
트랜지스터 10억 개 돌파
생산: 2011년
제조공정: 32nm
트랜지스터: 1,160,000,000개
지금의 인텔 CPU를 부르는 ‘세대’를 만든 것은 2008년 생산된 ‘네할렘’이다. 하지만 제조공정을 32nm로 개선했음에도 제품군이 다양하지 못해 2세대인 ‘샌디브릿지’에 묻혔다. 같은 32nm 공정으로 생산된 샌디브릿지는 처음으로 트랜지스터 10억 개 넘게 집적했고, 내장그래픽을 최초로 탑재하기도 했다. 코어 i3, i5, i7 등 3개 라인업을 구분하고, 펜티엄·셀러론으로도 생산됐다. 이 구분은 3세대에서 제온이 추가되며 지금까지 이어져 오고 있다.

 

Core i7 Ivy Bridge
생산: 2012년
제조공정: 22nm
트랜지스터: 1,400,000,000개
3세대 코어 시리즈인 ‘아이비브릿지’는 제조 공정을 22nm로 소형화하고 14억 개의 트랜지스터를 집적한 제품군이다. 또한, 물리적인 한계를 극복하기 위해 최초로 트랜지스터를 3차원 구조로 집적시켜 성능 향상과 함께 전력 소비효율도 높였다. 다만 이전 세대 대비 발열을 제대로 잡지 못했는데, 코어를 납땜하는 솔더링이 아니라 서멀 컴파운드를 채우는 방식을 사용한 때문이다. 통합 GPU 성능이 전 세대 대비 200% 가까이 향상된 점이 특징이다.

 

Core i7 Haswell-E
- 범용 옥타(8) 코어 프로세서
생산: 2014년
제조공정: 22nm
트랜지스터: 2,600,000,000개
아이비브릿지의 다음 세대 ‘하스웰’ 프로세서는 제조공정이나 트랜지스터 집적도가 전작과 같은 수준이다. 트랜지스터를 늘린 것은 익스트림 시리즈로, 26억 개의 트랜지스터를 집적한 하스웰-E 5820K, 5930K 등의 제품군이다. 2011-V3 칩셋 사용으로 제품 크기가 코어 시리즈의 2배 가까이 크고, 코어도 6,8개를 사용해 효율보다는 성능에 집중한 프로세서다. 5820K의 경우 i7-6700K 스카이레이크 제품보다 저렴해 이를 사용하는 일반인도 꽤 있다.

 

Xeon Broadwell-E5
- 도코사(Docosa, 22)
코어 프로세서
생산: 2016년
제조공정: 14nm
트랜지스터: 최대 7,200,000,000개
14nm 제조공정으로 만들기 시작한 건 6세대 ‘스카이레이크’ 프로세서부터다. 그러나 제조공정의 개선과 2세대 트라이게이트 기술로도 트랜지스터 집적도는 크게 높아지지 않았다. 결국 코어 숫자를 늘려 성능을 개선했다. 국내에는 소개되지 않은 제온의 5세대 브로드웰 E5 프로세서는 22개의 2.0GHz 코어에 각 72억 개의 트랜지스터가 집적돼 있다. 아마도 무어의 법칙에 부응하는 프로세서의 막바지에 다다른 것 같다. 2017년으로 예상되는 10nm 공정의 프로세서 출시 이후에 이 법칙이 이어질 수 있을지 지켜보자.



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 2
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.
ㅋㅋㅋㅋㅋ 2018-07-15 10:41:32
미띤 ㅋㅋㅋㅋㅋ 빠짓것도 많고 역스이 기레기? ㅋㅋ

주정기 2016-08-05 05:14:00
인텔 cpu의 역사를 한눈에 알아볼 수 있도록 이해하기 쉽게 잘 요약해서 기사를 써주셨네요~!
기사를 읽다보니 어렸을적 xt 컴퓨터로 게임하던것 시절부터 펜티엄 컴퓨터로 업그레이드를 하기위해 인터넷을 뒤지고 용산전자상가를 찾아다니던 추억까지 떠올릴 수 있었던....
늦었지만, 좋은기사 잘 보고 갑니다.
기사를 써 주신 정환용 기자님께도 감사합니다.