컴퓨터는 처음 등장한 이후 지금까지 수십 년에 걸쳐 가파른 성능 향상을 달성해 왔다. 이런 성능 향상의 이면에는 당대의 첨단 제조 기술의 한계에 대한 끊임없는 도전이 있었고, 이 도전은 이제 물리적인 한계에 가까워지고 있다. 대표적으로, 반도체 공정의 미세화는 현재 노드 명이 물리적인 크기를 직접 지칭하지 않게 된 지도 제법 오래 됐지만, 바야흐로 나노 시대를 지나 나노의 1/10인 ‘옹스트롬(Angstrom)’ 시대를 앞두고 있다.

컴퓨터의 각 구성 요소들이 설계 기술과 반도체 제조 공정 기술 등에 따라 성능이 급격히 올라가면서, 이들을 연결하는 인터페이스 성능의 향상 또한 중요해졌다. 현재의 컴퓨터 구조에서는 중앙처리장치(CPU)와 메모리, 저장장치와 다양한 주변 장치들과의 연결에서 가장 느린 부분의 성능이 전체 성능의 향상을 막는 ‘병목 지점’이 되기 때문이다. 특히 이는 오늘날 초거대 클라우드 인프라로 다루는 AI와 빅데이터의 시대에 다시금 모두의 목마름으로 등장했다.

하지만, 반도체 칩과 이를 연결하는 인터페이스 모두 지금 필요하다고 갑자기 성능을 높일 수는 없다. 이제 상상하기도 힘든 차원의 기술이 됐지만, 여전히 컴퓨터의 기술은 ‘물리 법칙’ 아래에 있기 때문이다. 즉, 전송 속도를 높이기 위해서는 물리적인 배선 당 전송 속도를 높이거나, 혹은 물리적 배선 수 자체를 늘려야 한다. 그리고 양 쪽 모두 기존의 규격으로는 한계에 가깝게 되면, 이를 극복할 새로운 기술이 새로운 접근법과 함께 등장하고는 한다.

미국 아르곤 국립연구소에 도입된 ‘오로라’ 슈퍼컴퓨터의 개별 노드 / 권용만 기자
미국 아르곤 국립연구소에 도입된 ‘오로라’ 슈퍼컴퓨터의 개별 노드 / 권용만 기자

더 빠른 인터페이스 도입, 시스템 디자인을 바꾼다

오늘날 PC에서 슈퍼컴퓨터에 이르기까지 모든 컴퓨터에서 더 빠른 인터페이스를 구현하는 데 있어 가장 근본적인 난관은 ‘거리’와 ‘밀도’다. 구체적으로, 오늘날의 시스템 설계는  현실적으로 한정된 공간과 거리 안에서 필요한 성능을 얻기 위한 어려운 퍼즐 맞추기 같은 과정이다.

전송 속도가 높은 인터페이스는 CPU 근처에서 멀리 떨어질 수 없고, 연결 거리가 늘어날 수록 아주 비싸진다. 이에 CPU 등 핵심 연산 장치 주변 공간의 가치도 높아졌다.

메모리나 저장 장치, 혹은 주변 기기를 연결하는 인터페이스에서 성능을 높일 수 있는 방법은 두 가지다. 장치와의 물리적 연결을 늘려 동시에 여러 개의 정보를 가져오거나, 혹은 물리적으로 연결된 배선의 동작 속도를 높여 같은 시간에 더 많은 정보가 도착할 수 있게 하는 것이다. 흔히 전자의 접근 방식을 ‘병렬식’, 후자의 접근 방식을 ‘직렬식’이라 하는데, 각각의 특성이 있지만 궁극적으로는 이제 두 방법의 ‘황금 비율’을 찾는 것이 중요한 과제가 됐다.

물론, 현실적으로 이러한 방법이 무한히 확장될 수는 없다. 당장 데이터 전송을 위한 연결의 동작 속도를 올리면, 실질적으로 문제 없이 사용할 수 있는 거리와 연결의 물리적 품질이 문제가 된다. 그리고 연결 수를 늘리면 면적과 설계의 복잡성, 그리고 동작 속도 향상에서의 현실적 제약 등이 발목을 잡는다. 이에 더 복잡한 설계를 제품화하기 위해서는 더 많은 층수를 가진 고품질 기판과 고급 부품들을 사용해야 하고, 이는 제품의 가격에도 바로 반영된다. 

이는 사실 칩 뿐만 아니라 시스템, 제품 단위에서의 설계에서도 대단히 어려운 문제다. 이에 비용 측면에서 상대적으로 관대한 고가의 데이터센터용 서버를 위한 플랫폼에는 8채널 이상의 DDR5 메모리와 PCIe(PCI Express) 5.0 규격이 많이 사용되지만, PC에서는 메모리 컨트롤러도 2채널 정도에 PCIe 5.0 또한 사용할 수 없는 경우도 있다. 이는 다채널 DDR5 메모리 인터페이스 설계나 PCIe 5.0에 대응하기 위한 기준이 제법 까다로워서, 설계와 인증에도 무시할 수 없는 수준의 비용이 필요하기 때문이다. 

SK하이닉스의 HBM3 메모리 / 권용만 기자
SK하이닉스의 HBM3 메모리 / 권용만 기자

고성능 위한 HBM, 가격 비싸지만 오히려 경제적인 이유

최근 AI시대를 위한 고성능 GPU에서 사용되는 HBM(High Bandwidth Memory)은 이러한 딜레마 해결을 위한 한계에 도전한 사례기도 하다.

HBM이 주목받는 이유는 역시 ‘성능’인데, HBM은 칩 한 개에서 초당 수백 기가바이트(GB)를 전송할 수 있기 때문이다. 대표적으로, 엔비디아의 ‘H100’ GPU는 80GB의 HBM3 메모리를 사용하는데, 단 5개의 HBM3 스택을 사용해 총 3.35TB/s(초당 전송속도를 단위 테라바이트로 표기)의 메모리 대역폭을 얻었다. 

HBM이 고성능을 낼 수 있는 가장 큰 이유는 ‘버스 폭’이다. GDDR의 경우 다이당 인터페이스 버스 폭이 32비트 정도인데, HBM은 1024비트로 32배 넓다. 메모리 전송 속도는 인터페이스 버스 폭과 동작 속도의 곱으로 계산되는데, 같은 동작 속도라면 HBM 스택 1개의 대역폭 성능을 GDDR로 얻기 위해서는 칩 32개를 연결해야 하는 것이다. 물론 GDDR6X 등 최신 세대 메모리는 HBM보다 훨씬 높은 동작 속도로 동작해 실제 시스템 수준의 성능 차는 이보다 좁혀지지만, 현재의 HBM3와 GDDR6X를 비교하면 면적 대비 대역폭은 HBM쪽이 훨씬 높다.

HBM의 특징에는 장점과 단점이 모두 있다. 장점은 상대적으로 작은 면적에서 높은 대역폭을 얻을 수 있다는 것이다. 특히 고속 GPU를 위한 메모리는 GPU 가까이 배치되어야 하는데, 물리적으로 메모리를 장착할 공간이 없어 필요한 대역폭을 만들지 못하는 상황을 근본적으로 피할 수 있다는 것이다. 

예를 들어 GDDR6X의 경우 12개 메모리로 384비트 버스 폭을 만들면 1TB/s를 달성할 수 있는데, 12개 메모리를 모두 일정 기준 거리 이내에 배치하기는 쉬운 일이 아니다. 이에 고급형 그래픽카드들은 기판 뒷면까지 메모리를 붙이는 경우도 흔하다. 하지만 HBM3는 단 두 개로도 이를 훌쩍 넘을 수 있다. 보드 단위의 설계 또한 상대적으로 간편해진다. HBM의 경제성은 지금처럼 메모리 가격보다 성능과 공간이 소중할 때 성립한다.

CPU에 HBM을 결합한 인텔 제온 CPU 맥스 시리즈 / 권용만 기자
CPU에 HBM을 결합한 인텔 제온 CPU 맥스 시리즈 / 권용만 기자

단점은 더 넓은 버스 폭에 따른 물리적 배선의 어려움과 메모리와 연산 장치 간의 거리 제약이 극단적으로 심해진다는 것이다. HBM이 대부분 반도체 수준에서 첨단 패키징으로 직접 연결되는 현실적인 이유도 여기에 있다. 고밀도 배선 자체도 반도체 패키징 수준의 미세공정이 아니면 구현하기 힘들어서, 패키징 밖은 고사하고 패키징 안에서도 다이 간 직접 연결이나 수직 적층 등의 고급 패키징 기술이 HBM 사용에 필수적인 요소로 꼽힐 정도다.

한편, HBM은 현재 고성능이 필요한 CPU와 GPU 등 여러 장치에서 찾아볼 수 있다. 대표적으로는 엔비디아의 A100/H100 GPU, AMD의 MI250/300 시리즈 GPU 등에 사용됐다. 인텔의 ‘가우디 2’ AI 가속기나 ‘데이터센터 GPU 맥스 시리즈’ GPU, ‘제온 CPU 맥스 시리즈’ CPU에도 HBM 메모리가 탑재된 바 있다.

AMD는 이 HBM을 일반 소비자용 그래픽카드에도 탑재한 적이 있다. 2017년 발표한 ‘라데온 RX 베가’ 시리즈는 그 당시에는 파격적으로 HBM2 메모리를 사용했지만, 당시에는 그리 효과적이지는 못했다. 인텔의 프로세서에서도 다시는 나오기 힘들 조합으로 8세대 코어 프로세서 제품군에서 라데온 RX 베가 시리즈 GPU와 HBM2 메모리를 단일 제품에 패키징한 사례가 있다.

PCIe 5.0 지원은 성능이 올라간 만큼 비용도 높아졌다. / 권용만 기자
PCIe 5.0 지원은 성능이 올라간 만큼 비용도 높아졌다. / 권용만 기자

고속 인터페이스, 한계 넘기 위한 지속적인 도전 중

오늘날의 컴퓨터 시스템은 내, 외부 모두 ‘연결’과의 싸움이 이어지는 모습이다. PC 내부에서는 메모리나 PCIe 인터페이스 등에서, 외부에서는 USB나 유, 무선 네트워크에서의 속도 향상이 대표적이다. 이렇게 성능이 향상된 새로운 인터페이스는 이후 일반 사용자에게 보편화되기까지 제법 시간이 걸린다. 이렇게 시간이 걸리는 가장 현실적인 이유는 역시 ‘가격’ 때문이고, 새로운 기술을 위해 비용을 지출할 이유가 만들어지는 데도 시간이 필요하다.

PCIe 인터페이스나 USB 인터페이스 모두 ‘직렬’ 방식을 사용해, 적은 수의 연결에서도 동작 속도를 끌어 올려 전송 성능을 확보한 인터페이스다. 물론 USB의 경우 USB 3.0이 도입되면서 초기보다 물리적 핀 수가 늘어나기도 했다. 그리고 이렇게 연결당 동작 속도를 끌어올리면서, PCIe와 USB 모두 현실적으로 ‘거리’ 문제를 겪고 있다. 특히 USB의 경우 3.0 이후부터는 케이블의 길이와 품질이 사용 경험에 영향을 주는 경우를 제법 많이 겪게 된다.

PCIe는 3.0 규격까지는 업계 전반적으로 추세를 따라가는 데 별 문제가 없었지만, 4.0 부터는 본격적으로 기술 규격이 제품 가격에 영향을 주기 시작했다. 5.0에 이르러서는 이 문제가 더 심해져서, PC용 메인보드의 경우 PCIe 5.0 지원 여부가 가격에 제법 영향을 주기 시작했다. 여기에 메모리 규격도 DDR5로 전환되면서, 제품이 만족시켜야 할 기술 기준이 더 높아진 것이 가격에도 영향을 미쳤다. 인텔과 AMD 모두 최신 플랫폼 기반 메인보드의 가격이 제법 오른 데는 이런 이유도 있다.

유, 무선 네트워크 또한 ‘와이파이 6’와 ‘10Gbps’를 넘어가면서 성능 향상이 까다로워졌다. 유, 무선 모두 제한된 자원 안에서 성능을 끌어올려야 하는 시점에서, 물리적 연결 수나 동작 속도 모두 변화가 충분치 않은 상황에 직면한 것이다. 이 때 사용할 수 있는 것이 전송 주기마다 좀 더 많은 정보를 보낼 수 있는 ‘변조’다. 이미 유, 무선 고속 네트워크 환경에서는 다양한 방식의 변조 기술을 이미 사용하고 있고, 방식도 점점 고도화되고 있다.

하지만 변조를 사용하면 필연적으로 받는 쪽에서 이를 해석하는 ‘복조’가 필요하고, 변조 수준이 고도화될수록 변조와 복조에 필요한 연산량도 늘어난다. 이에 디바이스에 요구되는 성능도 높아지고, 단기적으로는 ‘가격’으로 연결된다. 최근까지 ‘와이파이 6’ 급 이상의 공유기는 제법 고가였고, 전력 소비량과 발열도 제법 컸던 이유도 여기 있다. 초기 10Gbps 네트워크 어댑터도 이 문제가 제법 심했고, 속도가 높아질 수록 더 심하다. 이런 부분들을 해결할 수 있는 ‘마법’은 사실 없고, 모두가 언젠가는 현실로 극복해야 할 부분들일 것이다.

권용만 기자 yongman.kwon@chosunbiz.com

이 기사에 대해 어떻게 생각하시나요?
+1
0
+1
0
+1
0
+1
0
+1
0

댓글을 남겨주세요.

Please enter your comment!
Please enter your name here