Google I/O 2025에서 언급된 TPU란 무엇인가?

 

 

Tools to Build With: Google I/O 2025

Take a look at the features announced at Google I/O 2025 and how they will help you as a developer.

www.telerik.com

 

2025 구글 I/O에서 공개된 7세대 TPU '아이언우드(Ironwood)' 🚀

2025년 구글 I/O (또는 구글 클라우드 넥스트 2025 행사)에서 구글은 차세대 AI 가속기인 **7세대 TPU '아이언우드(Ironwood)'**를 공개했다. 이 칩은 특히 AI 추론 성능을 극대화하는 데 초점을 맞춰 설계되었다고 한다.

아이언우드의 주요 특징은 아래와 같다.

  • 연산 능력: 아이언우드는 최대 9,216개의 칩을 하나로 묶어 **42.5 엑사플롭스(ExaFLOPs)**라는 엄청난 연산 성능을 제공할 수 있다. 이는 현존하는 가장 빠른 슈퍼컴퓨터보다도 수십 배 뛰어난 성능이며 개별 칩 또한 이전 세대에 비해 크게 향상된 성능을 자랑한다.

    🟦알면 좋고!
    플롭스(FLOPS, FLoating point Operations Per Second)는 컴퓨터의 성능을 나타내는 단위로, 1초당 수행할 수 있는 부동소수점 연산 횟수를 의미합니다. 여기에 크기를 나타내는 접두사가 붙습니다.
    • 기가플롭스 (GFLOPs): (초당 10억 번 연산)
    • 테라플롭스 (TFLOPs): (초당 1조 번 연산)
    • 페타플롭스 (PFLOPs): (초당 1,000조 번 연산)
    • 엑사플롭스 (EFLOPs): (초당 100경 번 연산)
    즉, 1 엑사플롭스는 1초에 100경 번의 연산을 수행하는 속도이다. 아이언우드의 42.5 엑사플롭스는 초당 4,250경 번의 연산이 가능하다는 뜻으로 2023년 11월에 발표된 TOP500 슈퍼컴퓨터 순위에 따르면
    1. 프론티어 (Frontier): 미국 오크리지 국립연구소(ORNL)에 설치된 슈퍼컴퓨터로, 실측 성능(Rmax)이 약 1.194 엑사플롭스 () 였다. 이는 인류 역사상 최초로 공식적으로 엑사플롭스 장벽을 넘은 시스템
    2. 오로라 (Aurora): 미국 아르곤 국립연구소에 설치되었으며, 당시 부분적으로 가동되어 약 585.34 페타플롭스 () 의 성능을 기록 (이후 2024년 초에 1 엑사플롭스를 넘는 성능을 달성함)
    3. 이글 (Eagle): 마이크로소프트 애저 클라우드에 구축된 시스템으로 약 561.2 페타플롭스 () 이다.
    아이언우드 (42.5 엑사플롭스)의 위력
    • 2023년 1위 슈퍼컴퓨터 '프론티어'()와 비교: 아이언우드의 42.5 엑사플롭스는 프론티어의 약 35.6배 ()에 달하는 엄청난 성능이다.
    • 단일 시스템으로서의 의미: 아이언우드 Pod 하나가 2023년 기준 전 세계에서 가장 강력한 슈퍼컴퓨터보다 수십 배 더 강력한 연산 능력을 갖추게 된다는 의미이다. 이는 AI 모델 학습, 특히 거대 언어 모델(LLM)이나 복잡한 과학 시뮬레이션 분야에서 이전에는 상상할 수 없었던 규모와 속도의 연구 개발을 가능하게 할 잠재력을 가지고 있다고 할 수 있다.
    물론, 슈퍼컴퓨터의 HPL (High-Performance Linpack) 벤치마크 성능과 AI 특화된 TPU의 FP8/FP16 등의 저정밀도 연산 성능을 직접적으로 단순 비교하는 것은 주의가 필요하겠지만 슈퍼컴퓨터는 주로 과학 기술 계산을 위한 배정밀도(FP64) 연산 성능을 중시하는 반면, TPU는 AI 모델 학습 및 추론에 최적화된 저정밀도 연산에서 극강의 효율을 보인다.

    그럼에도 불구하고, 아이언우드가 제시하는 42.5 엑사플롭스라는 수치는 AI 컴퓨팅 분야에서 압도적인 성능 향상을 의미하며, AI 기술의 발전 속도를 더욱 가속화할 중요한 이정표가 될 것이다.

  • 향상된 메모리 및 대역폭: 각 칩은 **192GB의 고대역폭 메모리(HBM)**를 탑재하고 있으며, 초당 7.2 테라비트(Tbits/s)의 메모리 대역폭을 지원합니다. 이는 대규모 언어 모델(LLM)과 같이 방대한 데이터를 처리해야 하는 AI 작업에 매우 유리하다.

  • 개선된 전력 효율: 이전 세대 TPU에 비해 성능 대비 전력 효율이 2배 향상되었을 뿐만 아니라 고성능 액체 냉각 기술을 적용하여 높은 부하에서도 안정적인 성능을 유지한다.

  • 확장성 및 유연성: 아이언우드는 다양한 규모의 AI 워크로드를 지원하기 위해 256개 칩 구성9,216개 칩 구성의 두 가지 옵션으로 제공될 예정이다. 또한, 'Pathways'라는 소프트웨어 스택을 통해 수만 개의 아이언우드 칩을 효율적으로 관리하고 확장할 수 있도록 지원한다.

  • 추론 시대의 핵심 인프라: 구글은 아이언우드를 단순한 하드웨어 업그레이드가 아닌, AI가 데이터를 수집하고 분석하여 더 깊이 있는 결과를 도출하는 '추론 시대'를 위한 핵심 인프라로 강조하고 있다. 특히 복잡한 연산을 실시간으로 병렬 처리하는 데 최적화되어, '생각하는 AI'를 위한 플랫폼으로서의 역할을 할 것으로 기대된다.

아이언우드는 2025년 내에 구글 클라우드 고객들이 사용할 수 있게 될 예정이며, AI 연구 및 실제 응용 분야에서 새로운 혁신을 이끌어낼 중요한 기반 기술이 될 것으로 전망되고 있다.

 


TPU vs. NPU: 뭐가 다를까? 🤔

TPU (Tensor Processing Unit)NPU (Neural Processing Unit) 는 둘 다 인공지능(AI) 및 머신러닝(ML) 작업의 속도를 높이기 위해 특별히 설계된 AI 가속기이다. 하지만 약간의 차이가 있다.

 

NPU (Neural Processing Unit, 신경망 처리 장치)

  • 일반적인 용어: NPU는 인간의 뇌 신경망을 모방하여 AI 연산을 효율적으로 처리하도록 설계된 프로세서를 일반적으로 지칭하는 용어이다

  • 광범위한 적용: 다양한 제조사(퀄컴, 애플, 인텔 등)에서 스마트폰, 노트북, IoT 기기 등 다양한 엣지 디바이스나 데이터센터용으로 NPU를 개발하고 있다.

  • 특징: 주로 병렬 처리, 저정밀도 연산(에너지 효율을 높이기 위해), 높은 메모리 대역폭 등을 특징으로 하며, 이미지 인식, 음성 처리, 자연어 이해 등 특정 AI 작업에 최적화되어 있다.

    🟦알면 좋고!
    M2 칩은 SoC (System on a Chip): M2 칩은 단순한 CPU가 아니라, 여러 가지 중요한 구성 요소들을 하나의 칩에 통합한 SoC 칩인데 이러한 SoC칩에도 Neural Engine 이라는 애플 자사의 NPU가 탑재되어 있고 이러한 NPU는 애플의 맥북 뿐만아니라 아이폰, 아이패드에 들어가는 A시리즈 칩(A11 Bionic 칩부터)에도 탑재되고 있다.
  • Neural Engine = 애플의 NPU: 애플은 자사의 NPU를 "Neural Engine"이라고 부릅니다. 이 Neural Engine은 M 시리즈 칩(M1, M2, M3, M4 등)뿐만 아니라 아이폰과 아이패드에 들어가는 A 시리즈 칩(A11 Bionic 칩부터 탑재)에도 탑재되어 있다.

TPU (Tensor Processing Unit, 텐서 처리 장치)

  • 구글의 NPU: TPU는 구글이 자체적으로 개발한 NPU의 한 종류입니다. 즉, TPU는 NPU의 범주에 속하지만, 구글의 특정 아키텍처와 기술을 지칭한다

  • 텐서플로우 최적화: TPU는 구글의 오픈소스 머신러닝 프레임워크인 텐서플로우(TensorFlow) 에 최적화되어 있으며, 특히 대규모 행렬 연산(텐서 연산)에 매우 효율적이다.

  • 클라우드 및 대규모 학습/추론: 주로 구글 클라우드 환경에서 대규모 AI 모델의 학습 및 추론 작업에 사용되며 아이언우드와 같은 최신 TPU는 특히 거대한 모델을 처리하는 데 강력한 성능을 발휘한다.

간단히 말해,

  • NPU는 AI 연산을 위한 프로세서의 한 종류를 넓게 일컫는 말이다
  • TPU구글이 만든 NPU의 특정 브랜드이자 기술이라고 생각할 수 있다.

두 가지 모두 CPU나 GPU와 같은 범용 프로세서에 비해 AI 작업에서 훨씬 높은 성능과 에너지 효율을 제공하며, AI 기술 발전의 핵심적인 역할을 담당하고 있다.