[하드웨어 뜯어보기] GPU #43 - GPGPU와 AI 가속기

📑 목차

사고를 병렬화하는 두뇌

그래픽 장치를 넘어서 모든 계산을 가속하는 범용 병렬 두뇌의 탄생

핵심요약
GPGPU는 GPU를 그래픽이 아닌 일반 계산(GPU Computing)에 사용하는 개념이다.
수천 개의 코어를 활용해 거대한 병렬 연산을 처리한다.
딥러닝의 핵심은 행렬 계산이고, 이는 GPU에서 가장 잘 맞는 작업이다.
NVIDIA의 Tensor Core, Google TPU, Apple ANE 등 AI 가속기는 GPU의 철학을 더 고도화한 기술이다.
현대 AI의 성장은 GPU, NPU 없이 불가능하다.

1. GPGPU란 무엇인가?

핵심 문장: GPGPU는 GPU의 ‘병렬 처리 능력’을 그래픽이 아닌 모든 계산에 활용하는 기술이다.

GPU는 원래 그래픽을 그리기 위해 만들어졌다. 하지만 GPU 내부의 구조-수천 개의 연산 코어, 높은 메모리 대역폭-는 행렬 연산이나 벡터 계산 같은 반복적인 작업에 매우 적합했습니다. 그래서 나온 개념이 범용 GPU 컴퓨팅, GPGPU(General-Purpose GPU)입니다.

2. CPU와 GPU의 결정적 차이 - “병렬성”

2-1. CPU는 소수의 정예 코어

4~32개 고성능 코어
복잡한 제어·분기 처리
낮은 지연 시간(Low Latency)
오케스트라의 “지휘자”

2-2. GPU는 수천~수만 개의 단순 코어

수백~수천 개의 ALU
단순 연산 반복에 최적화
높은 처리량(Throughput)
“수천 명의 인턴이 동시에 일하는 작업장”

GPGPU는 바로 이 수천 개의 인턴을 계산의 세계에 투입하는 것입니다.

3. GPGPU를 가능하게 만든 기술 — CUDA, OpenCL

3-1. NVIDIA CUDA

2006년에 등장하며 GPGPU의 시대를 열었습니다.

CUDA는 아래 내용들을 전부 프로그래밍 방식으로 제어할 수 있습니다.

GPU 메모리 관리
커널 작성
스레드·블록·그리드 구조
공유 메모리
Tensor Core 접근

CUDA는 사실상 오늘날 딥러닝 산업의 기반 플랫폼입니다.

3-2. OpenCL

GPU·CPU·FPGA 등 다양한 프로세서에서 병렬 연산을 할 수 있는 플랫폼. 범용적이지만 CUDA보다 생태계·최적화는 약한 편입니다.

3-3. AMD ROCm

AMD가 CUDA 생태계에 대응하기 위해 만든 GPGPU 프레임워크. AI·HPC에서 점점 확대 중입니다.

4. 왜 딥러닝은 GPU에서 돌아갈까?

핵심은 단 하나! 딥러닝 = 거대한 행렬 곱셈의 반복

신경망의 학습·추론은 아래와 같은 연산이 반복됩니다.

가중치 행렬 × 입력 벡터
Convolution
Attention(QKᵀ, Softmax)

이 계산을 CPU에서 하면 너무 느리다. GPU는 이러한 반복 연산을 병렬로 쪼개어 동시에 처리할 수 있다. 그래서 GPT·BERT·Diffusion 모델 등 모든 LLM·AI 모델이 GPU 위에서 돌아갑니다.

5. GPU 내부의 AI 가속기 - Tensor Core

Tensor Core는 GPU 내부에 존재하는 행렬 연산 전용 유닛이다. FP16, BF16, INT8 등 저 정밀도 연산에 최적화되어 있습니다.

기능:

4x4, 8x8 등 작은 행렬 곱셈을 한 클럭에 수행
FP32 대비 수십 배의 연산량 제공
CNN, Transformer, RNN 등 모든 딥러닝 연산 가속

Tensor Core는 말 그대로 “AI를 위한 GPU 안의 또 다른 미니코어”라고 볼 수 있습니다.

6. GPU 외의 AI 가속기 - TPU·NPU·ANE

병렬 행렬 연산의 효율성을 극대화하기 위해 여러 회사가 GPU를 넘어선 전용 AI 프로세서를 만들기 시작했습니다.

6-1. Google TPU (Tensor Processing Unit)

매트릭스 연산에 최적화된 systolic array 구조
Google 클라우드 AI 학습에 특화
높은 전력 효율 및 연산 밀도 제공

6-2. Apple ANE (Neural Engine)

iPhone·iPad·Mac에 내장된 AI 전용 연산기.

사진·영상 처리
Face ID
실시간 번역
CoreML 모델 가속

6-3. 삼성/퀄컴의 NPU

스마트폰의 AI 처리(카메라 연산, 음성 인식 등)를 담당. 이 AI 가속기들은 공통적으로 GPU의 “행렬 엔진”을 더욱 특화한 형태라고 보면 됩니다.

7. 메모리의 역할 - AI 성능의 또 다른 핵심

AI 연산에서 GPU의 메모리는 CPU보다 훨씬 중요합니다.

VRAM / HBM 메모리

모델 파라미터 저장
활성화 값 저장
행렬 연산 중간값 저장

HBM3 같은 고대역폭 메모리는

3TB/s 이상의 속도
AI 학습 속도를 근본적으로 변화시킴

L2/L1 캐시

SM이 빠르게 행렬 데이터를 불러오기 위해 필수적입니다.

8. 비유하자면 - “천 명의 전투 수학자”

딥러닝 연산을 비유하면 아래와 같습니다:

CPU = 뛰어난 수학자 10명
GPU = 단순 계산을 초고속으로 수행하는 수학 인턴 10,000명
Tensor Core = 매트릭스 연산만 전담하는 ‘전투 수학 특수부대’

이들이 동시에 움직이며 AI 모델을 학습시키고 추론을 수행합니다.

9. GPGPU의 활용 예시

GPT 같은 대형 언어 모델 학습
영상 인식(CNN)
자율주행(센서 융합, NN 추론)
의료 영상 분석
기후·천체 물리 시뮬레이션
유전자 시뮬레이션
금융 모델 계산(HFT)
고성능 과학연산(HPC)

GPGPU는 사실상 현대 과학기술의 연산 엔진입니다.

10. 역사적 맥락 - GPGPU의 진화

2006: CUDA 출시 → GPGPU 시대 개막
2012: AlexNet → 딥러닝 폭발, GPU 수요 폭증
2017: Tensor Core 도입
2020 이후: HBM 시대, 대형 AI 시대 → GPU·NPU 주력
2023~: LLM·Generative AI의 폭발적 성장 → GPU 판매량·데이터센터 구축이 세계 산업의 패권이 됨

11. 요약

GPGPU는 GPU를 범용 계산에 사용하는 기술이다.
딥러닝은 행렬 계산의 반복이므로 GPU가 최적이다.
Tensor Core·TPU·NPU는 GPU 철학을 고도화한 AI 가속기들이다.
AI 시대의 연산 엔진은 CPU가 아니라 GPU·NPU다.

12. GPU 시리즈 마무리 — 병렬 사고의 시대를 연 연산의 제왕

GPU는 더 이상 그래픽을 그리는 장치가 아닙니다. 현대의 GPU는 수천 개의 코어를 하나의 거대한 집합체처럼 움직이며, 인간의 뇌가 많은 뉴런을 동시에 활성화하는 것처럼 연산을 병렬화하는 새로운 사고방식을 열었습니다.

#41에서는 GPU의 기본 구조를, #42에서는 픽셀을 완성해 내는 정교한 파이프라인을, #43에서는 GPGPU와 AI 가속기를 통해 GPU가 범용 연산 엔진으로 확장되는 과정을 살펴보았습니다. 이 세 편에 걸친 여정은 GPU가 단일 부품을 넘어 현대 컴퓨팅 전체를 견인하는 ‘병렬 두뇌’라는 사실을 보여줍니다.

앞으로의 하드웨어는 CPU의 직렬적 사고와 GPU·NPU의 병렬적 사고가 조화를 이루며, 인간의 뇌가 다양한 영역을 협력시켜 거대한 과제를 해결하듯 새로운 컴퓨팅 패러다임을 만들어 갈 것이다.

13. 다음 편 예고

다음 글에서는 CPU·GPU·메모리·스토리지·버스가 하나의 시스템으로 통합되는 구조를 설명합니다.

다음 글 : [하드웨어 뜯어보기] 통합 구조 #44 – 하드웨어 통합 구조

저작자표시 비영리 변경금지 (새창열림)

'컴퓨터 과학 > GPU' 카테고리의 다른 글

[하드웨어 뜯어보기] GPU #42 - GPU 파이프라인과 그래픽 처리 (0)	2025.11.26
[하드웨어 뜯어보기] GPU #41 - GPU의 기본 구조 (0)	2025.11.25

테크비타민 B