[하드웨어 뜯어보기] GPU #41

📑 목차

병렬의 제왕, 또 다른 두뇌의 등장

수천 개의 연산 유닛이 동시에 사고하며, 시각과 연산을 맡는 두 번째 두뇌

핵심요약
GPU는 “많은 일을 동시에 처리하는” 병렬 두뇌다.
SM(Streaming Multiprocessor) 내부에 수십~수백 개의 코어가 존재한다.
GPU는 Warp/Wavefront라는 단위로 스레드를 묶어 실행한다.
거대한 레지스터 파일, 텍스처 유닛, L1/L2 캐시, 글로벌 메모리 구조로 이루어져 있다.
CPU는 단일 작업을 빠르게 처리, GPU는 수천 개의 작업을 동시에 처리하는 구조다.

1. GPU란 무엇인가?

핵심 문장: GPU는 ‘수천 개의 손을 가진 두뇌’처럼 대량 병렬 작업을 처리하기 위한 특화 두뇌이다.

GPU는 원래 그래픽 처리용으로 만들어진 프로세서였습니다. 픽셀 수천만 개를 동시에 연산해야 했기 때문에 CPU처럼 복잡한 제어나 흐름 제어보다는 동일한 연산을 엄청나게 많이 동시에 처리하는 데 초점이 맞춰졌습니다. 오늘날 GPU는 그래픽을 넘어 AI, 딥러닝, 과학 연산, 증권 시뮬레이션, 양자화학 등 모든 병렬 작업의 핵심 엔진입니다.

2. GPU의 기본 철학 - CPU와 완전히 다르다

GPU를 이해하기 위해선 CPU와 비교하는 것이 가장 빠릅니다.

항목	CPU	GPU
설계 철학	복잡한 흐름 제어	단순, 대량 반복 연산
강점	낮은 지연시간, 고정밀 계산	고병렬 처리, 높은 처리량
코어 수	4~32개	수천~만 개
레지스터	적지만 고성능	매우 많음
메모리 접근	낮은 지연	높은 대역폭 중심
최적 작업	OS, 로직, 분기 많은 코드	행렬 계산, 벡터 연산

CPU는 정교한 사고, GPU는 대규모 인력 투입에 가깝습니다.

3. GPU의 핵심 구성 요소 - SM(Streaming Multiprocessor)

GPU의 실질적 연산 단위는 CPU의 코어가 아니라 SM(Streaming Multiprocessor)입니다. 각 SM 안에는 여러 구성요소가 들어 있습니다. 대표적인 NVIDIA 기준으로 설명하지만, AMD의 CU(Compute Unit)도 개념적으로 동일합니다.

3-1. CUDA Core / Shader Core

SM 내부에는 수십~수백 개의 연산 유닛이 존재합니다.

FP32 연산기
FP64 연산기
INT32 연산기
특별 연산기(FMA 등)

AI 세대에서는 Tensor Core(행렬 연산 유닛)도 포함됩니다.

GPU 코어의 특징

매우 단순
매우 가볍고
매우 많이 존재한다

3-2. Warp / Wavefront - 스레드 묶음 실행

GPU는 스레드를 하나씩 처리하지 않습니다. 대신 32개(엔비디아) 또는 64개(AMD) 단위로 묶어 실행합니다. 이를 Warp(NVIDIA) / Wavefront(AMD)라고 합니다. 이 방식은 “같은 코드를 여러 개 동시에 실행”하기 때문에 그래픽·행렬 연산에서 엄청난 효율을 냅니다.

3-3. 레지스터 파일(Register File)

GPU는 코어마다 엄청난 규모의 레지스터를 갖고 있습니다.

CPU: 레지스터 수십 개
GPU SM: 수천~수만 개 수준

왜냐하면, 많은 스레드를 동시에 유지하기 위해서 입니다. 즉, 레지스터가 크다는 것은 GPU가 스레드들을 많이 유지하고, 스위칭 오버헤드를 줄인다는 의미입니다.

3-4. 스케줄러(Scheduler)

GPU는 “지금 어떤 Warp를 실행할지” 계속 선택합니다. CPU처럼 복잡한 Out-of-Order 방식은 아니고 단순한 SIMT(Single Instruction, Multiple Threads) 방식으로 많은 스레드를 빠르게 실행하는 데 최적화되어 있습니다.

3-5. 텍스처 유닛(Texture Unit)

그래픽 처리용으로 존재하던 유닛으로 샘플링, 필터링, 좌표 변환 등을 처리합니다. 오늘날 GPGPU에서도 이미지 처리에 여전히 많이 사용되고 있습니다.

4. GPU의 메모리 계층 구조

GPU 성능은 “연산 유닛 수”보다 메모리 대역폭과 계층 설계가 훨씬 중요합니다.

4-1. Global Memory (VRAM)

GPU가 사용하는 대용량 메모리. GDDR6 / HBM2e 등으로 구성되며 대역폭이 매우 높습니다.

GDDR6 → 448GB/s ~ 1TB/s
HBM3 → 3TB/s 이상 가능

4-2. L2 Cache

모든 SM이 공유하는 캐시. VRAM 접근을 최소화하여 속도를 높입니다.

4-3. L1 Cache / Shared Memory

각 SM 내부에 존재. 프로그램에서 수동으로 공유 메모리를 관리하면 성능이 크게 향상됩니다. Shared Memory는 GPU 프로그래밍의 핵심 최적화 포인트 입니다.

5. GPU의 연산 구조 - SIMT

GPU는 SIMT(Single Instruction, Multiple Threads) 방식을 사용합니다. 즉, 하나의 명령어를 여러 스레드가 동시에 실행합니다.

이 구조는

행렬 곱
벡터 연산
이미지 처리
필터링
물리 시뮬레이션

처럼 동일한 계산을 반복하는 작업에 압도적으로 유리합니다. 분기(If-Else)가 많아지면 Warp Divergence가 생겨 성능이 떨어집니다.

6. 비유하자면 - GPU는 “수천 명의 인턴이 있는 회사”

CPU는

뛰어난 팀장 8명
복잡한 논리를 처리하는 최정예 두뇌

GPU는

간단한 작업을 무제한 병렬 처리하는
수천 명의 인턴과 자동화된 작업 파이프라인

특징적으로:

같은 작업을 반복하면 GPU가 월등히 빠름
작업이 복잡하거나 분기 많으면 CPU가 우위
둘을 함께 쓰면 가장 효율적 (CPU+GPU 병렬 구조)

7. GPU의 역사적 흐름

1999: NVIDIA GeForce 256 - 최초의 GPU 선언
2006: CUDA 도입 → GPGPU 시대 시작
2013: Deep Learning 폭발 → GPU가 AI의 핵심으로
2020~: HBM, Tensor Core, Hopper Architecture → AI용 슈퍼컴퓨팅 칩으로 진화

GPU는 그래픽 장치를 넘어 “AI 서버의 심장”으로 변모했습니다.

8. 오늘날 활용 - 그래픽 그 이상

GPU는 이제 다음 분야에서 필수다.

GPT, BERT, Diffusion 모델 등 LLM 학습
자율주행 시스템
물리·분자 시뮬레이션
금융 고속 거래
의료 영상처리
클라우드 HPC

GPU 없이 현대 컴퓨팅은 성립할 수 없습니다.

9. 요약

GPU는 병렬 처리를 위해 설계된 또 다른 두뇌다.
SM 내부에 수백 개의 코어와 레지스터, 스케줄러가 포함된다.
Warp 단위 실행, SIMT 구조가 병렬 연산의 핵심이다.
메모리 계층(VRAM-L2-L1-Shared Memory)이 성능을 결정한다.
GPU는 그래픽을 넘어 AI·HPC의 중심 기술이다.

10. 다음 편 예고

GPU가 실제로 화면을 만드는 과정, 버텍스 → 래스터화 → 픽셀 셰이딩의 전 과정을 다룹니다.

다음 글 : [컴퓨터 과학/GPU] - [하드웨어 뜯어보기] GPU #42 - GPU 파이프라인과 그래픽 처리

[하드웨어 뜯어보기] GPU #42 - GPU 파이프라인과 그래픽 처리

빛과 그림을 계산하는 시각 회로3D 모델이 화면 속 실사 같은 영상으로 바뀌기까지, GPU 내부에서 펼쳐지는 거대한 그림 연산의 여정핵심요약그래픽 파이프라인은 Vertex → Raster → Pixel → Output

snappytory.com

저작자표시 비영리 변경금지 (새창열림)

'컴퓨터 과학 > GPU' 카테고리의 다른 글

[하드웨어 뜯어보기] GPU #43 - GPGPU와 AI 가속기 (0)	2025.11.27
[하드웨어 뜯어보기] GPU #42 - GPU 파이프라인과 그래픽 처리 (0)	2025.11.26

테크비타민 B