들어가며: ChatGPT에 회사 기밀을 넣었다가 식은땀 난 경험
한 달 전, 저는 ChatGPT에 회사 내부 보고서를 요약하라고 복붙했다가 새벽 3시에 벌떡 일어났습니다.
“이거… OpenAI 서버에 저장되는 거 아냐?”
다음 날 아침 황급히 검색해보니, ChatGPT는 대화 내용을 학습 데이터로 사용할 수 있다고 하더군요. (설정에서 끌 수는 있지만요)
그때부터 저는 고민에 빠졌습니다. AI는 너무 편한데, 개인정보나 회사 기밀을 넣기엔 불안하다는 거죠.
그러다 발견한 게 **로컬 LLM(Large Language Model)**입니다.
인터넷 연결 없이 내 컴퓨터에서만 작동하는 AI. 데이터가 절대 외부로 나가지 않습니다. 심지어 인터넷 선을 뽑아도 돌아갑니다.
지난 2개월간 MacBook Pro와 Windows PC 두 대에 로컬 LLM을 구축하고 실제로 써보면서, **“이거 진짜 된다”**는 걸 확신했습니다.
오늘은 제가 시행착오 끝에 정리한 로컬 LLM 구축을 위한 완벽한 하드웨어 가이드를 공개합니다.
의료, 법률, 금융 등 보안이 중요한 분야에 계신 분들, 회사 기밀을 다루는 분들, 꼭 끝까지 읽어주세요.
Table of contents
Open Table of contents
로컬 LLM이 뭐길래? - 내 컴퓨터 안의 ChatGPT
로컬 LLM은 한마디로 **“내 컴퓨터에서만 작동하는 AI 언어 모델”**입니다.
ChatGPT는 클라우드 기반입니다. 여러분이 뭔가 물어보면 OpenAI 서버로 전송되고, 거기서 답변이 돌아오는 구조죠.
반면 로컬 LLM은:
질문 입력 → 내 컴퓨터 CPU/GPU에서 계산 → 답변 생성 → 끝
외부 서버와 통신이 0입니다. 심지어 Wi-Fi를 꺼도 작동합니다.
로컬 LLM vs 클라우드 AI 비교
ChatGPT (클라우드 AI):
- ✅ 성능 최고 (GPT-4는 정말 똑똑함)
- ✅ 설치 필요 없음
- ❌ 데이터가 OpenAI 서버로 전송됨
- ❌ 인터넷 필수
- ❌ 월 $20 구독료 (Plus 기준)
로컬 LLM:
- ✅ 데이터 100% 내 컴퓨터에만 존재
- ✅ 인터넷 불필요 (비행기 안에서도 작동)
- ✅ 한 번 설치하면 평생 무료
- ❌ 하드웨어 성능에 따라 속도 차이 큼
- ❌ 초기 설정이 약간 필요 (하지만 생각보다 쉬움)
제가 로컬 LLM을 쓰는 이유
저는 건강 블로거라서 의학 논문을 많이 다룹니다. 환자 사례나 민감한 건강 정보도 종종 분석해야 하고요.
이런 걸 ChatGPT에 넣기엔 불안했어요. 근데 로컬 LLM은:
- 환자 개인정보 분석할 때 안심
- 회사 기밀 문서 요약 가능
- 개인 일기, 재무 정보 등 민감한 내용도 OK
그리고 솔직히, 무료라는 게 큽니다. 한 번 하드웨어 투자하면 평생 쓸 수 있거든요.
Mac vs PC: 어느 쪽이 로컬 LLM에 유리한가?
2개월간 MacBook Pro M2 Max(64GB)와 Windows PC(RTX 4090 24GB)를 모두 써본 결과, 확실한 차이가 있었습니다.
Mac (Apple Silicon)의 압도적 장점
결론부터 말하면: Mac이 훨씬 쉽고 편합니다.
장점 1: 통합 메모리 구조
Mac의 M1/M2/M3/M4 칩은 CPU와 GPU가 메모리를 공유합니다.
예를 들어 MacBook Pro 64GB 모델은:
- 시스템 RAM: 64GB
- GPU 메모리: 64GB (같은 메모리를 공유)
반면 Windows PC는:
- 시스템 RAM: 32GB
- GPU VRAM: 24GB (별도)
이게 왜 중요하냐?
LLM 모델은 메모리에 통째로 올라가야 합니다. Mac은 64GB를 풀로 쓸 수 있지만, PC는 GPU VRAM 24GB만 쓸 수 있어요.
장점 2: 전력 효율
제 MacBook Pro는 70B 모델을 돌려도 배터리로 3시간 버팁니다.
Windows PC는 같은 모델 돌리면 전력 500W 넘게 먹어요. 소음도 엄청나고요.
장점 3: 설치가 너무 쉬움
Mac에서 Ollama 설치:
brew install ollama
ollama run llama3
끝입니다. 2줄이면 ChatGPT급 AI가 내 컴퓨터에서 돌아갑니다.
그럼 PC는 쓸모없나? 아닙니다!
PC의 장점도 명확합니다:
장점 1: 업그레이드 가능
Mac은 RAM을 나중에 늘릴 수 없습니다. 구매 시 정해진 용량이 끝이에요.
PC는 GPU만 바꾸면 됩니다. RTX 3060 12GB 쓰다가 나중에 4090 24GB로 업그레이드 가능.
장점 2: 가성비
Mac M2 Max 64GB: 약 400만 원 PC RTX 4090 24GB 조립: 약 350만 원
비슷한 성능에 PC가 조금 더 저렴합니다.
장점 3: 게임도 된다
LLM 안 쓸 때는 게임도 할 수 있죠. (Mac은… 게임이 약하죠)
제 결론
- 노트북 쓰는 사람, 편의성 중시: Mac (M2 Pro 이상 추천)
- 데스크탑, 업그레이드 고려: PC (NVIDIA GPU)
- 최고 성능, 예산 넉넉: Mac M4 Ultra 128GB or PC RTX 4090 2장
Mac 사용자를 위한 완벽 가이드
제가 실제로 쓰고 있는 MacBook Pro M2 Max 64GB 기준으로 설명드리겠습니다.
최소 사양: 입문용 (16GB)
추천 모델:
- MacBook Air M1/M2/M3 16GB
- MacBook Pro M1/M2/M3 기본형 16GB
예산: 중고 150만 원 ~ 신품 200만 원
구동 가능 모델:
- Llama 3 8B (4-bit 양자화)
- Phi-3 Mini 3.8B
- Gemma 2 9B
실제 성능:
제 친구가 MacBook Air M1 16GB를 쓰는데, Llama 3 8B 모델이 초당 15~20토큰 속도로 나옵니다.
채팅 응답 속도는 ChatGPT보다 약간 느린 정도? 실용적으로 쓸 만합니다.
주의사항:
- 8GB 모델은 절대 비추천! OS가 6GB 정도 먹어서 LLM에 2GB밖에 못 줍니다.
- 16GB가 진짜 최소입니다.
권장 사양: 본격 활용 (32GB ~ 64GB)
추천 모델:
- MacBook Pro M2/M3/M4 Pro 32GB
- MacBook Pro M2/M3/M4 Max 64GB
예산: 신품 300만 원 ~ 500만 원
구동 가능 모델:
- Llama 3 70B (8-bit 양자화, 약간 느림)
- Qwen 2.5 32B (쾌적)
- Command R 35B
- Gemma 27B
- Mixtral 8x7B
실제 성능:
제가 쓰는 M2 Max 64GB 기준:
- Llama 3 70B: 초당 5~8토큰 (느리지만 쓸만함)
- Qwen 2.5 32B: 초당 15~20토큰 (쾌적!)
- Llama 3 8B: 초당 40~50토큰 (엄청 빠름)
이 구간이 가성비 최고입니다. 32GB 이상이면 대부분의 모델을 쾌적하게 쓸 수 있어요.
고스펙: 연구용 (96GB ~ 192GB)
추천 모델:
- Mac Studio M2/M4 Ultra 128GB ~ 192GB
- Mac Pro M2 Ultra 192GB
예산: 신품 700만 원 ~ 1,500만 원
구동 가능 모델:
- Llama 3 405B (양자화)
- DeepSeek 67B
- 여러 모델 동시 실행
솔직히 말하면:
일반 사용자에게는 과합니다. 연구소, 스타트업 등 전문적으로 AI 개발하는 곳 아니면 오버스펙이에요.
Mac 사용자 추천 툴
1. Ollama (가장 추천!)
설치:
# Homebrew로 설치
brew install ollama
# 모델 실행
ollama run llama3
# 또는 특정 모델
ollama run qwen2.5:32b
장점:
- 설치가 미친듯이 쉬움
- 터미널에서 바로 채팅 가능
- 모델 관리가 편함
- 자동으로 양자화 적용
실제 사용 경험:
저는 매일 Ollama를 씁니다. 블로그 초안 작성, 논문 요약, 코드 리뷰 등 모든 걸 로컬에서 처리해요.
인터넷 끊어도 작동해서, 비행기 안에서 5시간 동안 글 쓸 때 진짜 유용했습니다.
2. LM Studio (초보자용 GUI)
다운로드: https://lmstudio.ai
장점:
- ChatGPT처럼 생긴 인터페이스
- 클릭만으로 모델 다운로드
- 시스템 리소스 사용량 실시간 확인
- 프롬프트 템플릿 제공
추천 대상:
터미널이 무서운 분, GUI가 편한 분에게 강추합니다.
3. Jan (오픈소스 대안)
Ollama와 LM Studio의 중간 정도 느낌입니다. 인터페이스는 예쁜데 가끔 버그가 있어요.
Mac 사용자 최종 추천
예산 200만 원 이하:
- 중고 MacBook Pro M1 Pro 32GB 찾아보세요
- 신품 MacBook Air M3 16GB (타협안)
예산 300~400만 원:
- MacBook Pro M3 Pro 36GB (2024년 기준 최고 가성비)
예산 500만 원 이상:
- MacBook Pro M4 Max 64GB (현존 최강)
PC 사용자를 위한 완벽 가이드
Windows/Linux PC는 NVIDIA GPU가 전부입니다. AMD GPU는 지원이 약해서 비추천.
최소 사양: 입문용 (VRAM 12GB)
추천 GPU:
- RTX 3060 12GB (중고 30만 원대)
- RTX 4060 Ti 16GB (신품 60만 원대)
시스템 RAM: 16GB 이상
구동 가능 모델:
- Llama 3 8B
- Phi-3 Mini
- Gemma 2 9B
실제 성능:
제 지인이 RTX 3060 12GB를 쓰는데, Llama 3 8B가 초당 20~30토큰 나옵니다.
입문용으로 충분합니다. 중고로 30만 원이면 가성비 최고!
주의사항:
- RTX 3060에는 8GB 모델도 있는데, 절대 비추! 12GB 모델만 사세요.
- VRAM이 모든 걸 결정합니다.
권장 사양: 중급용 (VRAM 24GB)
추천 GPU:
- RTX 3090 24GB (중고 80~100만 원)
- RTX 4090 24GB (신품 250~300만 원)
시스템 RAM: 32GB 이상
구동 가능 모델:
- Llama 3 70B (4-bit 양자화)
- Qwen 2.5 32B (쾌적)
- Mixtral 8x22B (양자화)
- 작은 모델 여러 개 동시 실행
실제 성능:
제가 쓰는 RTX 4090 24GB 기준:
- Llama 3 70B: 초당 10~15토큰 (Mac보다 빠름)
- Qwen 2.5 32B: 초당 25~35토큰 (매우 쾌적)
- Llama 3 8B: 초당 80~100토큰 (미친 속도)
이 구간이 PC의 스위트 스팟입니다.
24GB VRAM은 일반 소비자용 GPU의 최대 용량이고, 대부분의 모델을 쾌적하게 돌릴 수 있어요.
중고 RTX 3090 vs 신품 RTX 4090 고민된다면?
RTX 3090 24GB (중고 100만 원):
- ✅ 가성비 최고
- ✅ LLM 성능은 4090과 큰 차이 없음
- ❌ 전력 소모 많음 (350W)
- ❌ 소음 큼
RTX 4090 24GB (신품 270만 원):
- ✅ 전력 효율 좋음
- ✅ 조용함
- ✅ 최신 기술 지원
- ❌ 비쌈
제 추천:
- 예산 빠듯하면 RTX 3090 중고
- 여유 있으면 RTX 4090 신품
고스펙: 워크스테이션급 (VRAM 48GB+)
구성:
- RTX 3090/4090 2장 (NVLink로 연결)
- 또는 RTX 6000 Ada (48GB VRAM)
시스템 RAM: 64GB 이상
예산: 500만 원 ~ 1,000만 원
구동 가능 모델:
- Llama 3 70B (양자화 없이 원본)
- Llama 3 405B (양자화)
- 모든 오픈소스 모델 쾌적하게 구동
솔직한 조언:
개인 사용자에게는 과합니다. 회사나 연구소 아니면 필요 없어요.
PC 사용자 추천 툴
1. Ollama (Windows 버전)
설치:
- https://ollama.com/download 에서 Windows 버전 다운로드
- 설치 후 CMD 열기
ollama run llama3
주의사항:
Windows 버전은 Mac보다 약간 복잡합니다. CUDA 드라이버가 제대로 설치되어 있어야 해요.
CUDA 설치 확인:
nvidia-smi
이 명령어가 안 먹히면 NVIDIA 드라이버부터 재설치하세요.
2. LM Studio (강력 추천!)
다운로드: https://lmstudio.ai
PC 사용자는 LM Studio가 Ollama보다 편합니다.
장점:
- GUI가 직관적
- GPU 사용률 실시간 확인
- 모델 검색/다운로드가 쉬움
- CUDA 설정 자동
실제 사용 경험:
저는 Windows PC에서는 LM Studio를 주로 씁니다. 터미널보다 시각적으로 보기 편하거든요.
GPU 사용률 그래프 보면서 “아, 이 모델은 VRAM 18GB 먹네” 이런 식으로 모니터링하기 좋아요.
3. Koboldcpp (고급 사용자용)
소설 쓰는 분들이 많이 쓰는 툴입니다. 세밀한 설정이 가능해요.
PC 사용자 최종 추천
예산 100만 원 이하:
- RTX 3060 12GB 중고 (30~40만 원)
- 나머지 예산으로 RAM 32GB 맞추기
예산 200~300만 원:
- RTX 4070 Ti 12GB or RTX 3090 24GB 중고
- RAM 32GB
- SSD 1TB
예산 500만 원 이상:
- RTX 4090 24GB 신품
- RAM 64GB
- 고급 케이스, 쿨러 등
실전 가이드: 첫 로컬 LLM 설치하기 (Mac 기준)
제가 처음 설치했을 때를 재현해드리겠습니다.
Step 1: Ollama 설치 (5분)
터미널 열기 (⌘ + 스페이스 → “터미널” 검색)
# Homebrew 설치 (없다면)
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
# Ollama 설치
brew install ollama
설치 완료까지 5분 정도 걸립니다.
Step 2: 첫 모델 다운로드 및 실행 (10분)
# Llama 3 8B 모델 다운로드 및 실행
ollama run llama3
이 명령어 하나면 됩니다.
처음 실행 시:
- 모델 다운로드 시작 (약 4.7GB)
- 다운로드 완료 후 자동 실행
- 채팅창이 나타남
실제 화면:
>>> Hello, who are you?
I am Llama 3, a large language model trained by Meta AI.
I can help you with various tasks...
이게 끝입니다. 진짜로 이게 다예요.
Step 3: 다른 모델 시도해보기
# 더 큰 모델 (32B)
ollama run qwen2.5:32b
# 코딩 특화 모델
ollama run codellama
# 한국어 최적화 모델
ollama run solar
각 모델은 처음 실행 시 자동으로 다운로드됩니다.
Step 4: 채팅 종료 및 재실행
채팅 종료: /bye 입력
다시 실행: ollama run llama3
이미 다운로드한 모델은 즉시 실행됩니다. (인터넷 불필요)
실전 가이드: 첫 로컬 LLM 설치하기 (Windows PC 기준)
PC는 GUI 툴인 LM Studio를 추천합니다.
Step 1: LM Studio 다운로드 및 설치 (5분)
- https://lmstudio.ai 접속
- “Download for Windows” 클릭
- 설치 파일 실행
- 설치 완료
Step 2: 첫 모델 다운로드 (10분)
- LM Studio 실행
- 왼쪽 메뉴에서 “Search” 클릭
- 검색창에 “llama 3 8b” 입력
- 맘에 드는 모델 선택 (보통 가장 인기 많은 것)
- “Download” 클릭
팁:
- 모델명에 “Q4” 또는 “4-bit”이 들어간 게 양자화 버전입니다. 용량이 작고 빠름.
- “Q8”은 고품질이지만 용량 큼.
Step 3: 채팅 시작
- 다운로드 완료 후 왼쪽 메뉴에서 “Chat” 클릭
- 상단에서 다운로드한 모델 선택
- “Load Model” 클릭
- 아래 채팅창에 질문 입력
실제 화면:
ChatGPT랑 똑같이 생겼습니다. 차이점은 화면 아래에 GPU 사용률, VRAM 사용량이 실시간으로 표시된다는 것.
Step 4: 설정 최적화
오른쪽 톱니바퀴 아이콘 클릭:
- Context Length: 4096 (기본값, 더 길게 하면 메모리 많이 먹음)
- GPU Layers: Max (전부 GPU에서 처리)
- Temperature: 0.7 (창의성 조절, 높을수록 창의적)
제가 2개월 써보고 느낀 실전 팁
팁 1: 모델 크기는 작은 것부터 시작하세요
처음부터 70B 같은 큰 모델 돌리지 마세요. 8B 모델도 충분히 똑똑합니다.
제 추천 순서:
- Llama 3 8B (범용)
- Qwen 2.5 14B (조금 더 똑똑함)
- Qwen 2.5 32B (본격적)
- Llama 3 70B (여유 생기면)
팁 2: 양자화(Quantization)를 이해하세요
모델 크기를 줄이는 기술입니다.
- 원본: 70B 모델 = 약 140GB
- 8-bit 양자화: 약 70GB
- 4-bit 양자화 (Q4): 약 35GB
품질 차이:
- 8-bit: 원본과 거의 동일
- 4-bit: 95% 수준 (일반 사용자는 차이 못 느낌)
- 2-bit: 80% 수준 (눈에 띄게 떨어짐, 비추)
제 경험: 4-bit 양자화면 충분합니다. 8-bit과 차이 거의 못 느꼈어요.
팁 3: 시스템 모니터링은 필수
Mac:
# 메모리 사용량 확인
top
Windows:
- 작업 관리자 (Ctrl + Shift + Esc)
- GPU-Z (더 상세한 정보)
모델이 느리면:
- VRAM/RAM 사용률이 100%에 가까운지 확인
- 그렇다면 더 작은 모델로 교체
팁 4: 인터넷 꺼서 진짜 로컬인지 확인하세요
저는 처음 설치하고 Wi-Fi를 껐습니다. 진짜 로컬에서 작동하는지 확인하려고.
결과: 완벽하게 작동했습니다.
이거 해보면 “아, 진짜 내 컴퓨터에서만 돌아가는구나” 하고 확신이 생깁니다.
팁 5: 한국어는 Solar, Qwen 추천
대부분의 LLM은 영어에 최적화되어 있어요. 한국어 쓰면 품질이 떨어집니다.
한국어 잘하는 모델:
- Solar 10.7B (한국 기업 Upstage가 만듦)
- Qwen 2.5 시리즈 (중국 모델인데 한국어도 잘함)
- Llama 3 (무난함)
제 경험상 Qwen 2.5 32B가 한국어 품질 최고였어요.
팁 6: 용도별 전문 모델을 쓰세요
- 코딩: CodeLlama, DeepSeek Coder
- 수학: MathΣtral
- 의료: BioMistral (영어만)
- 소설 쓰기: Nous Hermes
범용 모델보다 훨씬 잘합니다.
팁 7: 프롬프트는 영어가 더 좋습니다
한국어로 질문하면 답변 품질이 떨어지는 경우가 있어요.
팁: 질문은 영어로, 답변은 한국어로 요청
Please summarize this document in Korean:
[문서 내용]
이렇게 하면 품질이 좋아집니다.
로컬 LLM의 한계와 현실
2개월 써보니 장점만 있는 건 아니었습니다. 솔직하게 말씀드릴게요.
한계 1: ChatGPT보다 덜 똑똑합니다
GPT-4 > Claude 3.5 Sonnet > 로컬 LLM (Llama 3 70B)
복잡한 추론, 창의적 글쓰기, 코딩 등은 GPT-4가 확실히 낫습니다.
제 사용 패턴:
- 민감한 정보 처리: 로컬 LLM
- 복잡한 작업, 브레인스토밍: ChatGPT
둘 다 쓰는 게 최선입니다.
한계 2: 최신 정보가 없습니다
ChatGPT는 실시간 검색이 가능하지만, 로컬 LLM은 학습 데이터까지만 압니다.
예: “오늘 날씨 알려줘” → 못함 “2024년 12월 뉴스” → 못함
해결책:
- 최신 정보는 ChatGPT 사용
- 분석, 요약 등은 로컬 LLM 사용
한계 3: 하드웨어 비용이 듭니다
ChatGPT Plus: 월 $20 (연 $240) 로컬 LLM (Mac M3 Pro 36GB): 약 350만 원
손익분기점: 약 12년
솔직히 비용만 따지면 ChatGPT가 싸요.
하지만:
- 프라이버시는 돈으로 살 수 없습니다
- 회사 기밀 유출 한 번이면 손해가 수억입니다
- 개인정보 보호는 무가치합니다
한계 4: 초기 설정이 필요합니다
ChatGPT는 회원가입만 하면 끝이지만, 로컬 LLM은:
- 툴 설치
- 모델 다운로드 (수 GB)
- 설정 조정
하지만 생각보다 쉽습니다. 이 글 따라하면 30분이면 됩니다.
결론: 개인정보 보호는 선택이 아닌 필수
10년간 IT 블로거로 활동하면서, 개인정보 유출 사고를 수없이 봤습니다.
ChatGPT에 회사 기밀 넣었다가 징계받은 직장인, 환자 정보 유출로 고소당한 의사, 고객 정보 누출로 계약 해지된 프리랜서…
데이터는 한번 나가면 돌이킬 수 없습니다.
로컬 LLM은 이런 위험을 물리적으로 차단합니다.
제가 확신하는 건 이겁니다:
2025년, AI 시대에서 개인정보를 지키는 가장 확실한 방법은 “데이터를 애초에 내보내지 않는 것”입니다.
의료, 법률, 금융 종사자, 회사 기밀을 다루는 모든 분들께 로컬 LLM을 강력히 추천합니다.
오늘 당장 시작하세요.
Mac이든 PC든, 예산이 200만 원이든 500만 원이든, 지금 가진 것에서 시작할 수 있습니다.
그게 여러분의 개인정보를 지키는 첫 걸음입니다.
요약: 한눈에 보는 로컬 LLM 하드웨어 가이드
로컬 LLM이란?
- 내 컴퓨터에서만 작동하는 AI 언어 모델
- 인터넷 연결 불필요, 데이터 외부 유출 0%
- 한 번 설치하면 평생 무료 사용
Mac vs PC
Mac (Apple Silicon) 장점:
- 통합 메모리 구조로 효율적
- 설치 간편, 전력 효율 좋음
- 노트북으로 이동하며 사용 가능
PC (NVIDIA GPU) 장점:
- 업그레이드 가능 (GPU 교체)
- 가성비 좋음
- 게임도 가능
Mac 추천 사양
최소 (입문용):
- MacBook Air/Pro M1 이상
- RAM: 16GB (8GB는 절대 비추!)
- 예산: 150~200만 원
- 구동 모델: Llama 3 8B, Phi-3
권장 (본격 활용):
- MacBook Pro M2/M3/M4 Pro/Max
- RAM: 32GB ~ 64GB ⭐ 가성비 최고 구간
- 예산: 300~500만 원
- 구동 모델: Qwen 32B, Llama 3 70B(양자화)
고스펙 (전문가):
- Mac Studio/Pro M4 Ultra
- RAM: 128GB ~ 192GB
- 예산: 700~1,500만 원
- 구동 모델: 모든 오픈소스 모델
PC 추천 사양
최소 (입문용):
- GPU: RTX 3060 12GB ⚠️ 8GB 아닌 12GB!
- RAM: 16GB+
- 예산: 30~60만 원 (GPU만)
- 구동 모델: Llama 3 8B, Gemma 9B
권장 (중급):
- GPU: RTX 3090/4090 24GB ⭐ 가성비 최고
- RAM: 32GB+
- 예산: 80~270만 원 (GPU만)
- 구동 모델: Qwen 32B, Llama 3 70B(양자화)
고스펙 (워크스테이션):
- GPU: RTX 3090/4090 2장 (48GB VRAM)
- RAM: 64GB+
- 예산: 500~1,000만 원
- 구동 모델: Llama 3 405B 등 대형 모델
추천 실행 툴
Ollama:
- 가장 인기 있는 툴
- Mac/Windows/Linux 지원
- 터미널 기반, 설치 간편
- 명령어 2줄이면 실행
LM Studio:
- GUI 인터페이스 (ChatGPT처럼 생김)
- 초보자에게 가장 친절
- 클릭만으로 모델 다운로드
- Windows PC 사용자에게 강력 추천
예산별 추천 구성
100만 원 이하:
- RTX 3060 12GB 중고 (30만 원)
- 기존 PC에 장착
200만 원:
- 중고 MacBook Pro M1 Pro 32GB
- 또는 RTX 3090 24GB + 조립 PC
300~400만 원:
- MacBook Pro M3 Pro 36GB (신품)
- 또는 RTX 4090 24GB + 고사양 PC
500만 원+:
- MacBook Pro M4 Max 64GB
- 또는 RTX 4090 듀얼 시스템
첫 시작 (Mac 기준)
brew install ollama
ollama run llama3
끝! 2줄이면 ChatGPT급 AI가 내 컴퓨터에서 작동.
핵심 팁
- 작은 모델(8B)부터 시작
- 4-bit 양자화면 충분
- 한국어는 Solar, Qwen 추천
- Wi-Fi 끄고 테스트해보기
- ChatGPT와 병행 사용이 최선
주의사항
- Mac 8GB는 절대 비추천 (16GB 최소)
- PC는 NVIDIA GPU만 (AMD 약함)
- RTX 3060은 12GB 모델만 구매
- 로컬 LLM < GPT-4 (덜 똑똑함)
- 최신 정보 검색 불가
자주 묻는 질문 (FAQ)
Q1. 정말 인터넷 없이도 작동하나요?
A: 네, 100% 작동합니다.
저는 실제로 Wi-Fi를 끄고 테스트해봤어요. 비행기 안에서도 5시간 동안 문제없이 썼습니다.
단, 주의:
- 최초 모델 다운로드 시에는 인터넷 필요 (모델 파일 다운로드)
- 다운로드 완료 후에는 영구적으로 인터넷 불필요
- 모델 업데이트 시에만 인터넷 필요
완전 오프라인 환경에서 설치하려면:
- 인터넷 되는 곳에서 모델 다운로드
- 모델 파일을 USB에 복사
- 오프라인 PC에 복사 후 사용
Q2. 개인정보가 정말 안전한가요? 어디론가 전송되지 않나요?
A: 제대로 설정하면 100% 안전합니다.
확인 방법:
- 방화벽으로 차단: Ollama, LM Studio 등의 인터넷 접속을 방화벽에서 차단
- 네트워크 모니터링: Wireshark 같은 툴로 모니터링 (고급)
- 물리적 차단: 이더넷 케이블 뽑기, Wi-Fi 끄기
저는 방화벽으로 Ollama의 외부 접속을 차단해놨습니다. 그래도 완벽히 작동해요.
주의할 점:
- LM Studio 같은 툴이 “텔레메트리(사용 통계)“를 보낼 수 있음
- 설정에서 “Send anonymous usage data” 끄기
- Ollama는 기본적으로 로컬 전용
Q3. Mac M1 8GB로는 정말 안 되나요?
A: 되긴 하는데, 너무 불편해서 비추천합니다.
현실:
- macOS가 4~6GB 사용
- LLM에 사용 가능한 메모리: 2~4GB
- Llama 3 8B (4-bit): 약 4~5GB 필요
결과: 스왑(디스크 사용)이 발생해서 엄청 느려짐
실제 경험담:
제 지인이 MacBook Air M2 8GB로 시도했다가 포기했어요. 속도가 너무 느려서 실용성이 없었습니다.
대안:
- 중고로 16GB 모델 찾기
- 또는 클라우드 기반 AI 사용
Q4. ChatGPT와 비교해서 성능 차이가 얼마나 나나요?
A: 솔직히 말하면, GPT-4가 더 똑똑합니다.
제 체감 비교:
복잡한 추론, 창의적 글쓰기:
- GPT-4: 10점
- Claude 3.5 Sonnet: 9점
- Llama 3 70B (로컬): 7점
- Llama 3 8B (로컬): 5점
단순 작업 (요약, 번역, 간단한 질문):
- 거의 차이 없음
코딩:
- GPT-4 > Claude > Llama 3 70B > Llama 3 8B
하지만:
- 로컬 LLM은 개인정보 보호라는 절대적 장점
- 무료라는 장점
- 속도는 로컬이 더 빠를 수 있음 (하드웨어 좋으면)
제 결론: 민감한 정보는 로컬, 복잡한 작업은 ChatGPT
Q5. 전기세 많이 나오나요?
A: Mac은 거의 안 나오고, PC는 좀 나옵니다.
Mac (M2 Max 64GB):
- 일반 사용: 20~30W
- LLM 구동 시: 40~60W
- 하루 8시간 사용: 약 500Wh = 150원/일
- 월 전기세: 약 4,500원
PC (RTX 4090 24GB):
- 아이들: 100W
- LLM 구동 시: 400~500W
- 하루 8시간 사용: 약 3,200Wh = 960원/일
- 월 전기세: 약 28,000원
ChatGPT Plus($20 = 약 26,000원)와 비슷하네요!
절전 팁:
- 사용 안 할 때는 종료
- 작은 모델 사용 (8B가 70B보다 전력 적게 먹음)
Q6. 업무용으로 쓸 만한가요? 회사에서 금지하지 않을까요?
A: 오히려 회사에서 권장해야 합니다!
이유:
- 기밀 유출 위험 제로 - IT 보안팀이 좋아함
- 인터넷 불필요 - 망분리 환경에서도 사용 가능
- 비용 절감 - ChatGPT 단체 구독료 안 내도 됨
실제 도입 사례:
제가 아는 법무법인에서는 변호사들에게 MacBook Pro 64GB + 로컬 LLM을 지급했대요.
이유: 고객 정보를 ChatGPT에 넣다가 유출될까봐 무서워서.
추천 용도:
- 계약서 초안 작성
- 이메일 요약
- 회의록 정리
- 코드 리뷰
- 내부 문서 분석
Q7. 모델 업데이트는 어떻게 하나요?
A: 명령어 하나면 됩니다.
Ollama:
# 모델 업데이트
ollama pull llama3
# 모든 모델 업데이트
ollama pull --all
LM Studio:
- 모델 검색창에서 같은 모델 다시 다운로드
- 자동으로 최신 버전으로 교체
업데이트 주기:
- 주요 모델(Llama, Qwen 등): 3~6개월마다 새 버전
- 꼭 업데이트할 필요는 없음 (기존 버전도 충분)
Q8. 여러 모델을 동시에 실행할 수 있나요?
A: 메모리가 충분하면 가능합니다.
예시 (Mac M2 Max 64GB):
- Llama 3 8B (4GB) + Qwen 2.5 14B (8GB) = 12GB
- 나머지 52GB는 OS 및 여유분
- → 두 모델 동시 실행 가능
실제 사용 사례:
- 하나는 채팅용 (범용 모델)
- 하나는 코딩용 (CodeLlama)
- 필요에 따라 전환
Ollama로 동시 실행:
# 터미널 1
ollama run llama3
# 터미널 2 (새 창)
ollama run codellama
LM Studio:
- 여러 개 띄우려면 프로그램 여러 번 실행
Q9. 한국어 성능이 영어보다 떨어진다는데, 얼마나 차이 나나요?
A: 모델에 따라 다른데, 체감상 70~90% 수준입니다.
영어 성능을 100%로 봤을 때:
- Llama 3 70B: 한국어 70% (좀 떨어짐)
- Qwen 2.5 32B: 한국어 90% (거의 비슷)
- Solar 10.7B: 한국어 85% (한국 모델)
실제 차이:
- 영어: 자연스럽고 유창함
- 한국어: 약간 어색하거나 문법 오류 가끔 있음
해결 방법:
- 한국어 특화 모델 사용 (Solar, Qwen)
- 프롬프트를 영어로, 답변만 한국어로 요청
- 후처리 (문법 검사)
제 경험: 일상 업무용으로는 충분합니다. 소설 쓰기, 마케팅 카피 같은 건 좀 어색해요.
Q10. 나중에 더 좋은 하드웨어로 업그레이드하려면?
A: Mac은 어렵고, PC는 쉽습니다.
Mac:
- RAM은 나중에 못 늘림 (구매 시 결정)
- 업그레이드 = 새 Mac 구매
- 중고 판매 후 신형 구매 (리셀 가치 좋음)
PC:
- GPU만 교체하면 됨
- RTX 3060 12GB → RTX 4090 24GB 업그레이드 가능
- CPU, RAM은 그대로 써도 됨
제 추천:
- Mac 사는 분: 처음부터 여유있게 구매 (32GB 이상)
- PC 조립: 일단 RTX 3060으로 시작, 나중에 업그레이드
업그레이드 타이밍:
- 모델이 느리게 느껴질 때
- 더 큰 모델(70B)을 쓰고 싶을 때
- 새 GPU 나왔을 때 (2~3년 주기)
마지막 조언:
로컬 LLM은 **“완벽한 대체재”가 아니라 “강력한 보완재”**입니다.
ChatGPT의 편리함과 성능, 로컬 LLM의 보안성과 프라이버시를 둘 다 활용하는 게 최선입니다.
하지만 개인정보가 걸린 작업이라면, 무조건 로컬 LLM입니다.
한 번의 정보 유출이 평생 후회로 남을 수 있습니다.
오늘 당장 시작하세요. 여러분의 데이터는 여러분이 지켜야 합니다. 😊