Ollama AI란 무엇인가 — 설치부터 활용법까지 총정리
- Ollama는 내 PC에서 LLM을 직접 실행할 수 있는 오픈소스 로컬 AI 런타임
- Llama3, Mistral, Gemma, CodeLlama 등 다양한 모델을 명령어 한 줄로 실행
- API 비용 없이 오프라인 환경에서도 작동 — 보안 환경에 최적
AI 모델을 써보고 싶은데 API 비용이 부담되거나 인터넷 연결 없이 쓰고 싶다는 생각을 해본 적 있는가.
ChatGPT나 Claude 같은 클라우드 AI는 편리하지만 사용할 때마다 비용이 발생하고, 민감한 데이터를 외부 서버로 보내야 하는 제약이 있다.
이 문제를 해결하는 도구가 바로 Ollama다.
Ollama는 내 컴퓨터에서 직접 LLM을 실행할 수 있는 오픈소스 도구다. 인터넷 없이도 작동하고 데이터가 외부로 나가지 않아 보안 환경에서도 적합하다. 개념부터 설치, 실전 활용법까지 단계별로 정리한다.
Ollama AI란 무엇인가
Ollama는 로컬 환경에서 LLM을 간편하게 실행할 수 있는 오픈소스 런타임으로 GitHub 스타 8만 개를 넘어섰다. macOS · Windows · Linux를 모두 지원한다.
핵심 특징은 모델 관리를 Docker처럼 CLI로 처리한다는 점이다. ollama pull llama3 로 모델을 설치하고 ollama run llama3 로 즉시 대화를 시작할 수 있다. 파이썬 환경 설정 없이 실행된다는 점이 진입 장벽을 낮춰준다.
지원 모델 종류
8B와 70B 두 가지 크기로 제공된다. 일반 대화, 텍스트 요약, 코드 생성 같은 범용 작업에 잘 맞으며 소비자용 GPU에서도 8B 모델은 무난하게 동작한다.
프랑스 스타트업이 만든 7B 모델로 크기 대비 성능이 뛰어나다. 영어 기반 작업에서 응답 속도와 품질의 균형이 좋아 실무에서 많이 쓰인다.
Google이 공개한 경량 모델로 2B와 7B 버전이 있다. 저사양 노트북에서도 비교적 원활하게 실행되어 처음 시작하는 사람에게 적합하다.
코드 생성에 특화된 모델이다. Python, JavaScript, TypeScript 같은 언어에서 코드 자동완성과 디버깅 지원이 강하다.
RAM 8GB → Gemma2 2B / Mistral 7B. RAM 16GB → Llama3 8B. 코딩 → CodeLlama. 한국어 → EXAONE · EEVE-Korean 계열.
설치 방법 (Windows · macOS · Linux)
1Windows
ollama.com 에서 설치 파일을 내려받아 실행하면 된다. 설치 후 터미널에서 ollama 를 입력해 동작을 확인한다.
2macOS
ollama.com에서 앱을 내려받거나 brew install ollama 로 설치할 수 있다. Apple Silicon 환경에서는 Metal GPU 가속이 자동 적용된다.
3Linux
터미널에서 아래 명령어 한 줄로 설치된다.
curl -fsSL https://ollama.com/install.sh | sh
NVIDIA GPU가 있으면 CUDA 드라이버를 먼저 설치해야 GPU 가속이 적용된다.
GPU가 없으면 CPU 모드로 동작한다. 응답 속도가 느리지만 기능은 동일하게 사용할 수 있다. 처음 테스트할 때는 Gemma2 2B처럼 경량 모델부터 시작하는 것을 권장한다.
실전 활용법
- 비용 없이 LLM 실험 →
ollama run llama3로 즉시 대화 시작 - 코드 리뷰 자동화 → CodeLlama에 코드 붙여넣고 개선 요청
- 사내 전용 AI 구성 → Open WebUI + Ollama 조합으로 팀 챗봇 운영
- 오프라인 환경 AI → 인터넷 없는 폐쇄망에서도 모델 실행 가능
- REST API 연동 →
localhost:11434로 내부 앱에 AI 기능 추가
개발자라면 REST API 기능도 유용하다. Ollama는 localhost:11434 포트에 API 서버를 열고 OpenAI API 호환 엔드포인트를 지원한다.
Open WebUI와 연동하면 ChatGPT와 유사한 웹 인터페이스를 로컬에서 구성할 수 있다. Docker로 Open WebUI를 설치하고 Ollama 주소를 연결하면 팀 내부 AI 도구로 바로 활용 가능하다.
Modelfile로 커스텀 모델 만들기
Ollama는 Modelfile로 기존 모델을 커스터마이징할 수 있다. 시스템 프롬프트와 온도 값을 조정해 특정 역할의 AI를 정의하는 방식이다.
사내 FAQ 전용 어시스턴트를 Modelfile로 정의해 배포하면 비용 없이 팀 내 전용 AI를 운영할 수 있다.
사용 시 주의할 점
- API 비용 완전 무료
- 오프라인·폐쇄망 환경 사용 가능
- 데이터 외부 전송 없음
- 다양한 오픈소스 모델 지원
- OpenAI API 호환
- 7B 모델 최소 8GB RAM 필요
- 한국어 성능은 모델마다 편차
- GPU 없으면 응답 속도 느림
- 70B 모델은 32GB+ RAM 요구
- 클라우드 AI 대비 품질 차이 존재
모델 크기에 따라 요구 메모리가 크게 달라지므로 PC 사양에 맞는 모델을 선택해야 한다. 처음에는 경량 모델로 시작해 점차 업그레이드하는 전략이 현명하다.
한국어 응답 품질은 영어 위주 모델에서 낮을 수 있다. EXAONE이나 EEVE-Korean 계열 모델을 찾아보는 것도 방법이다.
마무리
Ollama는 API 비용 없이 로컬에서 LLM을 실행할 수 있는 현실적인 방법이다.
개인 프로젝트, 사내 AI 도구 구성, 보안이 중요한 업무 환경에서 실용적인 선택지가 된다.
처음 시작한다면 ollama run gemma2 로 가볍게 테스트해보는 것을 추천한다.
'최신 IT 정보' 카테고리의 다른 글
| Claude Fable 5 공개 / Mythos급 AI 성능의 끝판왕 상세 분석 (0) | 2026.06.10 |
|---|---|
| 일레븐랩스 AI란 무엇인가 기능부터 활용법 총정리 (0) | 2026.06.09 |
| Docker AI란 무엇인가 — 핵심 기능과 활용법 총정리 (1) | 2026.06.07 |
| Dify AI로 사내 챗봇 만드는 방법 총정리 (0) | 2026.06.06 |
| Smithery MCP로 외부 서비스 연결하는 방법 (0) | 2026.06.05 |