LLM 파이프라인 벤치마크 비교 (RTX 2060 8GB)
작성: 2025-09-19
대상 GPU: RTX 2060 8GB 계열(RTX 2060 Super)
벤치마크 툴: PKC MARK (자체 제작)
포맷: 4-bit 양자화(Q4)
개요 (Overview)
이 글은 Llama3 8B + kluebert-v2 파이프라인의 자체 측정 결과와,
최근 커뮤니티에 공유된 RTX 2060 8GB (또는 2060 Super 8GB) 기반 4-bit 양자화(예: Q4_K_M, Q4_0)
벤치마크 사례를 비교 분석한 것입니다.
특히 메모리 제한적인 환경(8GB VRAM)에서의 실사용성(User Experience, UX)에 초점을 맞췄습니다.
상세 비교 표 (Detailed Comparison Table)
항목 Llama3 8B (4bit) 최근 사례
| 모델 / 파이프라인 | bllossom-8B (대화 LLM) + kluebert-v2 (파이프 라인) |
7B/8B 계열 (Llama-2-7B, Llama-3.1-8B 등. 단일 모델) |
| 양자화 | 4-bit (Q4 계열) | 4-bit (Q4_K_M, Q4_0) |
| GPU | RTX 2060 8GB | RTX 2060 Super 6GB / RTX 2060 8GB |
| TTFT (첫 토큰 지연) | ~39–52 ms (즉시 응답) | ~1.0–1.1 s (지연 존재) |
| TPS (토큰/초) | ~46 tok/s (8B 기준) | 8B: ~50–52 tok/s · 7B: ~61 tok/s |
| VRAM 점유 | ~6.7 GB (8B) | 8B: ~7.5–8.0 GB · 7B: ~6–7 GB |
| 출력 품질 | 한국어 일관성 + 감정 태깅 | 언어 품질 양호하나 감정 태깅 없음 |
| 실사용성 | 지연 매우 낮아 대화 UX 우수 | 지연 크고 VRAM 한계 |
※ PKC 수치는 자체 제작 벤치마크 요약치이며, 커뮤니티 값은 대표 사례 기반입니다.
결론 (Conclusion)
**LLM 8B + kluebert-v2 (4bit, PKC MARK)**는 커뮤니티 4bit 벤치 대비
매우 낮은 지연과 안정적인 한국어 품질을 제공하여 실제 대화 UX에서 우위에 있습니다.
TPS(처리 속도)는 비슷하지만, **응답성(TTFT)**이 압도적으로 낮아 사용자에게 즉각적인 반응을 제공합니다.
여기에 감정 태깅 기능까지 포함되어 있어 단순 LLM 모델보다 실사용성이 한층 높다고 평가할 수 있습니다.
특히 VRAM 점유율도 7GB 미만으로 안정적이어서 8GB 환경에서 운영하기에 매우 적합한 파이프라인으로 보입니다.
이 분석은 AI를 활용하여 PKC 자체 제작 벤치마크 툴의 결과 로그를 분석하여,
커뮤니티 사례들과 비교한 게시물입니다.
'AI MARK Benchmark' 카테고리의 다른 글
| Phase 6: 프로젝트 보고서: PKC llm, llama 벤치마크 툴 정상화 및 안정화 (5) | 2025.09.25 |
|---|---|
| Phase 5: PKC llm llama MARK 벤치마크 툴 - 작업 보고서 (0) | 2025.09.25 |
| Phase 4: llm llama 벤치마크 툴 공개용 작업 보고서 (0) | 2025.09.25 |
| RTX 2060 SUPER + Llama 3B VS 8B 한국어 실사용 벤치마크: 속도·VRAM·분석 (0) | 2025.09.25 |
| RTX 2060으로 Bllossom 8B 테스트 - PKC 벤치마크 결과 (0) | 2025.09.25 |