PKC AI Project

AI를 활용하여 보급형 그래픽 카드에서 멀티모달 챗봇 만들어 보기

AI MARK Benchmark

llm llama3 8B + 감정 분석기 vs 커뮤니티 4bit 벤치 비교 (RTX 2060 8GB benchmark Performance)

AI Orchestrator 2025. 9. 25. 09:43

English Translation

LLM 파이프라인 벤치마크 비교 (RTX 2060 8GB)

작성: 2025-09-19

대상 GPU: RTX 2060 8GB 계열(RTX 2060 Super)

벤치마크 툴: PKC MARK (자체 제작)

포맷: 4-bit 양자화(Q4)

개요 (Overview)

이 글은  Llama3 8B + kluebert-v2 파이프라인의 자체 측정 결과와,

최근 커뮤니티에 공유된 RTX 2060 8GB (또는 2060 Super 8GB) 기반 4-bit 양자화(예: Q4_K_M, Q4_0)

벤치마크 사례를 비교 분석한 것입니다.

특히 메모리 제한적인 환경(8GB VRAM)에서의 실사용성(User Experience, UX)에 초점을 맞췄습니다.

상세 비교 표 (Detailed Comparison Table)

항목 Llama3 8B (4bit) 최근 사례

모델 / 파이프라인 bllossom-8B (대화 LLM) +
kluebert-v2 (파이프 라인)
7B/8B 계열
(Llama-2-7B, Llama-3.1-8B 등. 단일 모델)
양자화 4-bit (Q4 계열) 4-bit (Q4_K_M, Q4_0)
GPU RTX 2060 8GB RTX 2060 Super 6GB / RTX 2060 8GB
TTFT (첫 토큰 지연) ~39–52 ms (즉시 응답) ~1.0–1.1 s (지연 존재)
TPS (토큰/초) ~46 tok/s (8B 기준) 8B: ~50–52 tok/s · 7B: ~61 tok/s
VRAM 점유 ~6.7 GB (8B) 8B: ~7.5–8.0 GB · 7B: ~6–7 GB
출력 품질 한국어 일관성 + 감정 태깅 언어 품질 양호하나 감정 태깅 없음
실사용성 지연 매우 낮아 대화 UX 우수 지연 크고 VRAM 한계

※ PKC 수치는 자체 제작 벤치마크 요약치이며, 커뮤니티 값은 대표 사례 기반입니다.

결론 (Conclusion)

**LLM 8B + kluebert-v2 (4bit, PKC MARK)**는 커뮤니티 4bit 벤치 대비

매우 낮은 지연과 안정적인 한국어 품질을 제공하여 실제 대화 UX에서 우위에 있습니다.

TPS(처리 속도)는 비슷하지만, **응답성(TTFT)**이 압도적으로 낮아 사용자에게 즉각적인 반응을 제공합니다.

여기에 감정 태깅 기능까지 포함되어 있어 단순 LLM 모델보다 실사용성이 한층 높다고 평가할 수 있습니다.

특히 VRAM 점유율도 7GB 미만으로 안정적이어서 8GB 환경에서 운영하기에 매우 적합한 파이프라인으로 보입니다.

 

이 분석은 AI를 활용하여 PKC 자체 제작 벤치마크 툴의 결과 로그를 분석하여,
커뮤니티 사례들과 비교한 게시물입니다.