PKC AI Project

AI를 활용하여 보급형 그래픽 카드에서 멀티모달 챗봇 만들어 보기

AI MARK Benchmark

Gemma-v3-27B와 Qwen-v3-30B 모델 성능 비교 보고서

AI Orchestrator 2025. 11. 6. 15:20

LLM 벤치마크 심층 분석:
Gemma-v3-27B와 Qwen-v3-30B 모델 성능 비교 보고서

 

작성자: Gemini

이 글은 AI를 활용하여 분석된 글입니다.

1. 도입

본 보고서는 두 가지 LLM 모델인 gemma-3-27b Q4_0-GGUF 와 Qwen3-30B-Q4_K_M-GGUF에 대한

벤치마크 테스트 로그를 심층 분석합니다.

테스트는 파이프라인 연동 없이 독립적으로 실행되었으며,

동일한 시스템 환경에서각 모델의 성능 지표를 비교 측정하는 데 중점을 두었습니다.

이 분석을 통해 각 AI 모델의 특성과 성능을 객관적으로 파악하고, 특정 환경에서의 응용 가능성을 고찰하고자 합니다.

2. 벤치마크 테스트 환경

본 벤치마크 테스트는 일관된 하드웨어 및 소프트웨어 환경에서 수행되었습니다.

  • OS: Windows 10
  • CPU: Intel64 Family 6 Model 158 Stepping 13 (6 Threads)
  • RAM: 31.9 GB
  • GPU: NVIDIA GeForce RTX 2060 SUPER (VRAM 8.0 GB)
  • PyTorch 버전: 2.5.1+cu121
  • CUDA 버전: 12.1
  • cuBLAS 활성화: True (활성화)
  • LLM 구동 방식: llama.cpp (AVX, AVX2, FMA, F16C 활성화)

3. 테스트 모델 및 설정 비교

두 LLM은 제 환경에서 테스트가 가능하도록 서로 다른 파라미터와 설정을 기반으로 테스트되었습니다.

4. 핵심 성능 지표(Metric) 분석

세 가지 동일한 한국어 프롬프트에 대해 AI 모델이 영어로 응답하도록 설정되었으며, 주요 성능 지표는 다음과 같습니다.

성능 요약 표 (평균치)

지표 (Metric)Gemma-v3-27BQwen-v3-30B

지표 (Metric) Gemma-v3-27B_Q4_0-GGUF Qwen-v3-30B_Q4_K_M-GGUF
GPU 레이어 설정 (n_gpu_layers) 14 12
최대 토큰 설정 (llm_max_tokens) 512 512
평균 Load Time (모델 로드 시간) 약 3.08 s 약 4.76 s
평균 TTFT (초기 반응 속도) 약 4,536.2 ms 약 10,082.6 ms
평균 Tokens/Second (토큰 생성 속도) 약 1.54 t/s 약 9.95 t/s
평균 Inference Time (추론 시간) 약 69.50 s 약 44.68 s
평균 CPU 사용률 약 54.17 % 약 43.90 %
평균 VRAM 사용량 약 7.07 GB 약 5.66 GB
평균 GPU 전력 약 29.63 W 약 14.84 W
평균 GPU 온도 약 40.0 °C 약 38.7 °C

두 모델 비교 로그

A. 평균 TTFT (Time To First Token)

TTFT는 프롬프트 입력 후 첫 번째 토큰이 생성되기까지 걸린 시간을 의미하며, 사용자가 체감하는 AI의 초기 반응 속도를 나타냅니다.

  • Gemma-v3-27B: 약 4,536.2 ms (평균)
  • Qwen-v3-30B: 약 10,082.6 ms (평균)

분석: Gemma-v3-27B 모델이 Qwen-v3-30B 모델보다 평균적으로 약 2.2배 더 빠른 초기 반응 속도를 보였습니다. 이는 Gemma-v3 모델이 더 적은 파라미터와 더 많은 GPU 레이어 설정(14개)으로 인해 초기 로드 및 처리가 신속하게 이루어졌음을 시사합니다. 측정되었는데, 이는 모델 로드 시간에 영향을 받았을 가능성이 있습니다. (평균 Load Time: Gemma-v3 3.08s vs Qwen-v3 4.76s)

B. 평균 Tokens Per Second (초당 토큰 생성 수)

초당 토큰 생성 수는 LLM이 응답을 얼마나 빠르게 생성하는지 나타내는 처리 속도 지표입니다.

  • Gemma-v3-27B: 약 1.54 t/s (평균)
  • Qwen-v3-30B: 약 9.95 t/s (평균)

분석: 토큰 생성 속도에서는 Qwen-v3-30B 모델이 Gemma-v3-27B 모델 대비 약 6.4배 더 우수한 성능을 보여주었습니다. Qwen-v3-30B는 더 많은 파라미터(30B)를 가졌음에도 불구하고, 12개의 GPU 레이어 설정 하에서 매우 효율적인 토큰 처리량을 기록했습니다. 이는 Llama와 유사한 아키텍처를 지원하는 GGUF 콴티제이션(Quantization) 방식이 AI의 추론 속도(Inference Time)에 긍정적인 영향을 미쳤음을 보여줍니다.

C. 평균 VRAM 및 리소스 사용량

  • Gemma-v3-27B: 약 7.07 GB (평균)
  • Qwen-v3-30B: 약 5.66 GB (평균)

분석: Gemma-v3-27B 모델이 Qwen-v3-30B 모델보다 더 많은 VRAM을 사용했습니다. 이는 Gemma-v3가 더 많은 GPU 레이어(14개)를 사용하도록 설정되어 더 많은 모델 데이터를 VRAM에 적재했기 때문으로 분석됩니다. Qwen-v3-30B는 30B 급 모델임에도 불구하고 12개의 레이어 설정으로 8GB VRAM 환경에서도 여유롭게 동작했습니다.

또한, Qwen-v3-30B 모델이 추론 중 더 낮은 GPU 전력(약 14.84W)과 온도(약 38.7°C)를 유지하여 전력 효율성 측면에서도 우수함을 보였습니다. (Gemma-v3 평균 29.63W, 40.0°C)

5. LLM 응답 내용 분석

본 벤치마크는 성능 지표뿐만 아니라 LLM이 생성한 답변의 질도 포함합니다. 세 가지 프롬프트에 대한 AI 모델의 응답은 다음과 같습니다.

프롬프트 1: (긍정적 감정)

  • 프롬프트: "오늘 하루 정말 멋진 일이 가득했어, 하늘을 나는 기분이야!"
  • Gemma-v3-27B 응답 (요약): "That's wonderful to hear! I’m so happy you had such a great day. Feeling like you could fly is the best feeling – it sounds truly amazing. Is there anything in particular that made your day special?"
    • (감정에 공감하며 축하하고, 특별한 일이 있었는지 질문을 던짐)
  • Qwen-v3-30B 응답 (요약): "What a wonderful day! It made me wonder how much hope and freedom one can feel, just like flying in the sky. I also wonder just how special that moment must have been. 😊"
    • (긍정적 감정을 '희망과 자유'로 해석하며 감상적인 반응을 보임)

프롬프트 2: (부정적 감정 - 불안)

  • 프롬프트: "프로젝트 마감일은 다가오는데, 아무것도 손에 잡히질 않아서 너무 불안해."
  • Gemma-v3-27B 응답 (요약): "I understand you're feeling anxious because the project deadline is approaching... That's completely normal... Here are some suggestions... 1. Break it down..."
    • (불안감에 공감하며, 작업을 세분화하라는 실용적인 조언을 시작함)
  • Qwen-v3-30B 응답 (요약): "I understand how you're feeling. It's completely natural to feel anxious... Here are some steps that might help: 1. Take a deep breath... 2. Break it down..."
    • (마찬가지로 공감하며, '심호흡'을 포함한 구체적이고 긴 단계별 조언을 제공함)

프롬프트 3: (복합적 감정 - 기대와 걱정)

  • 프롬프트: "AI 기술의 발전이 기대되면서도, 한편으로는 일자리가 줄어들까 봐 걱정돼."
  • Gemma-v3-27B 응답 (요약): "I understand your concern. It's perfectly normal to feel anxious about the potential impact of AI on jobs... AI will automate certain tasks... While AI may displace some roles, it's also expected to create new ones..."
    • (걱정에 공감하며 AI가 일부 작업을 자동화하지만 새로운 일자리를 창출할 것이라는 균형 잡힌 시각을 제시)
  • Qwen-v3-30B 응답 (요약): "The advancement of AI technology has raised concerns about job reduction, but there is also a positive aspect... AI-based work can help complement human creativity and emotional intelligence..."
    • (긍정적인 측면을 강조하며 AI가 인간의 창의성과 감성 지능을 보완할 수 있다고 설명함)

종합 분석

두 AI 모델 모두 한국어 프롬프트의 문맥을 성공적으로 이해하고 적절한 영어 응답을 생성했습니다.

그러나 응답의 질과는 별개로, RTX 2060 SUPER (8GB VRAM) 환경에서의 성능 지표는 '실사용 가능'의 기준에는 크게 미치지 못했습니다.

Gemma-v3-27B 모델의 경우, 평균 1.54 t/s라는 토큰 생성 속도는 사용자가 실시간으로 응답을 받아보기에는 너무 느린 속도입니다.

반면 Qwen-v3-30B 모델은 평균 10초(10,082 ms)에 달하는 초기 반응 속도(TTFT)를 기록했으며, 첫 번째 프롬프트에서는 20초가 넘게 걸렸습니다. 이는 AI가 응답을 시작하기까지 사용자가 매번 감내하기에는 매우 긴 대기 시간입니다.

결과적으로 두 LLM 모두 RTX 2060 SUPER 환경에서 원활한 대화형 AI나 코딩 어시스턴트로 활용하기에는 심각한 성능적 한계를 보였습니다.

6. 결론

본 AI 벤치마크 분석의 핵심 결론은 **"NVIDIA RTX 2060 SUPER (8GB VRAM) 환경에서 27B~30B 파라미터급 LLM의 실사용은 불가능하다"**는 것입니다.

GGUF 콴티제이션을 통해 모델을 구동하는 것 자체는 성공했으나, 측정된 성능 지표는 실용적인 AI 애플리케이션의 최소 요구치에 미치지 못했습니다.

  • Gemma-v3-27B (Google / Gemma-v3 계열):
    • 한계: 평균 1.54 t/s에 불과한 토큰 생성 속도는 사용자가 응답을 실시간으로 체감할 수 없는 수준이며, 사실상 실사용이 불가능한 속도입니다.
    • 평가: 초기 반응(TTFT)이 상대적으로 빠르다는 장점은, 이후 이어지는 느린 토큰 생성 속도로 인해 완전히 무의미해집니다.
  • Qwen-v3-30B (Alibaba / Qwen-v3 계열):
    • 한계: 평균 10초, 최대 20초에 달하는 초기 반응 속도(TTFT)는 사용자가 AI와 상호작용할 때마다 극심한 대기 스트레스를 유발합니다.
    • 평가: 30B 모델임에도 8GB VRAM 환경에서 효율적으로 작동하고(5.66GB 사용) 토큰 생성 속도(9.95 t/s)가 빠르다는 장점이 있으으나, 감내할 수 없는 TTFT 지연으로 인해 실사용에는 부적합합니다.

이번 LLM 비교 분석은 Google Gemma-v3Alibaba Qwen-v3 계열과 같은 AI 모델을 GGUF 포맷으로 구동하는 방식이 AI 모델의 접근성을 높였음에도 불구하고, 8GB VRAM 환경은 27B 이상의 고용량 AI 모델을 구동하기에는 역부족임을 명확히 보여줍니다. 원활한 LLM 구동을 위해서는 RTX 2060 SUPER 급을 초과하는, 더 많은 VRAM과 향상된 연산 성능이 필수적임을 시사합니다.