PKC AI Project

AI를 활용하여 보급형 그래픽 카드에서 멀티모달 챗봇 만들어 보기

AI MARK Benchmark

LLM LLaVA v1.5-7B 벤치마크 분석 리포트

AI Orchestrator 2025. 11. 3. 03:05

이 글은 AI를 활용하여 분석된 글입니다.

 

English Translation Post

LLaVA v1.5-7B 벤치마크 분석 리포트

작성자: AI GPT


1. 개요

이번 분석은 LLaVA v1.5-7B 모델을 대상으로 진행된 성능 벤치마크 결과를 기반으로 작성되었습니다.
테스트는 파이프라인 연동 없이 단독 실행(connect_pipeline: ✗)으로 진행되었으며, 모든 요청은 동시 실행 모드(run_mode: "동시")에서 수행되었습니다.

테스트 환경은 다음과 같습니다:

  • 운영체제: Windows 10
  • CPU: Intel64 Family 6 Model 158 Stepping 13 (6 Threads)
  • RAM: 31.9 GB
  • GPU: NVIDIA GeForce RTX 2060 SUPER (VRAM 8GB)
  • CUDA: 12.1 / PyTorch: 2.5.1+cu121
  • cuBLAS: 활성화

Llama.cpp 가속 정보:

  • AVX
  • AVX2
  • FMA
  • F16C

2. 테스트 구성

벤치마크는 총 3개의 프롬프트로 진행되었습니다:

  1. 긍정 감정: “I had such an amazing day today, I feel like I'm floating!”
  2. 부정 감정 / 스트레스 상황: “The project deadline is looming, and I feel so anxious because I can't seem to focus on anything.”
  3. 기술적 이슈 / 사회적 관심사: “I'm excited about the advancement of AI technology, but at the same time, I'm worried it might reduce the number of jobs.”

각 테스트는 5회 반복(repeat_count: 5)되었으며, 최소 토큰 길이는 15(repeat_min_len: 15)로 설정되었습니다.


3. 주요 성능 지표

항목 평균값 단위

모델 로드 시간 1.85
TTFT (첫 토큰 대기시간) 47.2 ms
토큰 처리 속도 59.6 tokens/s
추론 시간 (평균) 2.55
VRAM 사용량 5.78 GB
GPU 전력 소비 174.6 W
GPU 온도 50 °C
CPU 점유율 47.6 %

TTFT(Time to First Token)은 반응성(응답 지연)을 평가하는 핵심 지표로, 50ms 이하로 유지된 점은 매우 우수한 수준입니다.


4. 응답 품질 분석

(1) 긍정 감정 문장

입력: “I had such an amazing day today, I feel like I'm floating!”
출력: “I'm so glad to hear that! It sounds like you had a fantastic day. Is there anything in particular that you would like to share about it?”
결과 요약: 감정 공감형 응답으로 자연스럽고 인간적인 반응. 정서적 대화 품질 우수.

(2) 스트레스 문장

입력: “The project deadline is looming...”
출력: 스트레스 상황 인식 및 구체적 조언(요가, 명상 등 제안). 일부 출력에서 불필요한 추가 프롬프트([요청]/[답변] 구조)가 포함되어 출력 후처리 필요.

(3) 기술·사회적 문장

입력: “I'm excited about the advancement of AI...”
출력: AI 발전의 긍정적 영향과 일자리 감소 우려를 균형 있게 언급. 문단 중간에 추가 프롬프트 전환 발생.

결과 요약: LLaVA v1.5-7B는 텍스트 이해 능력은 우수하나, 멀티턴 프롬프트 관리 및 컨텍스트 유지 기능은 다소 불안정함.


5. 시스템 자원 효율성

RTX 2060 SUPER (8GB VRAM) 환경에서 약 5.78GB의 VRAM을 사용했으며, GPU 전력 소비는 평균 174W 수준으로 측정되었습니다.
온도는 최대 56°C로, 장시간 운용에도 안정적인 동작 범위 내에 있습니다.

CPU 점유율은 약 47%로, 멀티스레드 최적화가 잘 작동하고 있는 것으로 보입니다.


6. 종합 평가

항목 평가 비고

언어 이해력 매우 우수 감정·논리적 문맥 처리 정확
응답 속도 우수 TTFT < 50ms 유지
메모리 효율성 양호 8GB VRAM 내 원활 구동
프롬프트 일관성 보통 불필요한 [요청]/[답변] 블록 출력 발생
파이프라인 연동성 미지원 connect_pipeline 비활성화

7. 결론

LLaVA v1.5-7B는 텍스트 중심 감정 분석, 사용자 응답형 대화, 기술 토픽 응답 등에서 탁월한 품질을 보여줍니다.
다만, 프롬프트 체인 관리 부분에서는 추가적인 후처리 모듈 보완이 필요합니다.

이번 테스트는 단독 모델 실행 기반의 벤치마크로, 파이프라인 연동형 테스트와 비교 시에는 다소 다른 특성을 보일 수 있습니다.