이 글은 AI를 활용하여 분석된 글입니다.
English Translation Post
LLaVA v1.5-7B 벤치마크 분석 리포트
작성자: AI GPT
1. 개요
이번 분석은 LLaVA v1.5-7B 모델을 대상으로 진행된 성능 벤치마크 결과를 기반으로 작성되었습니다.
테스트는 파이프라인 연동 없이 단독 실행(connect_pipeline: ✗)으로 진행되었으며, 모든 요청은 동시 실행 모드(run_mode: "동시")에서 수행되었습니다.
테스트 환경은 다음과 같습니다:
- 운영체제: Windows 10
- CPU: Intel64 Family 6 Model 158 Stepping 13 (6 Threads)
- RAM: 31.9 GB
- GPU: NVIDIA GeForce RTX 2060 SUPER (VRAM 8GB)
- CUDA: 12.1 / PyTorch: 2.5.1+cu121
- cuBLAS: 활성화
Llama.cpp 가속 정보:
- AVX
- AVX2
- FMA
- F16C
2. 테스트 구성
벤치마크는 총 3개의 프롬프트로 진행되었습니다:
- 긍정 감정: “I had such an amazing day today, I feel like I'm floating!”
- 부정 감정 / 스트레스 상황: “The project deadline is looming, and I feel so anxious because I can't seem to focus on anything.”
- 기술적 이슈 / 사회적 관심사: “I'm excited about the advancement of AI technology, but at the same time, I'm worried it might reduce the number of jobs.”
각 테스트는 5회 반복(repeat_count: 5)되었으며, 최소 토큰 길이는 15(repeat_min_len: 15)로 설정되었습니다.
3. 주요 성능 지표
항목 평균값 단위
| 모델 로드 시간 | 1.85 | 초 |
| TTFT (첫 토큰 대기시간) | 47.2 | ms |
| 토큰 처리 속도 | 59.6 | tokens/s |
| 추론 시간 (평균) | 2.55 | 초 |
| VRAM 사용량 | 5.78 | GB |
| GPU 전력 소비 | 174.6 | W |
| GPU 온도 | 50 | °C |
| CPU 점유율 | 47.6 | % |
TTFT(Time to First Token)은 반응성(응답 지연)을 평가하는 핵심 지표로, 50ms 이하로 유지된 점은 매우 우수한 수준입니다.
4. 응답 품질 분석
(1) 긍정 감정 문장
입력: “I had such an amazing day today, I feel like I'm floating!”
출력: “I'm so glad to hear that! It sounds like you had a fantastic day. Is there anything in particular that you would like to share about it?”
→ 결과 요약: 감정 공감형 응답으로 자연스럽고 인간적인 반응. 정서적 대화 품질 우수.
(2) 스트레스 문장
입력: “The project deadline is looming...”
출력: 스트레스 상황 인식 및 구체적 조언(요가, 명상 등 제안). 일부 출력에서 불필요한 추가 프롬프트([요청]/[답변] 구조)가 포함되어 출력 후처리 필요.
(3) 기술·사회적 문장
입력: “I'm excited about the advancement of AI...”
출력: AI 발전의 긍정적 영향과 일자리 감소 우려를 균형 있게 언급. 문단 중간에 추가 프롬프트 전환 발생.
→ 결과 요약: LLaVA v1.5-7B는 텍스트 이해 능력은 우수하나, 멀티턴 프롬프트 관리 및 컨텍스트 유지 기능은 다소 불안정함.
5. 시스템 자원 효율성
RTX 2060 SUPER (8GB VRAM) 환경에서 약 5.78GB의 VRAM을 사용했으며, GPU 전력 소비는 평균 174W 수준으로 측정되었습니다.
온도는 최대 56°C로, 장시간 운용에도 안정적인 동작 범위 내에 있습니다.
CPU 점유율은 약 47%로, 멀티스레드 최적화가 잘 작동하고 있는 것으로 보입니다.
6. 종합 평가
항목 평가 비고
| 언어 이해력 | 매우 우수 | 감정·논리적 문맥 처리 정확 |
| 응답 속도 | 우수 | TTFT < 50ms 유지 |
| 메모리 효율성 | 양호 | 8GB VRAM 내 원활 구동 |
| 프롬프트 일관성 | 보통 | 불필요한 [요청]/[답변] 블록 출력 발생 |
| 파이프라인 연동성 | 미지원 | connect_pipeline 비활성화 |
7. 결론
LLaVA v1.5-7B는 텍스트 중심 감정 분석, 사용자 응답형 대화, 기술 토픽 응답 등에서 탁월한 품질을 보여줍니다.
다만, 프롬프트 체인 관리 부분에서는 추가적인 후처리 모듈 보완이 필요합니다.
이번 테스트는 단독 모델 실행 기반의 벤치마크로, 파이프라인 연동형 테스트와 비교 시에는 다소 다른 특성을 보일 수 있습니다.
'AI MARK Benchmark' 카테고리의 다른 글
| Gemma-v3-27B와 Qwen-v3-30B 모델 성능 비교 보고서 (0) | 2025.11.06 |
|---|---|
| GPT-20B vs ERNIE-21B Llm 벤치마크 로그 정밀 분석 (0) | 2025.11.04 |
| PKC MARK 벤치마크 툴 현재 진행 상황 (0) | 2025.10.04 |
| PKC 벤치마크 툴 MARK (공개용) 분석 보고서 (0) | 2025.09.27 |
| Phase 6: 프로젝트 보고서: PKC llm, llama 벤치마크 툴 정상화 및 안정화 (5) | 2025.09.25 |