PKC AI Project

AI를 활용하여 보급형 그래픽 카드에서 멀티모달 챗봇 만들어 보기

AI MARK Benchmark

PKC Benchmark Tool MARK LLM 통합 하드웨어 성능 측정 베타 버전

AI Orchestrator 2025. 11. 6. 18:30

PKC Benchmark Tool MARK

LLM 통합 성능 측정의 새로운 베타 버전

AI 모델이 폭발적으로 증가하면서, 로컬 환경에서 LLM(Large Language Model)의 성능을 체계적으로 비교하고 검증할 수 있는 도구가 절실해졌습니다.
이번 글에서는 PKC Benchmark Tool - MARK (베타) 버전을 직접 분석하여, 그 구성과 파이프라인 구조, 그리고 테스트 로직까지 세부적으로 정리했습니다.

English Translation Post

 

다운로드 링크: ⬇️ ⬇️ ⬇️ 아래 글을 반드시 읽어 주세요. ⬇️ ⬇️ ⬇️

 

PKC_Benchmark_Tool_MARK.zip
0.04MB

🚀 이 블로그에서 다운로드 📥

 

💾 구글 드라이브에서 다운로드 📥

 

🧠 github에서 다운로드 📥

 


1️⃣ 프로젝트 개요

PKC MARK Benchmark Tool (베타) 는 로컬 AI 모델들의 실제 추론 성능을 웹 기반으로 시각화하는 벤치마크 시스템입니다.
설치형 환경에서 Llama, Diffusers, Transformers 계열 모델을 자동으로 탐색해, 동일한 입력(프롬프트)에 대한 결과를 일관된 지표로 비교할 수 있습니다.

지원 모델 계열:

  • Llm (언어 모델)
  • Diffusers (이미지 생성 모델)
  • .Transformers, .GGUF

주요 측정 지표:

  • VRAM 사용량 (GB)
  • 모델 로드 시간 (s)
  • 토큰 처리 속도 (TPS)
  • 첫 토큰 출력 시간 (TTFT, ms)
  • GPU 전력 / 온도 / CPU 사용률

2️⃣ 베타 버전의 특징

베타 단계에서는 다음과 같은 핵심 기능들이 중점적으로 개선되었습니다.

🔹 실시간 파이프라인 시각화

벤치마크 과정이 프롬프트 단위로 단계별 기록되어, LLM과 분석 모델 간의 파이프라인 흐름을 시각적으로 추적할 수 있습니다.

🔹 자동 모델 스캔 (config.json 기반)

config.json 파일의 models_scan_path 항목에 모델 폴더 경로를 지정하면, 서버 실행 시 해당 디렉터리를 자동으로 스캔하여 모델을 분류합니다.

예시:

{
    "results_dir": "results",
    "models_scan_path": "C:/MyModels"
}

🔹 통합 웹 UI (benchmark_canvas.html)

  • TailwindCSS 기반의 다크 모드 UI
  • 실시간 로그, 차트, 비교 탭 제공
  • 로컬 브라우저 LocalStorage에 결과 자동 저장

🔹 파이프라인 연동 테스트 지원

감정 분석(analysis model)의 결과를 언어 모델(LLM)의 프롬프트에 자동 삽입하는 구조로, 실제 응답 품질의 변화를 추적할 수 있습니다.


3️⃣ 서버 및 실행 구조

benchmark_server.py 는 FastAPI 기반 백엔드 서버로, 다음의 주요 역할을 수행합니다.

  • 모델 스캔 및 로딩 관리 (scan_models_directory)
  • VRAM/전력/온도 모니터링 (pynvml 기반)
  • 파이프라인 단계별 스트리밍 로그 전송 (/api/stream)
  • 테스트 실행 (/api/run-benchmark)
  • 결과 저장 (JSON + HTML)

서버는 uvicorn 으로 실행되며, Windows의 경우 start_server_windows.bat 을 통해 즉시 구동할 수 있습니다.


4️⃣ 테스트 및 지표 수집 로직

각 모델은 Sequential / Parallel 모드 중 선택적으로 실행됩니다.

  • Sequential: 모델을 순차적으로 로드 후 테스트 (VRAM 절약형)
  • Parallel: 모델을 캐싱 후 반복 실행 (속도형)

벤치마크 실행 시 수집되는 주요 지표:

  • 모델 로드 시간 (load_time_s)
  • VRAM 사용량 (vram_usage_gb)
  • 첫 토큰 출력 시간 (ttft_ms)
  • 초당 토큰 처리 속도 (tokens_per_second)
  • 추론 시간 (inference_time_s)

5️⃣ 결과 저장 및 분석

모든 테스트 결과는 results 폴더에 JSON과 HTML 형식으로 자동 저장됩니다.

HTML 결과 파일에는:

  • 각 프롬프트별 모델별 성능 지표
  • 출력 텍스트 및 상태 표시 (✅ / ⚠️ / ❌)
  • Llama.cpp 가속 정보 (AVX, CUBLAS 등)
    이 함께 기록됩니다.

또한 웹 UI에서 LocalStorage에 저장된 결과를 비교 모드(Comparison) 로 불러와 세션별 성능 차트를 확인할 수 있습니다.


6️⃣ 결론

PKC Benchmark Tool MARK (베타) 는 로컬 LLM 성능을 정량화하고, 파이프라인 기반의 실제 응답 품질을 가시화할 수 있는 도구입니다.
특히 분석 모델 → 언어 모델로 이어지는 연동 테스트 기능은, 단순 추론 속도를 넘어 AI 파이프라인 품질 평가를 가능하게 합니다.

현재 베타 버전에서는 모델 경로 스캔과 캐시 관리, VRAM 재시도 로직 등이 안정화되었으며, 차기 버전에서는 분산 벤치마크 및 세션별 자동 리포트 생성 기능이 추가될 예정입니다.

궁금한 점이나 버그 리포트, 제안 등은 댓들로 편하게 문의해주십시오.

 

 

**Keywords:**  
AI, LLM, Llama, Transformers, Diffusers, Benchmark, PKC MARK, AI Benchmark, Model Test, Local LLM, Pipeline, FastAPI, VRAM, Inference, Token Speed, TTFT, GPU Benchmark, Machine Learning Performance, Open Source AI, Beta Version, PKC AI, AI Tool, AI Development, AI Engineering, AI Analysis, Python AI, LlamaCpp, CUBLAS, GGUF, AI Lab, AI Research, AI Project, AI Pipeline, Model Performance, AI Testing, Deep Learning, Neural Network, AI Framework, AI Visualization, AI Metrics, Local AI, Offline AI, AI Technology, ML Benchmark, PKC Tech