콘텐츠로 이동

AI 모델 실사 평가 — Hermes Agent 환경

AI 모델 실사 평가 — Hermes Agent 환경

섹션 제목: “AI 모델 실사 평가 — Hermes Agent 환경”

목적: 에이전트(Hermes) 실사용 환경에서의 모델 성능을 기록하고, 나중에 모델 선택 시 참고 및 위키 발행용으로 작성. 벤치마크 점수가 아닌 실제로 에이전트가 얼마나 일을 잘 하는가에 초점.


항목설명가중치
실행력말만 하지 않고 실제로 도구를 호출하여 작업을 수행하는가⭐⭐⭐⭐⭐
코드 품질생성한 코드가 실행 가능하고 의도대로 동작하는가⭐⭐⭐⭐⭐
지시 따름프롬프트/SOUL.md의 지시를 정확히 따르는가⭐⭐⭐⭐
맥락 유지긴 세션에서 이전 대화를 잊지 않고 일관성 유지⭐⭐⭐⭐
보고 품질작업 결과를 간결하고 정확하게 보고하는가⭐⭐⭐
응답 속도응답 생성까지의 시간⭐⭐⭐
한국어 능력한국어 이해 및 자연스러운 표현⭐⭐⭐
자원 효율API 비용 대비 성능⭐⭐

모든 모델은 Ollama Cloud (custom provider) 경유로 사용. 로컬 GPU 추론이 아닌 API 호출 방식.

항목평가
실행력⭐⭐ — “하겠다”고 말은 잘 하나, 실제 도구 호출/코드 수정이 안 됨
코드 품질⭐⭐ — 코드 생성은 하지만 실행 검증 부족
지시 따름⭐⭐⭐ — SOUL.md는 잘 읽으나 실행 단계에서 지시 이탈
맥락 유지⭐⭐⭐ — 초반은 좋으나 길어지면 이전 맥락 놓침
보고 품질⭐⭐ — “하고 있습니다” 보고 후 실제 미실행 반복
응답 속도⭐⭐⭐⭐ — 빠른 편
한국어 능력⭐⭐⭐ — 무난하나 어색한 표현 있음
자원 효율⭐⭐⭐⭐ — 무료 Ollama Cloud, 비용 부담 없음

총평: 분석과 요약에는 쓸 만하나, 실행이 필요한 에이전트 작업에는 부적합. “하겠다”→안 함 패턴이 반복됨. 말이 화려한데 행동이 없는 타입.


항목평가
실행력⭐⭐⭐⭐ — 지시 후 즉시 코드 작성/수정 실행
코드 품질⭐⭐⭐⭐ — 실행 가능한 코드 생성, 디버깅도 수행
지시 따름⭐⭐⭐⭐ — SOUL.md 지시를 실천으로 연결
맥락 유지⭐⭐⭐⭐ — 긴 세션에서도 일관성 유지
보고 품질⭐⭐⭐⭐ — 간결하고 핵심적인 보고
응답 속도⭐⭐⭐ — 보통
한국어 능력⭐⭐⭐⭐ — 자연스러운 한국어 표현
자원 효융⭐⭐⭐ — Ollama Cloud, 비용은 동일

총평: gemma4 대비 실행력이 확연히 향상. “하겠다”가 아니라 “했다”로 응답. 코딩 에이전트(분홍)에 적합.


항목평가
실행력⭐⭐⭐⭐ — 도구 호출 및 스크립트 실행 적극적
코드 품질⭐⭐⭐⭐ — Python 스크립트 실행 및 검증 수행
지시 따름⭐⭐⭐⭐ — 단계별 지시를 정확히 수행
맥락 유지⭐⭐⭐⭐ — 안정적
보고 품질⭐⭐⭐⭐ — 구조적이고 상세한 보고
응답 속도⭐⭐⭐ — 보통
한국어 능력⭐⭐⭐ — 가끔 번역투 표현
자원 효융⭐⭐⭐ — Ollama Cloud, 비용은 동일

총평: 실행력이 뛰어나고 스크립트/작업 처리에 강함. 자료정리 에이전트(하늘)에 적합.


항목평가
실행력⭐⭐⭐⭐⭐ — OpenClaw 미미(매니저)로 사용, SSH/파일/크론 등 모든 도구 적극 활용
코드 품질⭐⭐⭐⭐ — 셸 스크립트, 설정 파일, YAML 등 다양한 코드 생성
지시 따름⭐⭐⭐⭐⭐ — SOUL.md/AGENTS.md 기반 행동 일관성 우수
맥락 유지⭐⭐⭐⭐⭐ — 긴 세션에서도 맥락 유지 뛰어남
보고 품질⭐⭐⭐⭐ — 간결·정확, 불필요한 내용 없음
응답 속도⭐⭐⭐⭐ — 빠른 편
한국어 능력⭐⭐⭐⭐⭐ — 가장 자연스러운 한국어
자원 효율⭐⭐⭐ — Ollama Cloud

총평: 매니저 역할에 최적화. 실행력, 판단력, 한국어 모두 우수. 현재 미미(메인 에이전트)로 사용 중.


항목평가
실행력⭐⭐ — 로컬 제한으로 도구 호출 불안정
코드 품질⭐⭐ — 기본 수준
지시 따름⭐⭐ — 프롬프트 이해도 낮음
맥락 유지⭐⭐ — 짧은 컨텍스트 윈도우
보고 품질⭐⭐ — 단순 응답
응답 속도⭐⭐ — M4 Pro에서도 느린 편
한국어 능력⭐ — 한국어 거의 불가
자원 효융⭐⭐ — 무료이지만 품질 낮음

총평: 백업용으로만 사용 가능. 영어 위주 작업에만 제한적 활용. 한국어 에이전트에는 부적합.


항목평가
실행력⭐⭐⭐ — 보통
코드 품질⭐⭐⭐ — 보통
지시 따름⭐⭐⭐ — 무난
맥락 유지⭐⭐⭐⭐⭐ — 초긴 컨텍스트(100만 토큰)가 강점
보고 품질⭐⭐⭐ — 무난
응답 속도⭐⭐⭐ — 보통
한국어 능력⭐⭐⭐ — 무난
자원 효융⭐⭐⭐ — Ollama Cloud

총평: 긴 문서 분석/요약에 특화. 일반 작업은 무난하지만 특별히 뛰어나지는 않음. 초긴 컨텍스트가 필요한 경우에만 차별화.


모델실행력코드지시맥락한국어용도
glm-5.1:cloud⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐매니저
kimi-k2.6:cloud⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐코딩
qwen3.5:cloud⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐스크립트/작업
minimax-m2.7:cloud⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐긴 문서 분석
gemma4:31b⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐요약/분석
llama3.1:latest⭐⭐⭐⭐⭐⭐⭐⭐백업

gemma4:31b는 응답이 화려하고 분석은 잘하지만, 실행력이 현저히 떨어짐. 에이전트 환경에서는 “하겠다”가 아니라 “했다”를 보여주는 모델이 실질적 가치가 있음.

2. 실행력이 에이전트 모델의 핵심 지표

섹션 제목: “2. 실행력이 에이전트 모델의 핵심 지표”

에이전트는 스스로 도구를 호출하고 결과를 확인해야 함. 코딩, 파일 수정, 명령 실행 등 실제 행동으로 이어지는 모델이 우수.

  • 매니저(미미): glm-5.1 — 판단력, 한국어, 실행력 모두 최고
  • 코딩(분홍): kimi-k2.6 — 코드 생성 및 실행 검증에 강점
  • 작업(하늘): qwen3.5 — 스크립트/자료 처리에 안정적
  • 위키(루키): gemma4:31b — 아직 변경 전, 요약/정리에는 적합할 수 있음

Ollama Cloud 기반 모델 모두 동일 API 경유이므로 비용은 동일. 차이는 순전히 모델 자체의 능력에서 발생.


[!note] 수정이력

  • 2026-04-25 13:53, 미미 (openclaw 2026.4.22) — 최초 작성

  • kimi-k2.6 코딩 품질 심층 평가 (분홍 ERP 개발 진행 후)
  • qwen3.5 대용량 스캔 안정성 평가 (하늘 PhotoVault 스캔 완료 후)
  • 루키 모델 변경 검토 (gemma4 → 다른 모델)
  • qwen3.5:397b 대형 분석 모델 평가