콘텐츠로 이동

AI 모델 실사 평가 — Hermes Agent 환경

AI 모델 실사 평가 — Hermes Agent 환경

목적: 에이전트(Hermes) 실사용 환경에서의 모델 성능을 기록하고, 나중에 모델 선택 시 참고 및 위키 발행용으로 작성. 벤치마크 점수가 아닌 실제로 에이전트가 얼마나 일을 잘 하는가에 초점.

평가 기준

항목	설명	가중치
실행력	말만 하지 않고 실제로 도구를 호출하여 작업을 수행하는가	⭐⭐⭐⭐⭐
코드 품질	생성한 코드가 실행 가능하고 의도대로 동작하는가	⭐⭐⭐⭐⭐
지시 따름	프롬프트/SOUL.md의 지시를 정확히 따르는가	⭐⭐⭐⭐
맥락 유지	긴 세션에서 이전 대화를 잊지 않고 일관성 유지	⭐⭐⭐⭐
보고 품질	작업 결과를 간결하고 정확하게 보고하는가	⭐⭐⭐
응답 속도	응답 생성까지의 시간	⭐⭐⭐
한국어 능력	한국어 이해 및 자연스러운 표현	⭐⭐⭐
자원 효율	API 비용 대비 성능	⭐⭐

평가 대상 모델

모든 모델은 Ollama Cloud (custom provider) 경유로 사용. 로컬 GPU 추론이 아닌 API 호출 방식.

1. gemma4:31b (Google Gemini)

항목	평가
실행력	⭐⭐ — “하겠다”고 말은 잘 하나, 실제 도구 호출/코드 수정이 안 됨
코드 품질	⭐⭐ — 코드 생성은 하지만 실행 검증 부족
지시 따름	⭐⭐⭐ — SOUL.md는 잘 읽으나 실행 단계에서 지시 이탈
맥락 유지	⭐⭐⭐ — 초반은 좋으나 길어지면 이전 맥락 놓침
보고 품질	⭐⭐ — “하고 있습니다” 보고 후 실제 미실행 반복
응답 속도	⭐⭐⭐⭐ — 빠른 편
한국어 능력	⭐⭐⭐ — 무난하나 어색한 표현 있음
자원 효율	⭐⭐⭐⭐ — 무료 Ollama Cloud, 비용 부담 없음

총평: 분석과 요약에는 쓸 만하나, 실행이 필요한 에이전트 작업에는 부적합. “하겠다”→안 함 패턴이 반복됨. 말이 화려한데 행동이 없는 타입.

2. kimi-k2.6:cloud (Moonshot AI)

항목	평가
실행력	⭐⭐⭐⭐ — 지시 후 즉시 코드 작성/수정 실행
코드 품질	⭐⭐⭐⭐ — 실행 가능한 코드 생성, 디버깅도 수행
지시 따름	⭐⭐⭐⭐ — SOUL.md 지시를 실천으로 연결
맥락 유지	⭐⭐⭐⭐ — 긴 세션에서도 일관성 유지
보고 품질	⭐⭐⭐⭐ — 간결하고 핵심적인 보고
응답 속도	⭐⭐⭐ — 보통
한국어 능력	⭐⭐⭐⭐ — 자연스러운 한국어 표현
자원 효융	⭐⭐⭐ — Ollama Cloud, 비용은 동일

총평: gemma4 대비 실행력이 확연히 향상. “하겠다”가 아니라 “했다”로 응답. 코딩 에이전트(분홍)에 적합.

3. qwen3.5:cloud (Alibaba)

항목	평가
실행력	⭐⭐⭐⭐ — 도구 호출 및 스크립트 실행 적극적
코드 품질	⭐⭐⭐⭐ — Python 스크립트 실행 및 검증 수행
지시 따름	⭐⭐⭐⭐ — 단계별 지시를 정확히 수행
맥락 유지	⭐⭐⭐⭐ — 안정적
보고 품질	⭐⭐⭐⭐ — 구조적이고 상세한 보고
응답 속도	⭐⭐⭐ — 보통
한국어 능력	⭐⭐⭐ — 가끔 번역투 표현
자원 효융	⭐⭐⭐ — Ollama Cloud, 비용은 동일

총평: 실행력이 뛰어나고 스크립트/작업 처리에 강함. 자료정리 에이전트(하늘)에 적합.

4. glm-5.1:cloud (Z.AI)

항목	평가
실행력	⭐⭐⭐⭐⭐ — OpenClaw 미미(매니저)로 사용, SSH/파일/크론 등 모든 도구 적극 활용
코드 품질	⭐⭐⭐⭐ — 셸 스크립트, 설정 파일, YAML 등 다양한 코드 생성
지시 따름	⭐⭐⭐⭐⭐ — SOUL.md/AGENTS.md 기반 행동 일관성 우수
맥락 유지	⭐⭐⭐⭐⭐ — 긴 세션에서도 맥락 유지 뛰어남
보고 품질	⭐⭐⭐⭐ — 간결·정확, 불필요한 내용 없음
응답 속도	⭐⭐⭐⭐ — 빠른 편
한국어 능력	⭐⭐⭐⭐⭐ — 가장 자연스러운 한국어
자원 효율	⭐⭐⭐ — Ollama Cloud

총평: 매니저 역할에 최적화. 실행력, 판단력, 한국어 모두 우수. 현재 미미(메인 에이전트)로 사용 중.

5. llama3.1:latest (Meta, 로컬)

항목	평가
실행력	⭐⭐ — 로컬 제한으로 도구 호출 불안정
코드 품질	⭐⭐ — 기본 수준
지시 따름	⭐⭐ — 프롬프트 이해도 낮음
맥락 유지	⭐⭐ — 짧은 컨텍스트 윈도우
보고 품질	⭐⭐ — 단순 응답
응답 속도	⭐⭐ — M4 Pro에서도 느린 편
한국어 능력	⭐ — 한국어 거의 불가
자원 효융	⭐⭐ — 무료이지만 품질 낮음

총평: 백업용으로만 사용 가능. 영어 위주 작업에만 제한적 활용. 한국어 에이전트에는 부적합.

6. minimax-m2.7:cloud (MiniMax)

항목	평가
실행력	⭐⭐⭐ — 보통
코드 품질	⭐⭐⭐ — 보통
지시 따름	⭐⭐⭐ — 무난
맥락 유지	⭐⭐⭐⭐⭐ — 초긴 컨텍스트(100만 토큰)가 강점
보고 품질	⭐⭐⭐ — 무난
응답 속도	⭐⭐⭐ — 보통
한국어 능력	⭐⭐⭐ — 무난
자원 효융	⭐⭐⭐ — Ollama Cloud

총평: 긴 문서 분석/요약에 특화. 일반 작업은 무난하지만 특별히 뛰어나지는 않음. 초긴 컨텍스트가 필요한 경우에만 차별화.

종합 비교표

모델	실행력	코드	지시	맥락	한국어	용도
glm-5.1:cloud	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	매니저
kimi-k2.6:cloud	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	코딩
qwen3.5:cloud	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐	스크립트/작업
minimax-m2.7:cloud	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐	긴 문서 분석
gemma4:31b	⭐⭐	⭐⭐	⭐⭐⭐	⭐⭐⭐	⭐⭐⭐	요약/분석
llama3.1:latest	⭐⭐	⭐⭐	⭐⭐	⭐⭐	⭐	백업

핵심 교훈

1. “말 잘함 ≠ 일 잘함”

gemma4:31b는 응답이 화려하고 분석은 잘하지만, 실행력이 현저히 떨어짐. 에이전트 환경에서는 “하겠다”가 아니라 “했다”를 보여주는 모델이 실질적 가치가 있음.

2. 실행력이 에이전트 모델의 핵심 지표

에이전트는 스스로 도구를 호출하고 결과를 확인해야 함. 코딩, 파일 수정, 명령 실행 등 실제 행동으로 이어지는 모델이 우수.

3. 모델별 역할 분배가 중요

매니저(미미): glm-5.1 — 판단력, 한국어, 실행력 모두 최고
코딩(분홍): kimi-k2.6 — 코드 생성 및 실행 검증에 강점
작업(하늘): qwen3.5 — 스크립트/자료 처리에 안정적
위키(루키): gemma4:31b — 아직 변경 전, 요약/정리에는 적합할 수 있음

4. 무료 ≠ 저성능은 아니다

Ollama Cloud 기반 모델 모두 동일 API 경유이므로 비용은 동일. 차이는 순전히 모델 자체의 능력에서 발생.

변경 이력

[!note] 수정이력

2026-04-25 13:53, 미미 (openclaw 2026.4.22) — 최초 작성

다음 평가 예정

kimi-k2.6 코딩 품질 심층 평가 (분홍 ERP 개발 진행 후)
qwen3.5 대용량 스캔 안정성 평가 (하늘 PhotoVault 스캔 완료 후)
루키 모델 변경 검토 (gemma4 → 다른 모델)
qwen3.5:397b 대형 분석 모델 평가