AI 모델 실사 평가 — Hermes Agent 환경
AI 모델 실사 평가 — Hermes Agent 환경
섹션 제목: “AI 모델 실사 평가 — Hermes Agent 환경”목적: 에이전트(Hermes) 실사용 환경에서의 모델 성능을 기록하고, 나중에 모델 선택 시 참고 및 위키 발행용으로 작성. 벤치마크 점수가 아닌 실제로 에이전트가 얼마나 일을 잘 하는가에 초점.
평가 기준
섹션 제목: “평가 기준”| 항목 | 설명 | 가중치 |
|---|---|---|
| 실행력 | 말만 하지 않고 실제로 도구를 호출하여 작업을 수행하는가 | ⭐⭐⭐⭐⭐ |
| 코드 품질 | 생성한 코드가 실행 가능하고 의도대로 동작하는가 | ⭐⭐⭐⭐⭐ |
| 지시 따름 | 프롬프트/SOUL.md의 지시를 정확히 따르는가 | ⭐⭐⭐⭐ |
| 맥락 유지 | 긴 세션에서 이전 대화를 잊지 않고 일관성 유지 | ⭐⭐⭐⭐ |
| 보고 품질 | 작업 결과를 간결하고 정확하게 보고하는가 | ⭐⭐⭐ |
| 응답 속도 | 응답 생성까지의 시간 | ⭐⭐⭐ |
| 한국어 능력 | 한국어 이해 및 자연스러운 표현 | ⭐⭐⭐ |
| 자원 효율 | API 비용 대비 성능 | ⭐⭐ |
평가 대상 모델
섹션 제목: “평가 대상 모델”모든 모델은 Ollama Cloud (custom provider) 경유로 사용. 로컬 GPU 추론이 아닌 API 호출 방식.
1. gemma4:31b (Google Gemini)
섹션 제목: “1. gemma4:31b (Google Gemini)”| 항목 | 평가 |
|---|---|
| 실행력 | ⭐⭐ — “하겠다”고 말은 잘 하나, 실제 도구 호출/코드 수정이 안 됨 |
| 코드 품질 | ⭐⭐ — 코드 생성은 하지만 실행 검증 부족 |
| 지시 따름 | ⭐⭐⭐ — SOUL.md는 잘 읽으나 실행 단계에서 지시 이탈 |
| 맥락 유지 | ⭐⭐⭐ — 초반은 좋으나 길어지면 이전 맥락 놓침 |
| 보고 품질 | ⭐⭐ — “하고 있습니다” 보고 후 실제 미실행 반복 |
| 응답 속도 | ⭐⭐⭐⭐ — 빠른 편 |
| 한국어 능력 | ⭐⭐⭐ — 무난하나 어색한 표현 있음 |
| 자원 효율 | ⭐⭐⭐⭐ — 무료 Ollama Cloud, 비용 부담 없음 |
총평: 분석과 요약에는 쓸 만하나, 실행이 필요한 에이전트 작업에는 부적합. “하겠다”→안 함 패턴이 반복됨. 말이 화려한데 행동이 없는 타입.
2. kimi-k2.6:cloud (Moonshot AI)
섹션 제목: “2. kimi-k2.6:cloud (Moonshot AI)”| 항목 | 평가 |
|---|---|
| 실행력 | ⭐⭐⭐⭐ — 지시 후 즉시 코드 작성/수정 실행 |
| 코드 품질 | ⭐⭐⭐⭐ — 실행 가능한 코드 생성, 디버깅도 수행 |
| 지시 따름 | ⭐⭐⭐⭐ — SOUL.md 지시를 실천으로 연결 |
| 맥락 유지 | ⭐⭐⭐⭐ — 긴 세션에서도 일관성 유지 |
| 보고 품질 | ⭐⭐⭐⭐ — 간결하고 핵심적인 보고 |
| 응답 속도 | ⭐⭐⭐ — 보통 |
| 한국어 능력 | ⭐⭐⭐⭐ — 자연스러운 한국어 표현 |
| 자원 효융 | ⭐⭐⭐ — Ollama Cloud, 비용은 동일 |
총평: gemma4 대비 실행력이 확연히 향상. “하겠다”가 아니라 “했다”로 응답. 코딩 에이전트(분홍)에 적합.
3. qwen3.5:cloud (Alibaba)
섹션 제목: “3. qwen3.5:cloud (Alibaba)”| 항목 | 평가 |
|---|---|
| 실행력 | ⭐⭐⭐⭐ — 도구 호출 및 스크립트 실행 적극적 |
| 코드 품질 | ⭐⭐⭐⭐ — Python 스크립트 실행 및 검증 수행 |
| 지시 따름 | ⭐⭐⭐⭐ — 단계별 지시를 정확히 수행 |
| 맥락 유지 | ⭐⭐⭐⭐ — 안정적 |
| 보고 품질 | ⭐⭐⭐⭐ — 구조적이고 상세한 보고 |
| 응답 속도 | ⭐⭐⭐ — 보통 |
| 한국어 능력 | ⭐⭐⭐ — 가끔 번역투 표현 |
| 자원 효융 | ⭐⭐⭐ — Ollama Cloud, 비용은 동일 |
총평: 실행력이 뛰어나고 스크립트/작업 처리에 강함. 자료정리 에이전트(하늘)에 적합.
4. glm-5.1:cloud (Z.AI)
섹션 제목: “4. glm-5.1:cloud (Z.AI)”| 항목 | 평가 |
|---|---|
| 실행력 | ⭐⭐⭐⭐⭐ — OpenClaw 미미(매니저)로 사용, SSH/파일/크론 등 모든 도구 적극 활용 |
| 코드 품질 | ⭐⭐⭐⭐ — 셸 스크립트, 설정 파일, YAML 등 다양한 코드 생성 |
| 지시 따름 | ⭐⭐⭐⭐⭐ — SOUL.md/AGENTS.md 기반 행동 일관성 우수 |
| 맥락 유지 | ⭐⭐⭐⭐⭐ — 긴 세션에서도 맥락 유지 뛰어남 |
| 보고 품질 | ⭐⭐⭐⭐ — 간결·정확, 불필요한 내용 없음 |
| 응답 속도 | ⭐⭐⭐⭐ — 빠른 편 |
| 한국어 능력 | ⭐⭐⭐⭐⭐ — 가장 자연스러운 한국어 |
| 자원 효율 | ⭐⭐⭐ — Ollama Cloud |
총평: 매니저 역할에 최적화. 실행력, 판단력, 한국어 모두 우수. 현재 미미(메인 에이전트)로 사용 중.
5. llama3.1:latest (Meta, 로컬)
섹션 제목: “5. llama3.1:latest (Meta, 로컬)”| 항목 | 평가 |
|---|---|
| 실행력 | ⭐⭐ — 로컬 제한으로 도구 호출 불안정 |
| 코드 품질 | ⭐⭐ — 기본 수준 |
| 지시 따름 | ⭐⭐ — 프롬프트 이해도 낮음 |
| 맥락 유지 | ⭐⭐ — 짧은 컨텍스트 윈도우 |
| 보고 품질 | ⭐⭐ — 단순 응답 |
| 응답 속도 | ⭐⭐ — M4 Pro에서도 느린 편 |
| 한국어 능력 | ⭐ — 한국어 거의 불가 |
| 자원 효융 | ⭐⭐ — 무료이지만 품질 낮음 |
총평: 백업용으로만 사용 가능. 영어 위주 작업에만 제한적 활용. 한국어 에이전트에는 부적합.
6. minimax-m2.7:cloud (MiniMax)
섹션 제목: “6. minimax-m2.7:cloud (MiniMax)”| 항목 | 평가 |
|---|---|
| 실행력 | ⭐⭐⭐ — 보통 |
| 코드 품질 | ⭐⭐⭐ — 보통 |
| 지시 따름 | ⭐⭐⭐ — 무난 |
| 맥락 유지 | ⭐⭐⭐⭐⭐ — 초긴 컨텍스트(100만 토큰)가 강점 |
| 보고 품질 | ⭐⭐⭐ — 무난 |
| 응답 속도 | ⭐⭐⭐ — 보통 |
| 한국어 능력 | ⭐⭐⭐ — 무난 |
| 자원 효융 | ⭐⭐⭐ — Ollama Cloud |
총평: 긴 문서 분석/요약에 특화. 일반 작업은 무난하지만 특별히 뛰어나지는 않음. 초긴 컨텍스트가 필요한 경우에만 차별화.
종합 비교표
섹션 제목: “종합 비교표”| 모델 | 실행력 | 코드 | 지시 | 맥락 | 한국어 | 용도 |
|---|---|---|---|---|---|---|
| glm-5.1:cloud | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | 매니저 |
| kimi-k2.6:cloud | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | 코딩 |
| qwen3.5:cloud | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | 스크립트/작업 |
| minimax-m2.7:cloud | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | 긴 문서 분석 |
| gemma4:31b | ⭐⭐ | ⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ | 요약/분석 |
| llama3.1:latest | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐⭐ | ⭐ | 백업 |
핵심 교훈
섹션 제목: “핵심 교훈”1. “말 잘함 ≠ 일 잘함”
섹션 제목: “1. “말 잘함 ≠ 일 잘함””gemma4:31b는 응답이 화려하고 분석은 잘하지만, 실행력이 현저히 떨어짐. 에이전트 환경에서는 “하겠다”가 아니라 “했다”를 보여주는 모델이 실질적 가치가 있음.
2. 실행력이 에이전트 모델의 핵심 지표
섹션 제목: “2. 실행력이 에이전트 모델의 핵심 지표”에이전트는 스스로 도구를 호출하고 결과를 확인해야 함. 코딩, 파일 수정, 명령 실행 등 실제 행동으로 이어지는 모델이 우수.
3. 모델별 역할 분배가 중요
섹션 제목: “3. 모델별 역할 분배가 중요”- 매니저(미미): glm-5.1 — 판단력, 한국어, 실행력 모두 최고
- 코딩(분홍): kimi-k2.6 — 코드 생성 및 실행 검증에 강점
- 작업(하늘): qwen3.5 — 스크립트/자료 처리에 안정적
- 위키(루키): gemma4:31b — 아직 변경 전, 요약/정리에는 적합할 수 있음
4. 무료 ≠ 저성능은 아니다
섹션 제목: “4. 무료 ≠ 저성능은 아니다”Ollama Cloud 기반 모델 모두 동일 API 경유이므로 비용은 동일. 차이는 순전히 모델 자체의 능력에서 발생.
변경 이력
섹션 제목: “변경 이력”[!note] 수정이력
- 2026-04-25 13:53, 미미 (openclaw 2026.4.22) — 최초 작성
다음 평가 예정
섹션 제목: “다음 평가 예정”- kimi-k2.6 코딩 품질 심층 평가 (분홍 ERP 개발 진행 후)
- qwen3.5 대용량 스캔 안정성 평가 (하늘 PhotoVault 스캔 완료 후)
- 루키 모델 변경 검토 (gemma4 → 다른 모델)
- qwen3.5:397b 대형 분석 모델 평가