Hermes 代理拥有一套丰富的能力集,其功能远超基础聊天。从持久化记忆、具备文件感知能力的上下文,到浏览器自动化以及语音通话,这些功能协同工作,使 Hermes 成为一个强大的自主助手。
- 工具与工具集 (Tools & Toolsets) —— 工具是扩展代理能力的函数。它们被组织成逻辑工具集,可以针对每个平台分别启用或禁用,涵盖了网页搜索、终端执行、文件编辑、记忆、委派等多个领域。
- 技能系统 (Skills System) —— 代理可以在需要时加载的按需知识文档。技能遵循渐进式披露模式以最小化 Token 使用量,并兼容
agentskills.io开放标准。 - 持久化记忆 (Persistent Memory) —— 跨会话持久存在的有界且经过策划的记忆。Hermes 会通过
MEMORY.md和USER.md记住您的偏好、项目、环境以及它所学到的东西。 - 上下文文件 (Context Files) —— Hermes 会自动发现并加载项目上下文文件(
.hermes.md,AGENTS.md,CLAUDE.md,SOUL.md,.cursorrules),这些文件决定了它在您项目中的行为方式。 - 上下文引用 (Context References) —— 输入
@后跟引用内容,即可将文件、文件夹、Git 差异(diff)以及 URL 直接注入到您的消息中。Hermes 会在行内展开引用并自动附加相关内容。 - 检查点 (Checkpoints) —— Hermes 在进行文件更改之前会自动为您的工作目录拍摄快照,为您提供了一个安全网,以便在出现问题时通过
/rollback进行回滚。
- 定时任务 (Scheduled Tasks/Cron) —— 使用自然语言或 Cron 表达式安排任务自动运行。作业可以挂载技能,将结果交付给任何平台,并支持暂停、恢复和编辑操作。
- 子代理委派 (Subagent Delegation) ——
delegate_task工具可以生成具有隔离上下文、受限工具集和独立终端会话的子代理实例。默认支持并行运行 3 个子代理(可配置),用于处理并行工作流。 - 代码执行 (Code Execution) ——
execute_code工具允许代理编写 Python 脚本,以编程方式调用 Hermes 工具,通过沙箱化的 RPC 执行将多步骤工作流压缩到单个 LLM 轮次中。 - 事件钩子 (Event Hooks) —— 在关键生命周期节点运行自定义代码。网关钩子(Gateway hooks)处理日志记录、警报和 Webhook;插件钩子(Plugin hooks)处理工具拦截、指标统计和护栏设置。
- 批处理 (Batch Processing) —— 并行运行 Hermes 代理处理成百上千个提示词,生成结构化的 ShareGPT 格式轨迹数据,用于训练数据生成或评估。
- 语音模式 (Voice Mode) —— 跨 CLI 和消息传递平台的完整语音交互。使用麦克风与代理交谈,听取语音回复,并可在 Discord 语音频道中进行实时语音通话。
- 浏览器自动化 (Browser Automation) —— 支持多种后端的完整浏览器自动化:Browserbase 云端、Browser Use 云端、通过 CDP 连接的本地 Chrome 或本地 Chromium。可以导航网页、填写表单并提取信息。
- 视觉与图片粘贴 (Vision & Image Paste) —— 多模态视觉支持。可以将剪贴板中的图片直接粘贴到 CLI 中,并要求代理使用任何具备视觉能力的模型对其进行分析、描述或处理。
- 图像生成 (Image Generation) —— 使用 FAL.ai 从文本提示词生成图像。支持九种模型(FLUX 2 Klein/Pro, GPT-Image 1.5/2, Nano Banana Pro, Ideogram V3, Recraft V4 Pro, Qwen, Z-Image Turbo);可通过
hermes tools进行选择。 - 语音与 TTS (Voice & TTS) —— 跨所有消息传递平台的文本转语音输出和语音消息转录。提供十种原生供应商选项:Edge TTS (免费), ElevenLabs, OpenAI TTS, MiniMax, Mistral Voxtral, Google Gemini, xAI, NeuTTS, KittenTTS 和 Piper —— 此外还支持用于任何本地 TTS CLI 的自定义命令供应商。
- MCP 集成 (MCP Integration) —— 通过 stdio 或 HTTP 传输协议连接到任何 MCP(模型上下文协议)服务器。无需编写原生 Hermes 工具即可访问来自 GitHub、数据库、文件系统和内部 API 的外部工具。包括针对每个服务器的工具过滤和采样支持。
- 供应商路由 (Provider Routing) —— 对处理您请求的 AI 供应商进行细粒度控制。通过排序、白名单、黑名单和优先级排序,针对成本、速度或质量进行优化。
- 备用供应商 (Fallback Providers) —— 当主模型遇到错误时,自动故障转移到备用 LLM 供应商,包括针对视觉和压缩等辅助任务的独立备用方案。
- 凭据池 (Credential Pools) —— 将 API 调用分散到同一供应商的多个密钥中。在遇到速率限制或故障时自动轮换。
- 记忆供应商 (Memory Providers) —— 接入外部记忆后端(Honcho, OpenViking, Mem0, Hindsight, Holographic, RetainDB, ByteRover, Supermemory),实现超越内置记忆系统的跨会话用户建模和个性化。
- API 服务器 (API Server) —— 将 Hermes 作为兼容 OpenAI 的 HTTP 端点暴露。连接任何支持 OpenAI 格式的前端 —— 如 Open WebUI, LobeChat, LibreChat 等。
- IDE 集成 (ACP) —— 在兼容 ACP 的编辑器(如 VS Code, Zed 和 JetBrains)中使用 Hermes。聊天、工具活动、文件差异和终端命令均可在编辑器内渲染。
- RL 训练 (RL Training) —— 从代理会话中生成轨迹数据,用于强化学习和模型微调。
- 个性化与 SOUL.md (Personality & SOUL.md) —— 完全可自定义的代理个性。
SOUL.md是核心身份文件 —— 位于系统提示词的首位 —— 您可以在每个会话中切换内置或自定义的/personality预设。 - 皮肤与主题 (Skins & Themes) —— 自定义 CLI 的视觉呈现:横幅颜色、加载动画(spinner)样式与动词、响应框标签、品牌文本以及工具活动前缀。
- 插件 (Plugins) —— 无需修改核心代码即可添加自定义工具、钩子和集成。支持三种插件类型:通用插件(工具/钩子)、记忆供应商(跨会话知识)和上下文引擎(替代上下文管理)。通过统一的
hermes plugins交互式 UI 进行管理。