功能概览

hermes agent 功能概览

Hermes 代理拥有一套丰富的能力集，其功能远超基础聊天。从持久化记忆、具备文件感知能力的上下文，到浏览器自动化以及语音通话，这些功能协同工作，使 Hermes 成为一个强大的自主助手。

核心功能

工具与工具集 (Tools & Toolsets) —— 工具是扩展代理能力的函数。它们被组织成逻辑工具集，可以针对每个平台分别启用或禁用，涵盖了网页搜索、终端执行、文件编辑、记忆、委派等多个领域。
技能系统 (Skills System) —— 代理可以在需要时加载的按需知识文档。技能遵循渐进式披露模式以最小化 Token 使用量，并兼容 agentskills.io 开放标准。
持久化记忆 (Persistent Memory) —— 跨会话持久存在的有界且经过策划的记忆。Hermes 会通过 MEMORY.md 和 USER.md 记住您的偏好、项目、环境以及它所学到的东西。
上下文文件 (Context Files) —— Hermes 会自动发现并加载项目上下文文件（.hermes.md, AGENTS.md, CLAUDE.md, SOUL.md, .cursorrules），这些文件决定了它在您项目中的行为方式。
上下文引用 (Context References) —— 输入 @ 后跟引用内容，即可将文件、文件夹、Git 差异（diff）以及 URL 直接注入到您的消息中。Hermes 会在行内展开引用并自动附加相关内容。
检查点 (Checkpoints) —— Hermes 在进行文件更改之前会自动为您的工作目录拍摄快照，为您提供了一个安全网，以便在出现问题时通过 /rollback 进行回滚。

自动化

定时任务 (Scheduled Tasks/Cron) —— 使用自然语言或 Cron 表达式安排任务自动运行。作业可以挂载技能，将结果交付给任何平台，并支持暂停、恢复和编辑操作。
子代理委派 (Subagent Delegation) —— delegate_task 工具可以生成具有隔离上下文、受限工具集和独立终端会话的子代理实例。默认支持并行运行 3 个子代理（可配置），用于处理并行工作流。
代码执行 (Code Execution) —— execute_code 工具允许代理编写 Python 脚本，以编程方式调用 Hermes 工具，通过沙箱化的 RPC 执行将多步骤工作流压缩到单个 LLM 轮次中。
事件钩子 (Event Hooks) —— 在关键生命周期节点运行自定义代码。网关钩子（Gateway hooks）处理日志记录、警报和 Webhook；插件钩子（Plugin hooks）处理工具拦截、指标统计和护栏设置。
批处理 (Batch Processing) —— 并行运行 Hermes 代理处理成百上千个提示词，生成结构化的 ShareGPT 格式轨迹数据，用于训练数据生成或评估。

媒体与网页

语音模式 (Voice Mode) —— 跨 CLI 和消息传递平台的完整语音交互。使用麦克风与代理交谈，听取语音回复，并可在 Discord 语音频道中进行实时语音通话。
浏览器自动化 (Browser Automation) —— 支持多种后端的完整浏览器自动化：Browserbase 云端、Browser Use 云端、通过 CDP 连接的本地 Chrome 或本地 Chromium。可以导航网页、填写表单并提取信息。
视觉与图片粘贴 (Vision & Image Paste) —— 多模态视觉支持。可以将剪贴板中的图片直接粘贴到 CLI 中，并要求代理使用任何具备视觉能力的模型对其进行分析、描述或处理。
图像生成 (Image Generation) —— 使用 FAL.ai 从文本提示词生成图像。支持九种模型（FLUX 2 Klein/Pro, GPT-Image 1.5/2, Nano Banana Pro, Ideogram V3, Recraft V4 Pro, Qwen, Z-Image Turbo）；可通过 hermes tools 进行选择。
语音与 TTS (Voice & TTS) —— 跨所有消息传递平台的文本转语音输出和语音消息转录。提供十种原生供应商选项：Edge TTS (免费), ElevenLabs, OpenAI TTS, MiniMax, Mistral Voxtral, Google Gemini, xAI, NeuTTS, KittenTTS 和 Piper —— 此外还支持用于任何本地 TTS CLI 的自定义命令供应商。

集成

MCP 集成 (MCP Integration) —— 通过 stdio 或 HTTP 传输协议连接到任何 MCP（模型上下文协议）服务器。无需编写原生 Hermes 工具即可访问来自 GitHub、数据库、文件系统和内部 API 的外部工具。包括针对每个服务器的工具过滤和采样支持。
供应商路由 (Provider Routing) —— 对处理您请求的 AI 供应商进行细粒度控制。通过排序、白名单、黑名单和优先级排序，针对成本、速度或质量进行优化。
备用供应商 (Fallback Providers) —— 当主模型遇到错误时，自动故障转移到备用 LLM 供应商，包括针对视觉和压缩等辅助任务的独立备用方案。
凭据池 (Credential Pools) —— 将 API 调用分散到同一供应商的多个密钥中。在遇到速率限制或故障时自动轮换。
记忆供应商 (Memory Providers) —— 接入外部记忆后端（Honcho, OpenViking, Mem0, Hindsight, Holographic, RetainDB, ByteRover, Supermemory），实现超越内置记忆系统的跨会话用户建模和个性化。
API 服务器 (API Server) —— 将 Hermes 作为兼容 OpenAI 的 HTTP 端点暴露。连接任何支持 OpenAI 格式的前端 —— 如 Open WebUI, LobeChat, LibreChat 等。
IDE 集成 (ACP) —— 在兼容 ACP 的编辑器（如 VS Code, Zed 和 JetBrains）中使用 Hermes。聊天、工具活动、文件差异和终端命令均可在编辑器内渲染。
RL 训练 (RL Training) —— 从代理会话中生成轨迹数据，用于强化学习和模型微调。

自定义

个性化与 SOUL.md (Personality & SOUL.md) —— 完全可自定义的代理个性。SOUL.md 是核心身份文件 —— 位于系统提示词的首位 —— 您可以在每个会话中切换内置或自定义的 /personality 预设。
皮肤与主题 (Skins & Themes) —— 自定义 CLI 的视觉呈现：横幅颜色、加载动画（spinner）样式与动词、响应框标签、品牌文本以及工具活动前缀。
插件 (Plugins) —— 无需修改核心代码即可添加自定义工具、钩子和集成。支持三种插件类型：通用插件（工具/钩子）、记忆供应商（跨会话知识）和上下文引擎（替代上下文管理）。通过统一的 hermes plugins 交互式 UI 进行管理。

核心能力

自动化

媒体与网页

管理

技能目录

高级

架构

扩展

内部机制

功能概览

核心功能

自动化

媒体与网页

集成

自定义

快速上手

使用 Hermes

功能

消息平台

集成

指南与教程

开发者指南