Imagent 实战教程:给 AI 编码 Agent 装上创造力(图片/视频/语音一键生成)
你的 Claude Code 会不会写代码、改代码,但遇到”帮我画一张产品图””生成一段短视频配音””做一个 Logo”这类需求就束手无策?
大多数 AI 编码 Agent 能推理、会编程,但缺了”创造力”这一环——它们没法直接生成图片、视频和语音。开发者临时拼凑的脚本跑完就扔、绑定特定供应商、生成的素材关掉终端就再也找不回来。
Imagent 就是来解决这个问题的:一个本地优先的多模态生成 CLI + 桌面应用,让 AI Agent 把图片、视频和语音生成作为一等公民纳入工作流。背后是统一的多供应商接口,生成的素材自动入库可复用,而不是用完即弃。
快速安装
Imagent 以 npm 包形式发布,安装一行命令:
npm install -g @imagent/cli
不想全局安装?用 npx 临时跑也一样:
npx -y @imagent/cli doctor
配置供应商 API Key
Imagent 支持 OpenAI、Google Imagen/Gemini、Flux/BFL、字节跳动火山引擎(Seedream/Seedance)、xAI Grok、MiniMax、ElevenLabs 等多个供应商。最少配一个就能用:
imagent config set openai.apiKey $(OPENAI_API_KEY)
检查配置是否就绪:
imagent doctor
这条命令会列出哪些供应商已配置、哪些模型可用,是整个工作流的入口诊断。
CLI 命令一览
Imagent 的命令体系清晰,按能力分四组:
1. 图片生成
imagent image generate "一只红狐狸的电影级肖像"
可以指定供应商和模型:
imagent image generate "极简陶瓷马克杯产品照片" --provider google --model imagen-4.0
2. 视频生成
视频生成通常比图片慢,Imagent 提供了异步任务管理:
imagent video generate "穿越霓虹城市的慢镜头" --provider volcengine imagent video task ls --state running imagent video task get --idimagent video download --out ./outputs
如果希望同步等待:
imagent video generate "穿越霓虹城市的慢镜头" --wait --out ./outputs
3. 语音合成(TTS)
imagent speech synthesize "欢迎使用 Imagent,你的本地创意工作空间" --provider elevenlabs
查看某个供应商的可用声音:
imagent speech voices --provider elevenlabs --json
4. 资产管理
Imagent 不只是一个”生成工具”,它还是一个资产管理器。所有生成的内容都自动存入 ~/.imagent/ 工作目录:
imagent gallery ls imagent asset list imagent gallery favorite --id
与 AI 编码 Agent 集成
这是 Imagent 最出彩的部分——它原生支持与 Claude Code、Codex、OpenClaw、Hermes 等 AI Agent 配合使用。
Imagent 仓库里包含一个开箱即用的 Agent Skill,安装方式:
npx skills add unliftedq/imagent
安装后,AI Agent 就能在任务中主动调用 imagent CLI。Agent 会先跑 imagent doctor 判断是否已配置供应商,然后根据任务需求调用对应的生成命令。
典型场景:你在 Claude Code 中写一个电商页面,让它「生成一张产品图片并嵌入页面」——Agent 自动调 Imagent 出图,存入本地画廊,然后在页面代码中引用图片路径。
桌面应用:@imagent/studio
除了 CLI,Imagent 还提供了一个 Electron 桌面应用 @imagent/studio,适合视觉化的创作和素材管理:
- Studio 工作区:主生成界面,可配置供应商/模型、参数、参考图
- 画廊(Gallery):浏览历史生成记录,搜索、收藏、按看板组织
- 素材管理:管理角色、物品、背景、风格等可复用素材
- 供应商配置:图形化管理多个供应商的 Key 和端点
- 模型目录:查看各供应商支持的模型和能力
CLI 和桌面应用共享同一个 ~/.imagent/ 工作空间——终端生成的图片在桌面画廊里也能看到,反之亦然。
架构亮点
从架构上看,Imagent 的设计思路值得关注:
- 本地优先:没有远程后端,所有数据存在本地 SQLite 中,配置和密钥分别存储(
config.json+ 权限600的secrets.json) - 供应商无关:通过统一的 Provider 接口抽象,用户可以在不同供应商之间切换而不改调用方式
- 资产复用:角色、物品、背景、风格等素材入库后可跨项目复用,而不是每次重新生成
- MCP 集成:CLI 内置 MCP 端点,Agent 可以通过 MCP 协议直接调用(
imagent mcp)
实战示例:用 Agent 生成产品营销素材
假设你在做一个电商项目,需要三样东西:一张产品图、一段演示视频、一句语音介绍。
用 Imagent + AI Agent 的完整流程:
imagent doctor imagent image generate "白色陶瓷咖啡杯,极简风格,工作室灯光" --provider bfl imagent video generate "咖啡杯在桌面上缓慢旋转,柔和自然光" --provider volcengine --wait --out ./marketing imagent speech synthesize "这款陶瓷咖啡杯采用极简设计,适合每日使用" --provider elevenlabs --out ./marketing imagent gallery ls
所有素材都在本地,Agent 可以直接在代码中引用路径,无需手动上传。
项目状态与许可
Imagent 目前仍处于早期阶段,没有遥测、自动更新、云同步或账户系统。桌面安装包未签名(macOS 需 xattr -cr 解除隔离,Windows 可能显示 SmartScreen 警告)。采用 Apache License 2.0 开源许可,基于 TypeScript 构建(Monorepo + Turborepo + Bun)。
总结
Imagent 解决了 AI Agent 生态中一个被忽略的痛点:Agent 会写代码,但不会”创作”。它通过统一的 CLI 接口 + 多供应商抽象 + 本地资产管理,把图片、视频和语音生成变成 Agent 的原生能力。对于需要让 Agent 产出多媒体素材的开发者来说,这是一套开箱即用的实战工具。
- GitHub: github.com/unliftedq/imagent
- npm:
@imagent/cli
相关链接