请求链路一览

从入口到响应,清晰的职责分离与数据流向。

📨 请求入口
🧠 Quick Model
意图识别·分流
⚡ Reasoning Model
计划·推理
🔧 Tool Loop
工具调用循环
📤 返回响应
RAG 检索 长期记忆 Skill 执行 熔断保护 Confirm Gate

入口与生命周期

FastAPI 应用在 lifespan 阶段构建配置、模型客户端、能力清单、技能体系、RAG、长期记忆、Agent 注册表,同时启动后台自检任务。

Agent 分流与执行

Quick Model 负责意图识别与分流决策,Reasoning Model 负责生成计划并触发工具调用,Tool Loop 统一编排执行直到输出最终答复。

Skills 工具体系

内置 Skills + 外部脚本 Skills + Hooks 三层抽象,把可执行动作从 Agent 逻辑中解耦,形成可扩展的工具目录。

RAG 检索流水线

入库:文本抽取 → 切分 → Embedding → 存储。查询:Embedding → top_k 检索 → 拼接上下文 → 模型生成回答。

长期记忆系统

语义检索 + 相似度去重 + 时间衰减 + 租户/会话隔离。支持 ACL 绑定与审计日志,后台定期维护记忆生命周期。

性能与稳定性

Settings 缓存、RAG 检索加速、Memory 写入异步化、Tool Loop 熔断限流,确保高并发下的稳定运行。