速率与限额
Trinity 会在账户、API Key、模型和网关运行策略等维度实施请求速率、并发和配额控制。具体 RPM、并发、日额度与余额规则以 Trinity 控制台、套餐规则和商务协议为准;文档不承诺固定数值。
限额类型
| 类型 | 说明 |
|---|---|
| 请求速率 | 单位时间内的请求数量限制,超出可能返回 429 |
| 并发请求 | 同时进行中的请求或流式 SSE 连接数量限制 |
| 用量配额 | 与账户余额、套餐、模型价格和结算规则相关 |
| 模型权限 | 未开通或不可用模型会返回权限或模型相关错误 |
常见响应
| 状态码 | 含义 | 建议 |
|---|---|---|
429 | 请求过快,或上游供应商限流 | 使用指数退避重试,并设置最大重试次数 |
402 | 余额或额度不足 | 检查账户余额、套餐或充值状态 |
403 | 权限不足或模型不可用 | 检查 API Key 权限和模型开通状态 |
5xx | 网关或上游临时异常 | 有限次重试,并记录请求 ID |
网关限额与上游限流
429 可能来自 Trinity 网关的账户 / Key 限额,也可能来自上游模型供应商的透传限流。排查时请记录 X-Request-Id;如响应包含 Retry-After,客户端可按该值延迟重试。
客户端建议
- 对 429 和临时 5xx 使用指数退避,并设置最大重试次数。
- 记录
X-Request-Id(若响应提供)便于排查。 - 对流式请求设置超时和并发上限,避免连接堆积。
- 不要在客户端硬编码限额数值;以控制台和服务端返回为准。