AI Coding Plan
Coding Plan
Kimi
- Andante(49 RMB 每月):每 5 小时的 Tokens 总量可支持约 300-1200 次 API 请求,确保复杂项目不间断。
- Moderato(99 RMB 每月):Kimi Code 4 倍额度
- Allegretto(199 RMB 每月):Kimi Code 20 倍额度
- Allegro(699 RMB 每月):Kimi Code 60 倍额度
- 通过实际测试,认为 Andante 是所有请求的 input + output token 总和每 5 小时不超过 10M token,每周的限额是每 5 小时的 5 倍,即 50M token,也就是说官方实际是按 token 限额
- 宣传的是请求而非 token 数,根据 10M token 对应 300-1200 的请求次数,估计每次 API 请求的平均 input + output token 数量在 8K-33K 之间,本地用一段时间实测来看是 31K
- K2.5 API 价格:
- 输入命中缓存 0.7 RMB 每 1M token
- 输入未命中缓存 4 RMB 每 1M token
- 输出 21 RMB 每 1M token
- 256K 上下文
MiniMax
- Starter(29 RMB 每月): 40 prompts / 每 5 小时
- Plus(49 RMB 每月): 100 prompts / 每 5 小时
- Max(119 RMB 每月): 300 prompts / 每 5 小时
- Q: 为什么“一个 prompt 约等于 15 次模型调用”?A: 在 AI 编程工具中,您的一次操作(例如请求代码补全或解释代码)在工具后台可能会被拆分为多次与 AI 模型的连续交互(例如:获取上下文、生成建议、修正建议等)。为了简化计费,我们将这些后台的连续调用打包为一次“prompt”计数。这意味着您在套餐内的一次“prompt”实际上包含了多次模型的复杂调用。
- M2.5 API 价格:
- 输入命中缓存 0.21 RMB 每 1M token
- 输入未命中缓存 2.1 RMB 每 1M token
- 输入写入缓存 2.625 RMB 每 1M token
- 输出 8.4 RMB 每 1M token
- 200K 上下文
- Starter(10 USD 每月): 100 prompts / 每 5 小时
- Plus(20 USD 每月): 300 prompts / 每 5 小时
- Max(50 USD 每月): 1000 prompts / 每 5 小时
智谱
- Lite 套餐(49 RMB 每月):每 5 小时最多约 80 次 prompts,相当于 Claude Pro 套餐用量的 3 倍
- Pro 套餐(149 RMB 每月):每 5 小时最多约 400 次 prompts,相当于 Lite 套餐用量的 5 倍
- Max 套餐(469 RMB 每月):每 5 小时最多约 1600 次 prompts,相当于 Pro 套餐用量的 4 倍
- 从可消耗 tokens 量来看,每次 prompt 预计可调用模型 15-20 次,每月总计可用总量高达几十亿到数百亿 tokens,折算下来仅为 API 价格的 0.1 折,极具性价比。
- 注:上述次数为预估值,实际可用量会因项目复杂度、代码库大小以及是否启用自动接受等因素而有所不同。
- 注:对于在 2 月 12 日之前订阅的用户,在您当前订阅套餐的有效期内,套餐的用量额度不变,仍按您订阅时页面显示执行。
- 注:对于在 2 月 12 日之前开启续订的用户,续费价格及套餐的用量额度不变,仍按您订阅时页面显示执行。
- 为了管理资源并确保所有用户的公平访问,我们增加了每周使用额度限制。该限额自您下单时开启计时,以 7 天为一个周期额度刷新重置。您可以在 用量统计 中查看您的额度消耗进展。2 月 12 日前订阅及开启自动续费的用户,在订阅有效期内,不受周使用额度限制。
- GLM-5 API 价格:
- 输入命中缓存 1/1.5 RMB 每 1M token
- 输入未命中缓存 4/6 RMB 每 1M token
- 输出 18/22 RMB 每 1M token
- 200K 上下文
- GLM-4.7 API 价格:
- 输入命中缓存 0.4/0.6/0.8 RMB 每 1M token
- 输入未命中缓存 2/3/4 RMB 每 1M token
- 输出 8/14/16 RMB 每 1M token
- 200K 上下文
其他
- 方舟 Coding Plan
- Lite 套餐(40 RMB 每月):每 5 小时:最多约 1,200 次请求。每周:最多约 9,000 次请求。每订阅月:最多约 18,000 次请求。
- Pro 套餐(200 RMB 每月):Lite 套餐的 5 倍用量
- 阿里云百炼 Coding Plan
- Lite(40 RMB 每月): 固定月费,每月 18000 次请求,每周 9000 次,每 5 小时 1200 次
- Pro(200 RMB 每月): 固定月费,每月 90000 次请求,每周 45000 次,每 5 小时 6000 次
- 一次用户提问可能触发多次模型调用,每次模型调用均计入一次额度消耗。典型场景下的额度消耗如下:
- 简单问答或代码生成:通常触发 5-10 次模型调用
- 代码重构或复杂任务:可能触发 10-30 次或更多模型调用
- 实际额度消耗取决于任务的复杂度、上下文大小、工具调用次数等多种因素。具体消耗以实际使用情况为准,您可以在 Coding Plan 控制台查看套餐额度消耗情况。
prompt、请求和 token
- prompt:用户输入提示词到 CLI,按回车发出去,从请求来看,就是最后一个消息是来自用户的,而非 tool call result
- 请求:除了 prompt 本身会有一次请求以外,每轮 tool call 结束后,会把 tool call 结果带上上下文再发送请求,直到没有 tool call 为止
- token:每次请求都有一定量的 input 和 output token,在 Vibe Coding 场景下,实测 input token 是大多数,通常占 input + output 的 99.5%,因为多轮对话下来,input token 会不断累积变多,重复计算。
一次 prompt 对应多次请求,每次请求都有很多的 input 和 output token。
常见 API 定价方式
- OpenAI 模式:自动缓存,有输入未命中缓存价格、输入命中缓存价格和输出价格
- OpenAI 有 Input,Cached Input 和 Output 三种价格,如果访问没有命中缓存,不命中的部分按 Input 收费,OpenAI 可能会进行缓存;如果访问命中缓存,命中的部分按 Cached Input 收费
- 通常 Cached Input 是 0.1 倍的 Input 价格,也有 0.1-0.2 倍之间的
- Anthropic 模式:手动缓存,有输入未命中缓存价格、输入命中缓存价格、带缓存写入的输入价格(不同的 TTL 可能对应不同的价格)和输出价格
- Claude 有 Base Input Tokens,5m Cache Writes,1h Cache Writes,Cache Hits & Refreshes 和 Output Tokens 五种价格,如果不使用缓存,那么每次输入都按 Base Input Tokens 收费;如果使用缓存,写入缓存部分的输入按 5m/1h Cache Writes 收费,之后命中缓存部分的输入按 Cache Hits & Refreshes 收费
- 目前 5m Cache Writes 是 1.25 倍的 Base Input Tokens 价格,1h Cache Writes 是 2 倍的 Base Input Tokens 价格,Cache Hits & Refreshes 是 0.1 倍的 Base Input Tokens 价格
更新历史
- 2026/02/12:GLM Coding Plan 价格从 40/200/400 RMB 每月改成 49/149/469 RMB 每月;与此同时,用量额度减少了:
- Lite 套餐:每 5 小时最多约 80(原来是 120)次 prompts,相当于 Claude Pro 套餐用量的 3 倍
- Pro 套餐:每 5 小时最多约 400(原来是 600)次 prompts,相当于 Lite 套餐用量的 5 倍
- Max 套餐:每 5 小时最多约 1600(原来是 2400)次 prompts,相当于 Pro 套餐用量的 4 倍
- 通过实际测试,猜测在 2026.2.12 之前的用量限制是每 5 小时所有 GLM-4.7 请求的 input + output token 总和不超过 40M token(意味着每次 prompt 对应 40M/120=333K token),这和在 2026.2.12 之前通过 https://open.bigmodel.cn/api/monitor/usage/quota/limit 接口返回的结果一致,目前该接口只返回百分比,不再返回 token 数;如果按照新是旧的 2/3 比例的话,那就是每 5 小时 26.67M token,另外新版还有每周的限额;待切换到新版后,再测试新版的用量限制对应多少 token
- 2026/02/12:增加 Kimi Allegro 套餐的描述
- 2026/02/12:随着 GLM-5 的发布,GLM Coding Plan 的 quota/limit 接口不再返回具体的 token 数,应该是为了之后 GLM-5 与 GLM-4.7 以不同的速度消耗用量做准备(根据 API 价格猜测会有个 2 倍的系数?等待后续的测试),但目前测下来 GLM-4.7 的用量限制不变,Lite 套餐依然是输入加输出 40M token 每 5 小时