产品定价
基本概念
计费单元
我们使用Token作为基本计费单元,Token的定义参见使用指南章节
计费逻辑
我们对Input和Output均实行按量计费,即按每次请求的Input和Output实际对应的Token数量计费
模型计费
模型 | 上下文长度 | 特性 | 场景 | 价格/1M token |
---|---|---|---|---|
inf-chat-v1 | 32k | 我们的模型专为中英文对话设计,确保在这两种语言中提供流畅且准确的交互体验。虽然我们的模型也支持其他语言,但主要优化是针对中英文的。此外,我们的模型在金融和医疗领域的应用表现卓越,能够有效支持相关专业人士解决行业特定的问题,提高工作效率和决策质量。 | 通用对话,金融,医疗 | ¥10 |
inf-chat-fin-v1 | 32k | 金融 | ¥20 | |
inf-med-chat-v1 | 32k | 医疗 | ¥20 | |
inf-chat-int-v1 | 32k | 函数调用, 结构化输出 | 通用 | ¥20 |
账号限速
为什么要限速
对API接口进行速率限制是常见做法,主要基于以下几个原因:
- 防攻击:速率限制有助于防止API被恶意流量攻击。例如,恶意攻击可能通过向API发送大量请求,试图使其过载或造成服务中断。通过设置限速,可以帮助平台用户免受此类攻击的影响。
- 保证公平访问:速率限制确保所有用户都能使用API且响应迅速。如果没有这些限制,少数用户可能会消耗过多资源,从而降低其他用户的体验。根据用户的实际需求合理配置限速策略,可以保证大多数用户可以拥有最佳的使用体验。
- 保证基础设施的稳定:速率限制有助于管理API基础设施的整体负载,这对于保持服务的可靠性和性能至关重要。特别是在需求突然激增的情况下,通过控制用户发送请求的频率,API服务的提供方可以更好地管理资源,避免性能瓶颈或服务中断。
限速概念
- 并发:同一时间内您最多向我们发起的请求数
- RPM:一分钟内您最多向我们发起的请求数
- TPM:一分钟内您最多和我们交互的token数
限速等级
用户等级 | 累计充值金额 | 并发 | RPM | TPM |
---|---|---|---|---|
Free | ¥0 | 1 | 4 | 32,000 |
Tier1 | ¥500 | 4 | 20 | 128,000 |
Tier2 | ¥3000 | 8 | 80 | 256,000 |
Tier3 | ¥10000 | 24 | 240 | 384,000 |
Tier4 | ¥50000 | 32 | 320 | 512,000 |
Tier5 | ¥100000 | 48 | 480 | 768,000 |