跳到主要内容

产品定价

基本概念

计费单元

我们使用Token作为基本计费单元，Token的定义参见使用指南章节

计费逻辑

我们对Input和Output均实行按量计费，即按每次请求的Input和Output实际对应的Token数量计费

模型计费

模型	上下文长度	特性	场景	输入价格/1M token	输出价格/1M token
inf-chat-v1	32k	我们的模型专为中英文对话设计，确保在这两种语言中提供流畅且准确的交互体验。虽然我们的模型也支持其他语言，但主要优化是针对中英文的。此外，我们的模型在金融和医疗领域的应用表现卓越，能够有效支持相关专业人士解决行业特定的问题，提高工作效率和决策质量。	通用对话、金融、医疗	¥10	¥10
inf-chat-fin-v1	32k	专注于金融领域的专业模型，提供金融分析和决策支持	金融	¥20	¥20
inf-med-chat-v2	32k	专注于医疗领域的专业模型，提供医疗咨询和诊断支持	医疗	¥10	¥60
inf-chat-int-v1	32k	函数调用、结构化输出	通用	¥20	¥20
inf-image-chat-v1	32k	图生文	多模态	¥5	¥5

账号限速

为什么要限速

对API接口进行速率限制是常见做法，主要基于以下几个原因：

防攻击：速率限制有助于防止API被恶意流量攻击。例如，恶意攻击可能通过向API发送大量请求，试图使其过载或造成服务中断。通过设置限速，可以帮助平台用户免受此类攻击的影响。
保证公平访问：速率限制确保所有用户都能使用API且响应迅速。如果没有这些限制，少数用户可能会消耗过多资源，从而降低其他用户的体验。根据用户的实际需求合理配置限速策略，可以保证大多数用户可以拥有最佳的使用体验。
保证基础设施的稳定：速率限制有助于管理API基础设施的整体负载，这对于保持服务的可靠性和性能至关重要。特别是在需求突然激增的情况下，通过控制用户发送请求的频率，API服务的提供方可以更好地管理资源，避免性能瓶颈或服务中断。

限速概念

并发：同一时间内您最多向我们发起的请求数
RPM：一分钟内您最多向我们发起的请求数
TPM：一分钟内您最多和我们交互的token数

限速等级

用户等级	累计充值金额	并发	RPM	TPM
Free	¥0	1	4	32,000
Tier1	¥500	4	20	128,000
Tier2	¥3000	8	80	256,000
Tier3	¥10000	24	240	384,000
Tier4	¥50000	32	320	512,000
Tier5	¥100000	48	480	768,000

基本概念
- 计费单元
- 计费逻辑
模型计费
账号限速