Cache-Aware Pricing
Precos diferenciados por tipo de token: input, output, cache_write, cache_read.
Avancado
O que e cache-aware pricing?
Modelos de IA modernos conseguem reutilizar contexto de conversas anteriores atraves de um mecanismo chamado cache de prompt. Quando o mesmo contexto (system prompt, historico de conversa) e enviado novamente, o provedor nao precisa reprocessa-lo do zero — ele reutiliza o que ja foi computado.
O QuickClaw detecta automaticamente esses tokens de cache e aplica precos diferenciados. Tokens reutilizados do cache custam ate 90% menosque tokens processados pela primeira vez.
4 tipos de token
Cada requisicao ao provedor de IA gera tokens classificados em 4 categorias, cada uma com seu preco:
- Input: Texto enviado ao modelo (sua mensagem, system prompt, contexto). E o preco "padrao" de entrada
- Output: Texto gerado pelo modelo como resposta. Geralmente o tipo mais caro
- Cache Write: Quando o contexto e cacheado pela primeira vez pelo provedor. Ligeiramente mais caro que input normal
- Cache Read: Quando o contexto ja estava cacheado e foi reutilizado. Muito mais barato que input — ate 90% de desconto
Exemplo pratico
Veja os precos do Claude Sonnet 4.5 (modelo padrao do Starter) para entender a diferenca:
| Recurso | Preco (USD/Mtok) |
|---|---|
| Input | $3.00 |
| Output | $15.00 |
| Cache Write | $3.75 |
| Cache Read | $0.30 |
Note que cache_read custa apenas $0.30/Mtok — isso e 90% mais barato que o input normal ($3.00/Mtok). Isso significa que quanto mais voce conversa com o mesmo contexto, mais barato fica.
Na pratica
Imagine um agente com um system prompt de 2.000 tokens. Na primeira mensagem, esses tokens sao cobrados como cache_write ($3.75/Mtok). Em todas as mensagens seguintes, eles sao cache_read ($0.30/Mtok). Voce economiza 92% nessa parte da conversa.
Como isso afeta seu saldo
Se seu agente conversa frequentemente com o mesmo contexto (o que e o caso normal em conversas continuas), a maioria dos tokens de entrada sera classificada como cache_read. Isso faz com que:
- Conversas longas fiquem mais baratas: Quanto mais o agente conversa, mais contexto e reutilizado do cache
- System prompts grandes nao pesam tanto: Apos a primeira mensagem, o system prompt e lido do cache
- Seus creditos duram mais: Na media, o custo real por mensagem e 30-50% menor que o custo maximo teorico
Tudo automatico
O QuickClaw detecta e contabiliza cache tokens automaticamente. Voce nao precisa fazer nada — o API Proxy extrai as informacoes de cache de cada resposta do provedor e aplica o preco correto para cada tipo de token.
Tabela de precos por modelo
Abaixo, os modelos disponiveis e seus precos por tipo de token (incluindo cache). Os precos sao em USD por milhao de tokens (Mtok) e sao convertidos para BRL usando a taxa de cambio configurada na plataforma.
Anthropic
| Modelo | Input/Mtok | Output/Mtok | Cache Write | Cache Read |
|---|---|---|---|---|
| Anthropic: Claude Opus 4.7 | $5.00 | $25.00 | $6.25 | $0.500 |
| Anthropic: Claude Opus 4.6 | $5.00 | $25.00 | $6.25 | $0.500 |
| Claude Opus 4.5 | $5.00 | $25.00 | $6.25 | $0.500 |
| Claude Opus 4.1 | $15.00 | $75.00 | $18.75 | $1.50 |
| Claude Opus 4 | $15.00 | $75.00 | $18.75 | $1.50 |
| Anthropic: Claude Sonnet 4.6 | $3.00 | $15.00 | $3.75 | $0.300 |
| Claude Sonnet 4.5 | $3.00 | $15.00 | $3.75 | $0.300 |
| Claude Haiku 4.5 | $1.00 | $5.00 | $1.25 | $0.100 |
OpenAI
| Modelo | Input/Mtok | Output/Mtok | Cache Write | Cache Read |
|---|---|---|---|---|
| OpenAI: GPT-5.4 | $2.50 | $15.00 | — | $0.250 |
| OpenAI: GPT-5.3-Codex | $1.75 | $14.00 | — | $0.175 |
| OpenAI: GPT-5.4 Mini | $0.750 | $4.50 | — | $0.075 |
| OpenAI: GPT-5.2 | $1.75 | $14.00 | — | $0.175 |
| OpenAI: GPT-5.4 Nano | $0.200 | $1.25 | — | $0.020 |
| OpenAI: GPT-5.1 | $1.25 | $10.00 | — | $0.130 |
| OpenAI: GPT-5 | $1.25 | $10.00 | — | $0.125 |
| OpenAI: GPT-5 Mini | $0.250 | $2.00 | — | $0.025 |
| OpenAI: GPT-5 Nano | $0.050 | $0.400 | — | $0.010 |
| OpenAI: GPT-4.1 | $2.00 | $8.00 | — | $0.500 |
| OpenAI: GPT-4.1 Mini | $0.400 | $1.60 | — | $0.100 |
| OpenAI: GPT-4.1 Nano | $0.100 | $0.400 | — | $0.025 |
| OpenAI: o3 | $2.00 | $8.00 | — | $0.500 |
| OpenAI: o4 Mini | $1.10 | $4.40 | — | $0.275 |
| OpenAI: GPT-4o | $2.50 | $10.00 | — | — |
| OpenAI: o3 Mini | $1.10 | $4.40 | — | $0.550 |
| OpenAI: GPT-4o-mini | $0.150 | $0.600 | — | $0.075 |
| OpenAI: GPT-5.3 Codex Spark | $2.00 | $10.00 | $0.0000 | $0.500 |
| Modelo | Input/Mtok | Output/Mtok | Cache Write | Cache Read |
|---|---|---|---|---|
| Google: Gemini 3.1 Pro Preview | $2.00 | $12.00 | $0.375 | $0.200 |
| Google: Gemini 3 Flash Preview | $0.500 | $3.00 | $0.083 | $0.050 |
| Google: Gemini 3.1 Flash Lite Preview | $0.250 | $1.50 | $0.083 | $0.025 |
| Google: Gemini 2.5 Pro | $1.25 | $10.00 | $0.375 | $0.125 |
| Google: Gemini 2.5 Flash | $0.300 | $2.50 | $0.083 | $0.030 |
| Google: Gemini 2.5 Flash Lite | $0.100 | $0.400 | $0.083 | $0.010 |
OpenRouter
| Modelo | Input/Mtok | Output/Mtok | Cache Write | Cache Read |
|---|---|---|---|---|
| Anthropic: Claude Opus 4.6 | $5.00 | $25.00 | $6.25 | $0.500 |
| Anthropic: Claude Sonnet 4.6 | $3.00 | $15.00 | $3.75 | $0.300 |
| Anthropic: Claude Sonnet 4.5 | $3.00 | $15.00 | $3.75 | $0.300 |
| Anthropic: Claude Haiku 4.5 | $1.00 | $5.00 | $1.25 | $0.100 |
| Anthropic: Claude Opus 4.6 (Fast) | $30.00 | $150.00 | $37.50 | $3.00 |
| OpenAI: GPT-4.1 | $2.00 | $8.00 | — | $0.500 |
| OpenAI: GPT-5.4 | $2.50 | $15.00 | — | $0.250 |
| OpenAI: GPT-5.2 | $1.75 | $14.00 | — | $0.175 |
| OpenAI: GPT-5.4 Mini | $0.750 | $4.50 | — | $0.075 |
| OpenAI: GPT-5.1 | $1.25 | $10.00 | — | $0.130 |
| OpenAI: GPT-5 | $1.25 | $10.00 | — | $0.125 |
| OpenAI: GPT-5 Mini | $0.250 | $2.00 | — | $0.025 |
| OpenAI: GPT-5 Nano | $0.050 | $0.400 | — | $0.010 |
| OpenAI: GPT-4o | $2.50 | $10.00 | — | — |
| OpenAI: o4 Mini | $1.10 | $4.40 | — | $0.275 |
| OpenAI: GPT-4o-mini | $0.150 | $0.600 | — | $0.075 |
| Google: Gemini 3.1 Pro Preview | $2.00 | $12.00 | $0.375 | $0.200 |
| Google: Gemma 4 31B (free) | $0.0000 | $0.0000 | — | — |
| Google: Gemini 2.5 Pro | $1.25 | $10.00 | $0.375 | $0.125 |
| Google: Gemma 4 26B A4B (free) | $0.0000 | $0.0000 | — | — |
| NVIDIA: Nemotron 3 Nano 30B A3B (free) | $0.0000 | $0.0000 | — | — |
| MiniMax: MiniMax M2.5 (free) | $0.0000 | $0.0000 | — | — |
| Arcee AI: Trinity Large Preview (free) | $0.0000 | $0.0000 | — | — |
| Google: Gemini 3 Flash Preview | $0.500 | $3.00 | $0.083 | $0.050 |
| Google: Gemini 2.5 Flash | $0.300 | $2.50 | $0.083 | $0.030 |
| OpenAI: GPT-5.4 Nano | $0.200 | $1.25 | — | $0.020 |
| OpenAI: GPT-5.4 Pro | $30.00 | $180.00 | — | — |
| OpenAI: GPT-5.3 Chat | $1.75 | $14.00 | — | $0.175 |
| Google: Gemini 2.5 Flash Lite | $0.100 | $0.400 | $0.083 | $0.010 |
| OpenAI: GPT-5.3-Codex | $1.75 | $14.00 | — | $0.175 |
| OpenAI: GPT-5.2-Codex | $1.75 | $14.00 | — | $0.175 |
| OpenAI: GPT-5.2 Pro | $21.00 | $168.00 | — | — |
| OpenAI: GPT-5.2 Chat | $1.75 | $14.00 | — | $0.175 |
| Meta: Llama 4 Maverick | $0.150 | $0.600 | — | — |
| xAI: Grok 4.20 | $2.00 | $6.00 | — | $0.200 |
| xAI: Grok 4.20 Multi-Agent | $2.00 | $6.00 | — | $0.200 |
| Z.ai: GLM 5.1 | $1.05 | $3.50 | — | $0.525 |
| Google: Gemini 3.1 Flash Lite Preview | $0.250 | $1.50 | $0.083 | $0.025 |
| Mistral: Mistral Small 4 | $0.150 | $0.600 | — | $0.015 |
| Mistral: Devstral 2 2512 | $0.400 | $2.00 | — | $0.040 |
| Qwen: Qwen3.5-Flash | $0.065 | $0.260 | $0.081 | — |
| Qwen: Qwen3 Max Thinking | $0.780 | $3.90 | — | — |
| Qwen: Qwen3 Coder Next | $0.150 | $0.800 | — | $0.120 |
| Qwen: Qwen3.5-122B-A10B | $0.260 | $2.08 | — | — |
| DeepSeek: R1 | $0.700 | $2.50 | — | — |
| ByteDance Seed: Seed 1.6 | $0.250 | $2.00 | — | — |
| Xiaomi: MiMo-V2-Flash | $0.090 | $0.290 | — | $0.045 |
| DeepSeek: DeepSeek V3.2 | $0.252 | $0.378 | — | $0.025 |
| MoonshotAI: Kimi K2.5 | $0.440 | $2.00 | — | $0.220 |
| MiniMax: MiniMax M2.5 | $0.150 | $1.20 | — | $0.075 |
| xAI: Grok 4.1 Fast | $0.200 | $0.500 | — | $0.050 |
| Mistral: Mistral Large 3 2512 | $0.500 | $1.50 | — | $0.050 |
| Qwen: Qwen3.5 Plus 2026-02-15 | $0.260 | $1.56 | $0.325 | — |
| Xiaomi: MiMo-V2-Pro | $1.00 | $3.00 | — | $0.200 |
| MiniMax: MiniMax M2.7 | $0.300 | $1.20 | — | $0.059 |
| Z.ai: GLM 5 Turbo | $1.20 | $4.00 | — | $0.240 |
| NVIDIA: Nemotron 3 Super (free) | $0.0000 | $0.0000 | — | — |
| OpenAI: gpt-oss-120b | $0.039 | $0.190 | — | — |
| Xiaomi: MiMo-V2-Omni | $0.400 | $2.00 | — | $0.080 |
| Z.ai: GLM 5 | $0.720 | $2.30 | — | — |
| Google: Gemma 4 31B | $0.130 | $0.380 | — | $0.020 |
| Google: Gemma 4 26B A4B | $0.080 | $0.350 | — | $0.010 |
| Qwen: Qwen3.5-27B | $0.195 | $1.56 | — | — |
| Google: Gemini 3.1 Pro Preview Custom Tools | $2.00 | $12.00 | $0.375 | $0.200 |
| Anthropic: Claude Opus 4.7 | $5.00 | $25.00 | $6.25 | $0.500 |
| OpenAI: gpt-oss-20b (free) | $0.0000 | $0.0000 | — | — |
| Qwen: Qwen3.5-9B | $0.100 | $0.150 | — | — |
| Z.ai: GLM 5V Turbo | $1.20 | $4.00 | — | $0.240 |
| Qwen: Qwen3.5-35B-A3B | $0.163 | $1.30 | — | — |
| Google: Nano Banana 2 (Gemini 3.1 Flash Image Preview) | $0.500 | $3.00 | — | — |
| Qwen: Qwen3.5 397B A17B | $0.390 | $2.34 | — | $0.195 |
| Meta: Llama 3.2 3B Instruct (free) | $0.0000 | $0.0000 | — | — |
Os precos sao atualizados automaticamente quando os provedores fazem alteracoes. Para a lista completa com context window, veja o Catalogo de Modelos.
Veja tambem Como Creditos Funcionam para entender como esses precos sao aplicados no debito de creditos.