Cache-Aware Pricing

Precos diferenciados por tipo de token: input, output, cache_write, cache_read.

Avancado

O que e cache-aware pricing?

Modelos de IA modernos conseguem reutilizar contexto de conversas anteriores atraves de um mecanismo chamado cache de prompt. Quando o mesmo contexto (system prompt, historico de conversa) e enviado novamente, o provedor nao precisa reprocessa-lo do zero — ele reutiliza o que ja foi computado.

O QuickClaw detecta automaticamente esses tokens de cache e aplica precos diferenciados. Tokens reutilizados do cache custam ate 90% menosque tokens processados pela primeira vez.

4 tipos de token

Cada requisicao ao provedor de IA gera tokens classificados em 4 categorias, cada uma com seu preco:

Input: Texto enviado ao modelo (sua mensagem, system prompt, contexto). E o preco "padrao" de entrada
Output: Texto gerado pelo modelo como resposta. Geralmente o tipo mais caro
Cache Write: Quando o contexto e cacheado pela primeira vez pelo provedor. Ligeiramente mais caro que input normal
Cache Read: Quando o contexto ja estava cacheado e foi reutilizado. Muito mais barato que input — ate 90% de desconto

Exemplo pratico

Veja os precos do Claude Sonnet 4.5 (modelo padrao do Starter) para entender a diferenca:

Recurso	Preco (USD/Mtok)
Input	$3.00
Output	$15.00
Cache Write	$3.75
Cache Read	$0.30

Note que cache_read custa apenas $0.30/Mtok — isso e 90% mais barato que o input normal ($3.00/Mtok). Isso significa que quanto mais voce conversa com o mesmo contexto, mais barato fica.

Na pratica

Imagine um agente com um system prompt de 2.000 tokens. Na primeira mensagem, esses tokens sao cobrados como cache_write ($3.75/Mtok). Em todas as mensagens seguintes, eles sao cache_read ($0.30/Mtok). Voce economiza 92% nessa parte da conversa.

Como isso afeta seu saldo

Se seu agente conversa frequentemente com o mesmo contexto (o que e o caso normal em conversas continuas), a maioria dos tokens de entrada sera classificada como cache_read. Isso faz com que:

Conversas longas fiquem mais baratas: Quanto mais o agente conversa, mais contexto e reutilizado do cache
System prompts grandes nao pesam tanto: Apos a primeira mensagem, o system prompt e lido do cache
Seus creditos duram mais: Na media, o custo real por mensagem e 30-50% menor que o custo maximo teorico

Tudo automatico

O QuickClaw detecta e contabiliza cache tokens automaticamente. Voce nao precisa fazer nada — o API Proxy extrai as informacoes de cache de cada resposta do provedor e aplica o preco correto para cada tipo de token.

Tabela de precos por modelo

Abaixo, os modelos disponiveis e seus precos por tipo de token (incluindo cache). Os precos sao em USD por milhao de tokens (Mtok) e sao convertidos para BRL usando a taxa de cambio configurada na plataforma.

Anthropic

Modelo	Input/Mtok	Output/Mtok	Cache Write	Cache Read
Anthropic: Claude Opus 4.8	$5.00	$25.00	$6.25	$0.500
Anthropic: Claude Opus 4.7	$5.00	$25.00	$6.25	$0.500
Anthropic: Claude Opus 4.6	$5.00	$25.00	$6.25	$0.500
Claude Opus 4.5	$5.00	$25.00	$6.25	$0.500
Claude Opus 4.1	$15.00	$75.00	$18.75	$1.50
Anthropic: Claude Sonnet 4.6	$3.00	$15.00	$3.75	$0.300
Claude Sonnet 4.5	$3.00	$15.00	$3.75	$0.300
Claude Haiku 4.5	$1.00	$5.00	$1.25	$0.100

OpenAI

Modelo	Input/Mtok	Output/Mtok	Cache Write	Cache Read
OpenAI: GPT-5.5	$5.00	$30.00	—	$0.500
OpenAI: GPT-5.4	$2.50	$15.00	—	$0.250
OpenAI: GPT-5.5 Pro	$30.00	$180.00	—	—
OpenAI: GPT-5.4 Mini	$0.750	$4.50	—	$0.075
OpenAI: GPT-5.3-Codex	$1.75	$14.00	—	$0.175
OpenAI: GPT-5.2	$1.75	$14.00	—	$0.175
OpenAI: GPT-5.4 Nano	$0.200	$1.25	—	$0.020
OpenAI: GPT-5.1	$1.25	$10.00	—	$0.130
OpenAI: GPT-5	$1.25	$10.00	—	$0.125
OpenAI: GPT-5 Mini	$0.250	$2.00	—	$0.025
OpenAI: GPT-5 Nano	$0.050	$0.400	—	$0.010
OpenAI: GPT-4.1	$2.00	$8.00	—	$0.500
OpenAI: GPT-4.1 Mini	$0.400	$1.60	—	$0.100
OpenAI: GPT-4.1 Nano	$0.100	$0.400	—	$0.025
OpenAI: o3	$2.00	$8.00	—	$0.500
OpenAI: o4 Mini	$1.10	$4.40	—	$0.275
OpenAI: GPT-4o	$2.50	$10.00	—	—
OpenAI: o3 Mini	$1.10	$4.40	—	$0.550
OpenAI: GPT-4o-mini	$0.150	$0.600	—	$0.075

Google

Modelo	Input/Mtok	Output/Mtok	Cache Write	Cache Read
Google: Gemini 3.5 Flash	$1.50	$9.00	$0.083	$0.150
Google: Gemini 3.1 Pro Preview	$2.00	$12.00	$0.375	$0.200
Google: Gemini 3 Flash Preview	$0.500	$3.00	$0.083	$0.050
Google: Gemini 3.1 Flash Lite	$0.250	$1.50	$0.083	$0.025
Google: Gemini 3.1 Flash Lite Preview	$0.250	$1.50	$0.083	$0.025
Google: Gemini 2.5 Pro	$1.25	$10.00	$0.375	$0.125
Google: Gemini 2.5 Flash	$0.300	$2.50	$0.083	$0.030
Google: Gemini 2.5 Flash Lite	$0.100	$0.400	$0.083	$0.010

OpenRouter

Modelo	Input/Mtok	Output/Mtok	Cache Write	Cache Read
Anthropic: Claude Opus 4.8 (Fast)	$10.00	$50.00	$12.50	$1.00
Anthropic: Claude Opus 4.8	$5.00	$25.00	$6.25	$0.500
Anthropic: Claude Opus 4.6	$5.00	$25.00	$6.25	$0.500
Anthropic: Claude Sonnet 4.6	$3.00	$15.00	$3.75	$0.300
Anthropic: Claude Sonnet 4.5	$3.00	$15.00	$3.75	$0.300
Anthropic: Claude Haiku 4.5	$1.00	$5.00	$1.25	$0.100
OpenAI: GPT-5.5	$5.00	$30.00	—	$0.500
OpenAI: GPT-5.5 Pro	$30.00	$180.00	—	—
Anthropic: Claude Opus 4.6 (Fast)	$30.00	$150.00	$37.50	$3.00
OpenAI: GPT-4.1	$2.00	$8.00	—	$0.500
OpenAI: GPT-5.4	$2.50	$15.00	—	$0.250
OpenAI: GPT-5.4 Mini	$0.750	$4.50	—	$0.075
OpenAI: GPT-5.2	$1.75	$14.00	—	$0.175
OpenAI: GPT-5.1	$1.25	$10.00	—	$0.130
OpenAI: GPT-5	$1.25	$10.00	—	$0.125
OpenAI: GPT-5 Mini	$0.250	$2.00	—	$0.025
OpenAI: GPT-5 Nano	$0.050	$0.400	—	$0.010
OpenAI: GPT-4o	$2.50	$10.00	—	—
OpenAI: o4 Mini	$1.10	$4.40	—	$0.275
OpenAI: GPT-4o-mini	$0.150	$0.600	—	$0.075
Google: Gemini 3.1 Pro Preview	$2.00	$12.00	$0.375	$0.200
Google: Gemini 2.5 Pro	$1.25	$10.00	$0.375	$0.125
Google: Gemma 4 31B (free)	$0.0000	$0.0000	—	—
Google: Gemma 4 26B A4B (free)	$0.0000	$0.0000	—	—
NVIDIA: Nemotron 3 Nano 30B A3B (free)	$0.0000	$0.0000	—	—
Google: Gemini 3 Flash Preview	$0.500	$3.00	$0.083	$0.050
OpenAI: GPT-5.4 Nano	$0.200	$1.25	—	$0.020
Google: Gemini 2.5 Flash	$0.300	$2.50	$0.083	$0.030
OpenAI: GPT-5.4 Pro	$30.00	$180.00	—	—
Google: Gemini 2.5 Flash Lite	$0.100	$0.400	$0.083	$0.010
OpenAI: GPT-5.3 Chat	$1.75	$14.00	—	$0.175
OpenAI: GPT-5.3-Codex	$1.75	$14.00	—	$0.175
OpenAI: GPT-5.2-Codex	$1.75	$14.00	—	$0.175
OpenAI: GPT-5.2 Pro	$21.00	$168.00	—	—
OpenAI: GPT-5.2 Chat	$1.75	$14.00	—	$0.175
Meta: Llama 4 Maverick	$0.150	$0.600	—	—
xAI: Grok 4.20	$1.25	$2.50	—	$0.200
xAI: Grok 4.20 Multi-Agent	$1.25	$2.50	—	$0.200
Z.ai: GLM 5.1	$0.980	$3.08	—	$0.490
Google: Gemini 3.1 Flash Lite Preview	$0.250	$1.50	$0.083	$0.025
Mistral: Mistral Small 4	$0.150	$0.600	—	$0.015
Mistral: Devstral 2 2512	$0.400	$2.00	—	$0.040
Qwen: Qwen3.5-Flash	$0.065	$0.260	—	—
Qwen: Qwen3 Max Thinking	$0.780	$3.90	—	—
Qwen: Qwen3 Coder Next	$0.110	$0.800	—	$0.070
Qwen: Qwen3.5-122B-A10B	$0.260	$2.08	—	—
DeepSeek: R1	$0.700	$2.50	—	—
ByteDance Seed: Seed 1.6	$0.250	$2.00	—	—
DeepSeek: DeepSeek V3.2	$0.229	$0.343	—	—
MoonshotAI: Kimi K2.5	$0.375	$2.02	—	—
MiniMax: MiniMax M2.5	$0.150	$0.900	—	$0.050
Mistral: Mistral Large 3 2512	$0.500	$1.50	—	$0.050
Qwen: Qwen3.5 Plus 2026-02-15	$0.260	$1.56	—	—
MiniMax: MiniMax M2.7	$0.250	$1.00	—	$0.050
Z.ai: GLM 5 Turbo	$1.20	$4.00	—	$0.240
NVIDIA: Nemotron 3 Super (free)	$0.0000	$0.0000	—	—
OpenAI: gpt-oss-120b	$0.039	$0.180	—	—
Z.ai: GLM 5	$0.600	$1.92	—	$0.120
Qwen: Qwen3.6 27B	$0.288	$3.17	—	—
DeepSeek: DeepSeek V4 Flash	$0.090	$0.180	—	$0.020
Meta: Llama 3.2 3B Instruct (free)	$0.0000	$0.0000	—	—
Qwen: Qwen3.6 35B A3B	$0.140	$1.00	—	—
Qwen: Qwen3.6 Max Preview	$1.04	$6.24	$1.30	—
Google: Gemma 4 26B A4B	$0.060	$0.330	—	—
Qwen: Qwen3.5 397B A17B	$0.385	$2.45	—	—
Google: Gemini 3.1 Pro Preview Custom Tools	$2.00	$12.00	$0.375	$0.200
Qwen: Qwen3.5-27B	$0.195	$1.56	—	—
Qwen: Qwen3.5-35B-A3B	$0.140	$1.00	—	—
Google: Nano Banana 2 (Gemini 3.1 Flash Image Preview)	$0.500	$3.00	—	—
Qwen: Qwen3.5 Plus 2026-04-20	$0.300	$1.80	$0.375	—
Xiaomi: MiMo-V2.5-Pro	$0.435	$0.870	—	$0.0036
Qwen: Qwen3.5-9B	$0.100	$0.150	—	—
Anthropic: Claude Opus 4.7	$5.00	$25.00	$6.25	$0.500
OpenAI: GPT-5.4 Image 2	$8.00	$15.00	—	$2.00
MoonshotAI: Kimi K2.6	$0.660	$3.41	—	$0.144
xAI: Grok 4.3	$1.25	$2.50	—	$0.200
Anthropic: Claude Opus 4.7 (Fast)	$30.00	$150.00	$37.50	$3.00
Xiaomi: MiMo-V2.5	$0.140	$0.280	—	$0.0028
OpenAI: gpt-oss-20b (free)	$0.0000	$0.0000	—	—
Google: Gemma 4 31B	$0.120	$0.350	—	$0.090
DeepSeek: DeepSeek V4 Pro	$0.435	$0.870	—	$0.0036
Z.ai: GLM 5V Turbo	$1.20	$4.00	—	$0.240

Os precos sao atualizados automaticamente quando os provedores fazem alteracoes. Para a lista completa com context window, veja o Catalogo de Modelos.

Veja tambem Como Creditos Funcionam para entender como esses precos sao aplicados no debito de creditos.

Como Creditos Funcionam

Proximo

Top-up de Creditos