myQuickClaw

Cache-Aware Pricing

Precos diferenciados por tipo de token: input, output, cache_write, cache_read.

Avancado

O que e cache-aware pricing?

Modelos de IA modernos conseguem reutilizar contexto de conversas anteriores atraves de um mecanismo chamado cache de prompt. Quando o mesmo contexto (system prompt, historico de conversa) e enviado novamente, o provedor nao precisa reprocessa-lo do zero — ele reutiliza o que ja foi computado.

O QuickClaw detecta automaticamente esses tokens de cache e aplica precos diferenciados. Tokens reutilizados do cache custam ate 90% menosque tokens processados pela primeira vez.

4 tipos de token

Cada requisicao ao provedor de IA gera tokens classificados em 4 categorias, cada uma com seu preco:

  • Input: Texto enviado ao modelo (sua mensagem, system prompt, contexto). E o preco "padrao" de entrada
  • Output: Texto gerado pelo modelo como resposta. Geralmente o tipo mais caro
  • Cache Write: Quando o contexto e cacheado pela primeira vez pelo provedor. Ligeiramente mais caro que input normal
  • Cache Read: Quando o contexto ja estava cacheado e foi reutilizado. Muito mais barato que input — ate 90% de desconto

Exemplo pratico

Veja os precos do Claude Sonnet 4.5 (modelo padrao do Starter) para entender a diferenca:

RecursoPreco (USD/Mtok)
Input$3.00
Output$15.00
Cache Write$3.75
Cache Read$0.30

Note que cache_read custa apenas $0.30/Mtok — isso e 90% mais barato que o input normal ($3.00/Mtok). Isso significa que quanto mais voce conversa com o mesmo contexto, mais barato fica.

Na pratica

Imagine um agente com um system prompt de 2.000 tokens. Na primeira mensagem, esses tokens sao cobrados como cache_write ($3.75/Mtok). Em todas as mensagens seguintes, eles sao cache_read ($0.30/Mtok). Voce economiza 92% nessa parte da conversa.

Como isso afeta seu saldo

Se seu agente conversa frequentemente com o mesmo contexto (o que e o caso normal em conversas continuas), a maioria dos tokens de entrada sera classificada como cache_read. Isso faz com que:

  • Conversas longas fiquem mais baratas: Quanto mais o agente conversa, mais contexto e reutilizado do cache
  • System prompts grandes nao pesam tanto: Apos a primeira mensagem, o system prompt e lido do cache
  • Seus creditos duram mais: Na media, o custo real por mensagem e 30-50% menor que o custo maximo teorico

Tudo automatico

O QuickClaw detecta e contabiliza cache tokens automaticamente. Voce nao precisa fazer nada — o API Proxy extrai as informacoes de cache de cada resposta do provedor e aplica o preco correto para cada tipo de token.

Tabela de precos por modelo

Abaixo, os modelos disponiveis e seus precos por tipo de token (incluindo cache). Os precos sao em USD por milhao de tokens (Mtok) e sao convertidos para BRL usando a taxa de cambio configurada na plataforma.

Anthropic

ModeloInput/MtokOutput/MtokCache WriteCache Read
Anthropic: Claude Opus 4.7$5.00$25.00$6.25$0.500
Anthropic: Claude Opus 4.6$5.00$25.00$6.25$0.500
Claude Opus 4.5$5.00$25.00$6.25$0.500
Claude Opus 4.1$15.00$75.00$18.75$1.50
Claude Opus 4$15.00$75.00$18.75$1.50
Anthropic: Claude Sonnet 4.6$3.00$15.00$3.75$0.300
Claude Sonnet 4.5$3.00$15.00$3.75$0.300
Claude Haiku 4.5$1.00$5.00$1.25$0.100

OpenAI

ModeloInput/MtokOutput/MtokCache WriteCache Read
OpenAI: GPT-5.4$2.50$15.00$0.250
OpenAI: GPT-5.3-Codex$1.75$14.00$0.175
OpenAI: GPT-5.4 Mini$0.750$4.50$0.075
OpenAI: GPT-5.2$1.75$14.00$0.175
OpenAI: GPT-5.4 Nano$0.200$1.25$0.020
OpenAI: GPT-5.1$1.25$10.00$0.130
OpenAI: GPT-5$1.25$10.00$0.125
OpenAI: GPT-5 Mini$0.250$2.00$0.025
OpenAI: GPT-5 Nano$0.050$0.400$0.010
OpenAI: GPT-4.1$2.00$8.00$0.500
OpenAI: GPT-4.1 Mini$0.400$1.60$0.100
OpenAI: GPT-4.1 Nano$0.100$0.400$0.025
OpenAI: o3$2.00$8.00$0.500
OpenAI: o4 Mini$1.10$4.40$0.275
OpenAI: GPT-4o$2.50$10.00
OpenAI: o3 Mini$1.10$4.40$0.550
OpenAI: GPT-4o-mini$0.150$0.600$0.075
OpenAI: GPT-5.3 Codex Spark$2.00$10.00$0.0000$0.500

Google

ModeloInput/MtokOutput/MtokCache WriteCache Read
Google: Gemini 3.1 Pro Preview$2.00$12.00$0.375$0.200
Google: Gemini 3 Flash Preview$0.500$3.00$0.083$0.050
Google: Gemini 3.1 Flash Lite Preview$0.250$1.50$0.083$0.025
Google: Gemini 2.5 Pro$1.25$10.00$0.375$0.125
Google: Gemini 2.5 Flash$0.300$2.50$0.083$0.030
Google: Gemini 2.5 Flash Lite$0.100$0.400$0.083$0.010

OpenRouter

ModeloInput/MtokOutput/MtokCache WriteCache Read
Anthropic: Claude Opus 4.6$5.00$25.00$6.25$0.500
Anthropic: Claude Sonnet 4.6$3.00$15.00$3.75$0.300
Anthropic: Claude Sonnet 4.5$3.00$15.00$3.75$0.300
Anthropic: Claude Haiku 4.5$1.00$5.00$1.25$0.100
Anthropic: Claude Opus 4.6 (Fast)$30.00$150.00$37.50$3.00
OpenAI: GPT-4.1$2.00$8.00$0.500
OpenAI: GPT-5.4$2.50$15.00$0.250
OpenAI: GPT-5.2$1.75$14.00$0.175
OpenAI: GPT-5.4 Mini$0.750$4.50$0.075
OpenAI: GPT-5.1$1.25$10.00$0.130
OpenAI: GPT-5$1.25$10.00$0.125
OpenAI: GPT-5 Mini$0.250$2.00$0.025
OpenAI: GPT-5 Nano$0.050$0.400$0.010
OpenAI: GPT-4o$2.50$10.00
OpenAI: o4 Mini$1.10$4.40$0.275
OpenAI: GPT-4o-mini$0.150$0.600$0.075
Google: Gemini 3.1 Pro Preview$2.00$12.00$0.375$0.200
Google: Gemma 4 31B (free)$0.0000$0.0000
Google: Gemini 2.5 Pro$1.25$10.00$0.375$0.125
Google: Gemma 4 26B A4B (free)$0.0000$0.0000
NVIDIA: Nemotron 3 Nano 30B A3B (free)$0.0000$0.0000
MiniMax: MiniMax M2.5 (free)$0.0000$0.0000
Arcee AI: Trinity Large Preview (free)$0.0000$0.0000
Google: Gemini 3 Flash Preview$0.500$3.00$0.083$0.050
Google: Gemini 2.5 Flash$0.300$2.50$0.083$0.030
OpenAI: GPT-5.4 Nano$0.200$1.25$0.020
OpenAI: GPT-5.4 Pro$30.00$180.00
OpenAI: GPT-5.3 Chat$1.75$14.00$0.175
Google: Gemini 2.5 Flash Lite$0.100$0.400$0.083$0.010
OpenAI: GPT-5.3-Codex$1.75$14.00$0.175
OpenAI: GPT-5.2-Codex$1.75$14.00$0.175
OpenAI: GPT-5.2 Pro$21.00$168.00
OpenAI: GPT-5.2 Chat$1.75$14.00$0.175
Meta: Llama 4 Maverick$0.150$0.600
xAI: Grok 4.20$2.00$6.00$0.200
xAI: Grok 4.20 Multi-Agent$2.00$6.00$0.200
Z.ai: GLM 5.1$1.05$3.50$0.525
Google: Gemini 3.1 Flash Lite Preview$0.250$1.50$0.083$0.025
Mistral: Mistral Small 4$0.150$0.600$0.015
Mistral: Devstral 2 2512$0.400$2.00$0.040
Qwen: Qwen3.5-Flash$0.065$0.260$0.081
Qwen: Qwen3 Max Thinking$0.780$3.90
Qwen: Qwen3 Coder Next$0.150$0.800$0.120
Qwen: Qwen3.5-122B-A10B$0.260$2.08
DeepSeek: R1$0.700$2.50
ByteDance Seed: Seed 1.6$0.250$2.00
Xiaomi: MiMo-V2-Flash$0.090$0.290$0.045
DeepSeek: DeepSeek V3.2$0.252$0.378$0.025
MoonshotAI: Kimi K2.5$0.440$2.00$0.220
MiniMax: MiniMax M2.5$0.150$1.20$0.075
xAI: Grok 4.1 Fast$0.200$0.500$0.050
Mistral: Mistral Large 3 2512$0.500$1.50$0.050
Qwen: Qwen3.5 Plus 2026-02-15$0.260$1.56$0.325
Xiaomi: MiMo-V2-Pro$1.00$3.00$0.200
MiniMax: MiniMax M2.7$0.300$1.20$0.059
Z.ai: GLM 5 Turbo$1.20$4.00$0.240
NVIDIA: Nemotron 3 Super (free)$0.0000$0.0000
OpenAI: gpt-oss-120b$0.039$0.190
Xiaomi: MiMo-V2-Omni$0.400$2.00$0.080
Z.ai: GLM 5$0.720$2.30
Google: Gemma 4 31B$0.130$0.380$0.020
Google: Gemma 4 26B A4B $0.080$0.350$0.010
Qwen: Qwen3.5-27B$0.195$1.56
Google: Gemini 3.1 Pro Preview Custom Tools$2.00$12.00$0.375$0.200
Anthropic: Claude Opus 4.7$5.00$25.00$6.25$0.500
OpenAI: gpt-oss-20b (free)$0.0000$0.0000
Qwen: Qwen3.5-9B$0.100$0.150
Z.ai: GLM 5V Turbo$1.20$4.00$0.240
Qwen: Qwen3.5-35B-A3B$0.163$1.30
Google: Nano Banana 2 (Gemini 3.1 Flash Image Preview)$0.500$3.00
Qwen: Qwen3.5 397B A17B$0.390$2.34$0.195
Meta: Llama 3.2 3B Instruct (free)$0.0000$0.0000

Os precos sao atualizados automaticamente quando os provedores fazem alteracoes. Para a lista completa com context window, veja o Catalogo de Modelos.

Veja tambem Como Creditos Funcionam para entender como esses precos sao aplicados no debito de creditos.

myQuickClaw
Suporte QuickClawEscolha uma opcao para comecar

Ola! Sou o agente do QuickClaw. Escolha uma opcao abaixo para que eu possa te ajudar:

Powered by QuickClaw