AI-prijzen gaan omhoog. Wat doe jij vanavond?
TechCrunch publiceerde gisteren een stuk over wat ze de "Tokenpocalypse" noemen: naarmate de grote AI-bedrijven richting een beursgang bewegen, gaan de prijzen per token waarschijnlijk omhoog. Niet een beetje, maar structureel. Voor jou als maker die een SaaS bouwt bovenop een AI-API betekent dit dat je marges straks kunnen krimpen als je nu niet nadenkt over hoe je tokens verbruikt.
Wat betekent dit voor jouw project?
Als jouw SaaS gebruikers laat chatten met een AI, documenten laat samenvatten of automatisch e-mails laat genereren, dan betaal jij per token. Elke overbodige prompt, elk herhalen van context dat al bekend is, elke respons die twee keer zo lang is als nodig: dat kost straks meer. Nu is het moment om je codebase token-bewust te maken, voordat die prijsstijgingen komen.
Met Claude Code doe je dat in een middag.
Hoe pak je het aan met Claude Code?
Stap 1: breng eerst in kaart waar je tokens naartoe gaan
Open je project in Claude Code en geef het deze prompt:
Analyseer alle plekken in dit project waar we een AI-API aanroepen (OpenAI, Anthropic, etc.). Maak een overzicht van: welke bestanden, wat de gemiddelde prompt-grootte is als je de code leest, en of er patronen zijn waarbij we steeds dezelfde context meesturen. Geef me een prioriteitenlijst van wat het meeste winst oplevert als we het optimaliseren.
Claude Code leest je codebase en geeft je een concreet overzicht. Je hoeft zelf geen enkel bestand te openen.
Stap 2: voeg prompt-caching toe op de zwaarste calls
Stel dat je een functie hebt die elke keer een lang systeem-prompt meestuurt (bijvoorbeeld een uitgebreide beschrijving van hoe je AI zich moet gedragen). Dat is de grootste verspilling. Vraag Claude Code:
In [bestandsnaam] sturen we steeds hetzelfde systeem-prompt mee bij elke API-call. Implementeer Anthropic prompt caching voor dit systeem-prompt zodat we niet elke keer opnieuw tokens betalen voor die vaste tekst. Gebruik de cache_control parameter die Anthropic hiervoor heeft.
Claude Code schrijft de aanpassing direct. Het resultaat ziet er dan ongeveer zo uit:
const response = await anthropic.messages.create({
model: "claude-opus-4-5",
max_tokens: 1024,
system: [
{
type: "text",
text: jouwLangeSysteemPrompt,
cache_control: { type: "ephemeral" }
}
],
messages: userMessages
});
Dit bespaart tot 90% van de kosten op dat systeem-prompt, want Anthropic rekent gecachete tokens veel goedkoper.
Stap 3: bouw een simpel kostendashboard in je admin
Je wilt weten wat je uitgeeft, per dag en per gebruiker. Geef Claude Code deze prompt:
Voeg aan elke AI-API-response logging toe in onze database. Sla op: tijdstip, gebruiker-id, aantal input-tokens, aantal output-tokens, en het model dat we gebruikten. Maak daarna een simpele admin-pagina op /admin/kosten die een tabel toont van de laatste 30 dagen: kosten per dag, kosten per gebruiker (top 10), en totaal deze maand. Gebruik de token-prijzen van Claude Opus ($15 per miljoen input-tokens, $75 per miljoen output-tokens) om de kosten te berekenen.
Claude Code bouwt dit in een keer uit: de logging, de database-tabel, en de admin-pagina. Na dit stap zie je voor het eerst zwart op wit wat je SaaS kost om te draaien.
Stap 4: trim overbodige context automatisch
Veel makers sturen een volledige chat-geschiedenis mee bij elke bericht, ook als die geschiedenis lang is. Vraag Claude Code:
In onze chat-functionaliteit sturen we de volledige berichtenhistorie mee. Implementeer een sliding window van maximaal de laatste 10 berichten, maar zorg ervoor dat we wel altijd het allereerste bericht bewaren (dat bevat vaak de taakomschrijving van de gebruiker). Voeg ook een functie toe die de totale token-schatting logt zodat we kunnen zien hoeveel we besparen.
function trimMessageHistory(
messages: Message[],
maxMessages: number = 10
): Message[] {
if (messages.length <= maxMessages) return messages;
const first = messages[0];
const recent = messages.slice(-(maxMessages - 1));
return [first, ...recent];
}
Wat te checken na afloop
- Open je admin-pagina op /admin/kosten en controleer of er data binnenkomt na een testgesprek.
- Kijk in de Anthropic API-logs (console.anthropic.com) of je cache_hit responses ziet bij calls die je hebt gecached. Je ziet dan "cache_read_input_tokens" in de response.
- Vergelijk de token-aantallen voor en na de sliding-window aanpassing door twee keer een lang gesprek te testen.
- Als je admin-pagina laat zien dat een of twee gebruikers 80% van de kosten maken, weet je meteen waar je eventueel gebruikslimieten moet instellen.
De tokens die je nu bespaart zijn straks euro's die je niet hoeft door te berekenen aan je gebruikers. Dat is je concurrentievoordeel als de Tokenpocalypse echt aankomt.
Bij Eighty leer ik je Claude Code in het Nederlands gebruiken, van installatie tot een werkend SaaS-product. Wekelijks een nieuwe module, persoonlijke begeleiding.
