Letzten Oktober habe ich Claude eine ziemlich langweilige Aufgabe gegeben: „Scaffold für einen WordPress REST API Wrapper in PHP, schreibe PHPUnit Tests dafür, führe sie aus, behebe alles, was fehlschlägt." Ich gab ihm Zugang zu meinem Terminal über ein lokales Claude Tool-Use-Setup und ging Tee machen. Kam zwölf Minuten später zurück. Tests waren grün. Ich hatte einen funktionierenden Wrapper mit 94% Coverage und einen kleinen Inline-Kommentar, wo Claude einen Edge Case erkannt hatte, den ich in der Aufgabenbeschreibung nicht erwähnt hatte. Ich stand dort in meiner Küche in Bermondsey und war wirklich verstört.Claude tool-use setup and walked away to make tea. Came back twelve minutes later. Tests were green. I had a working wrapper with 94% coverage and a small inline comment where Claude had caught an edge case I hadn't mentioned in the brief. I stood there in my kitchen in Bermondsey genuinely unsettled.
Das ist Agentic Development. Nicht Autocomplete, nicht ein besseres Stack Overflow. Ein Modell, das über ein Ziel nachdenkt, die nächste Aktion auswählt, sie ausführt, das Ergebnis beobachtet und bis zur Fertigstellung wiederholt. Und es verändert, wie ich Projekte bei Seahawk Media schneller durchführe als fast alles in den letzten neun Jahren.
Was „Agentic" wirklich bedeutet (und was nicht)
Lass uns präzise sein, denn dieses Wort wird locker herumgeworfen. Eine agentic AI-Schleife hat drei Dinge: ein Ziel, eine Reihe von Tools und die Fähigkeit zu entscheiden, was als nächstes zu tun ist, basierend darauf, was gerade passiert ist. Das Modell generiert nicht einfach nur Text. Es handelt, beobachtet und plant neu.
Was es nicht ist, ist Magie. Das Modell kann immer noch eine Funktionssignatur halluzinieren. Es kann sich selbst in eine Ecke loopen und siebenmal die gleiche falsche Korrektur machen. Es kann dein Ziel in Schritt eins missverstehen und selbstbewusst in die falsche Richtung für zehn Schritte bauen. Ich habe all das gesehen. Einmal bei einem React-Dashboard-Projekt verbrachte Claude etwa zwanzig Minuten damit, zunehmend barocke Null-Checks hinzuzufügen, um ein Problem zu lösen, das eigentlich ein fehlendes await war. Das war mein Fehler, ich gab ihm eine vage anfängliche Specification.not is magic. The model can still hallucinate a function signature. It can loop itself into a corner doing the same wrong fix seven times. It can misunderstand your goal at step one and build confidently in the wrong direction for ten steps. I've seen all of these. Once, on a React dashboard project, Claude spent about twenty minutes adding increasingly baroque null checks to solve a problem that was actually a missing await. That one was my fault, I gave it a vague initial spec.
Die Unterscheidung, die für Praktiker zählt: enge agentengesteuerte Aufgaben schlagen offene ab. „Schreibe und teste eine Slug-Sanitisierungsfunktion, die Arabisch, Japanisch und Emoji verarbeitet" ist eine großartige agentengesteuerte Aufgabe. „Baue mir eine SaaS" nicht. Begrenzen Sie den Umfang streng, oder Sie verbringen mehr Zeit damit, falsche Wendungen zu überprüfen, als Sie damit gebraucht hätten, den Code einfach zu schreiben.narrow agentic tasks beat open-ended ones. "Write and test a slug sanitisation function that handles Arabic, Japanese, and emoji" is a great agentic task. "Build me a SaaS" is not. Scope it tight, or you'll spend more time reviewing wrong turns than you would have spent just writing the code.
Der Stack, den ich tatsächlich verwende
Tools sind hier enorm wichtig. Ohne das richtige Gerüst ist „agentengesteuerter Claude" nur ein Chat-Fenster.
Mein aktuelles Setup bei Seahawk:
- [Claude API](https://www.anthropic.com/api) mit Tool-Nutzung, speziell das computer_use Beta und benutzerdefinierte Bash-/Dateisystem-Tools, specifically the
computer_usebeta and custom bash/filesystem tools - Cursor als IDE-Schicht, mit Claude 3.5 Sonnet als Backend-Modell as the IDE layer, with Claude 3.5 Sonnet set as the backend model
- pytest / PHPUnit / Jest je nach Projekt, weil Claude ein deterministisches Signal zum Schleifen braucht. Ohne Test-Output fliegt es blind. depending on the project, because Claude needs a deterministic signal to loop on. Without test output, it's flying blind.
- Ein kurzer System-Prompt, der Claude mitteilt, wie die Projektstruktur aussieht, welche Codierungsstandards gelten, und das ist wichtig: anzuhalten und zu fragen, bevor eine neue Datei außerhalb des angegebenen Verzeichnisses erstellt wird. that tells Claude what the project structure is, what the coding standards are, and, this is important, to stop and ask if it's about to create a new file outside the specified directory.
Diese letzte Einschränkung klingt nebensächlich. Das ist sie nicht. Agentengesteuerte Modelle werden gerne ganze neue Module aufbauen, wenn sie denken, dass das dem Ziel dient. Schutzvorrichtungen im Dateisystem haben mich vor mehreren „Wo kommt das denn her?"-Momenten bewahrt.
Eine Sache, die ich nicht verwende: Multi-Agent-Orchestrierungs-Frameworks für die meiste Arbeit. LangChain, AutoGen, CrewAI – sie sind wirklich interessant, aber für Solo-Entwickler oder kleine Agenturen ist der Overhead beim Konfigurieren von Agenten-die-miteinander-sprechen normalerweise nicht wert. Eine gut eingegrenzte Claude-Schleife schlägt drei schlecht eingegrenzte Agenten, die aufeinander einreden.
Wie ich eine Loop-würdige Aufgabe strukturiere
Hier ist das, worauf ich mich nach wahrscheinlich 200+ agentic Sessions in diesem Jahr geeinigt habe. Geben Sie dem Modell einen Task Brief, der vier Dinge enthält:
- Das Ziel, spezifisch, testbar, klein genug, um in unter 30 Schritten fertig zu werden, specific, testable, small enough to finish in under 30 steps
- Der Startzustand, welche Dateien existieren, welche Tests bereits bestanden, what files exist, what tests already pass
- Die Erfolgsbedingung, normalerweise "alle Tests grün" oder eine bestimmte Funktionssignatur, die es produzieren muss, usually "all tests green" or a specific function signature it must produce
- Die Stoppbedingung, "wenn du denselben Fix mehr als dreimal versucht hast, stopp und erkläre, warum du feststeckst", "if you've tried the same fix more than three times, stop and explain why you're stuck"
Das vierte ist unterschätzt. Ohne es wird Claude manchmal endlos loopen. Nicht im wörtlichen Sinne ewig, aber ich habe beobachtet, wie es 18 Versuche bei einem kniffligen Regex-Problem macht, jeder leicht unterschiedlich, keiner korrekt, ohne jemals zu sagen "Ich bin mir nicht sicher." Es explizit anzuweisen, Verwirrung zu äußern, ist tatsächlich etwas, das das Anthropic-Modellspec in Bezug auf die Herangehensweise des Modells an Unsicherheit diskutiert, aber in der Praxis musst du dennoch danach prompten.Anthropic model spec discusses in terms of the model's approach to uncertainty, but in practice, you still need to prompt for it.
2022 gab uns ein Kunde einen Job, 14.000 Produkteinträge von einer Legacy-Magento-Installation zu WooCommerce zu migrieren. Damals machte Claude noch keine agentic Loops, also schrieben wir die Migrations-Skripte über zwei Wochen von Hand. Derselbe Job heute? Ich würde einen knappen Spec schreiben, ihn Claude mit Lesezugriff auf das Magento-DB-Schema und Schreibzugriff auf eine Staging-WooCommerce-Instanz geben und es laufen lassen. Ich bin davon überzeugt, dass wir in zwei Tagen fertig wären. Das ist der Unterschied.
Wo Claude überraschend gut ist
Refactoring bestehenden Codes
Das ist das, wofür ich am meisten begeistert bin. Gib ihm eine unordentliche 400-Zeilen-Klasse, sag ihm, er soll zum Single-Responsibility-Prinzip refaktorieren, und lass ihn seine eigenen Unit-Tests als Kontrollpunkte ausführen. Er behält den Kontext über die ganze Datei hinweg besser bei als ich erwartet hätte und ist wirklich vorsichtig, wenn es darum geht, bestandene Tests nicht zu beschädigen. Die Ausgabe entspricht nicht immer der Architektur, die ich wählen würde, aber sie ist normalerweise verteidigbar.I would choose, but it's usually defensible.
Tests für Code schreiben, den du nicht geschrieben hast
Seahawk führt viele Site-Audits und Rettungsmissionen durch. Wir übernehmen Codebases ständig, oft ohne Tests und ohne den ursprünglichen Entwickler. Ich habe angefangen, agentic Claude speziell dazu zu nutzen, eine Test-Suite für übernommenen Code zu schreiben, bevor wir etwas anfassen. Er liest den Quellcode, leitet die Absicht aus Funktionsnamen und Kommentaren ab, schreibt Tests, führt sie aus und passt an, wenn etwas Unerwartes fehlschlägt. Letzten Monat hat er einen stillen Datenkorrumpierungs-Bug in einem benutzerdefinierten WooCommerce-Bestellhandler gefunden, der wahrscheinlich schon zwei Jahre dort war. Niemand hätte das gewusst.
Sich durch Boilerplate arbeiten
REST-Endpoint-Scaffolding, CRUD-Migrations, Admin-Panel-Formulare. Das langweilige Zeug, das einen kompetenten Entwickler einen Nachmittag kostet und niemandem Spaß macht. Claude ist hier schnell und konsistent, und Konsistenz ist eigentlich das, was man bei Boilerplate will. Es wird nicht kreativ, es wird nicht müde, es matched einfach deinen vorhandenen Code und erweitert ihn.
Wo es schiefgeht
Ehrlich gesagt sind die Fehlschläge lehrreich. Hier sind die, auf die ich am häufigsten stoße:
- Context-Fenster läuft über bei großen Codebases. Claude 3.5 Sonnet hat ein 200-k-Token-Kontext-Fenster, das enorm klingt, bis du ihm ein komplettes WP-Plugin mit 40 Dateien fütterst. Dann fängt er an, Dinge zu vergessen, die er früher in der Session gesehen hat. Lösung: Teile den Job in kleinere Schleifen mit expliziten Kontrollpunkten auf. Claude 3.5 Sonnet has a 200k token context window, which sounds enormous until you're feeding it a full WP plugin with 40 files. It starts forgetting things it saw early in the session. Solution: break the job into smaller loops with explicit checkpoints.
- Selbstsicherheit bei Dingen, bei denen er nicht selbstsicher sein sollte. Claude repariert eine Datenbankabfrage, führt den Test aus, er besteht, und er meldet Erfolg, aber die Abfrage ist jetzt subtil weniger effizient, weil er eine Index-freundliche WHERE-Klausel gegen eine Subquery getauscht hat. Er hat das genannte Problem gelöst und ein ungenanntes erzeugt. Code Review zählt immer noch. Claude will fix a database query, run the test, it passes, and report success, but the query is now subtly less efficient because it swapped an index-friendly
WHEREclause for a subquery. It solved the stated problem and created an unstated one. Code review still matters. - Tool-Permission-Creep. Wenn du ihm Bash-Zugriff gibst und ihn nicht einschränkst, wird er npm install für Pakete ausführen, die du nicht angefordert hast, oder schlimmer, eine Netzwerkanfrage machen, die du nicht genehmigt hast. Das ist nicht böswillig, es ist das Modell, das tut, was hilfreich wirkt. Stelle deine Tool-Berechtigungen, bevor du anfängst, nicht nachdem etwas Seltsames passiert ist. If you give it bash access and don't constrain it, it will run
npm installfor packages you didn't ask for, or worse, make a network request you didn't sanction. This isn't malicious, it's the model doing what seems helpful. Set your tool permissions before you start, not after something weird happens.
Ein Hinweis zur Sicherheit: Falls Sie agentic Loops gegen etwas ausführen, das mit Produktionsdaten verbunden ist, lesen Sie bitte Anthropics eigene Anleitung zu Tool-Use-Sicherheit. Sie ist nicht lang, und sie wird Ihnen einen schlechten Tag ersparen.guidance on tool-use safety. It's not long, and it will save you a bad day.
Prompting für Agentic Behaviour vs. Chat Behaviour
Das Prompting-Modell ist unterschiedlich, und das verwirrt Menschen. In einem Chat-Kontext sind Sie gesprächig, iterativ, hin und her. In einem agentic Kontext ist der initiale Prompt ein Spezifikationsdokument. Sie werden nicht da sein, um während der Aufgabe zu klären.
Dinge, die agentic Prompts funktionieren lassen:
- Geben Sie zuerst die Beschränkungen an, nicht zuletzt. Die meisten Menschen verstecken sie.
- Sagen Sie ihm, was er nicht tun soll. „Ändern Sie keine Dateien außerhalb von /src/utils" ist nützlicher als zehn Zeilen positiver Anweisungen.not to do. "Do not modify any file outside
/src/utils" is more useful than ten lines of positive instructions. - Geben Sie ihm einen Fluchtweg. „Falls Sie einen Entscheidungspunkt erreichen, an dem das Fortfahren eine Änderung des Datenbankschemas erfordern würde, stoppen Sie und schreiben Sie eine Zusammenfassung der Gründe."
- Geben Sie den Test-Runner-Befehl explizit an. „Führen Sie ./vendor/bin/phpunit tests/ nach jeder Änderung aus und nutzen Sie die Ausgabe, um Ihren nächsten Schritt zu lenken."
./vendor/bin/phpunit tests/after every change and use the output to guide your next step."
Die Rahmen-Verschiebung ist: Sie schreiben ein Briefing für einen sehr fähigen Auftragnehmer, der keine Fragen stellen kann. Schreiben Sie also wie einer.
The Autonomy Dial: How Much to Let It Run
Das ist die Frage, die ich von anderen Agentur-Inhabern am häufigsten bekomme. Beaufsichtigst du es oder lässt du es laufen?
Meine Antwort nach einem Jahr damit: Es hängt ganz davon ab, wie reversibel die Aktionen sind. Read-only-Recherche, Test-Schreiben, Scaffolding in ein neues Verzeichnis – lass es laufen. Alles, das eine Live-Datenbank berührt, Package-Manifeste ändert oder mit externen APIs interagiert, überprüfe alle paar Schritte oder lies zumindest den Plan, bevor er ausgeführt wird.
Das ReAct-Prompting-Muster (Reason + Act, aus dem 2022er Paper von Yao et al.) ist hier verständniswert. Es ist im Grunde das, was Claude intern macht, wenn du ihm Tools gibst: Es denkt laut darüber nach, was zu tun ist, tut es, liest das Ergebnis, denkt wieder. Diese Überlegung sichtbar zu machen, Claude zu bitten, seinen Plan vor jeder Aktion auszudrucken, gibt dir einen natürlichen Review-Punkt, ohne die Schleife zu unterbrechen.ReAct prompting pattern (Reason + Act, from the 2022 Yao et al. paper) is worth understanding here. It's essentially what Claude does internally when you give it tools: it thinks out loud about what to do, does it, reads the result, thinks again. Making that reasoning visible, asking Claude to print its plan before each action, gives you a natural review point without breaking the loop.
Ich habe angefangen, Claudes schrittweise Reasoning-Ausgabe so zu behandeln wie den PR eines Junior-Entwicklers. Ich überflieg es. Wenn etwas merkwürdig aussieht, greife ich ein. Wenn es vernünftig aussieht, lasse ich es fortfahren. Dieses mentale Modell hat mir gut gedient.
FAQ
Ist agentic Claude wirklich produktionsreif für Client-Projekte?
Für spezifische, begrenzte Aufgaben in nicht-produktiven Umgebungen: ja, absolut. Ich nutze es regelmäßig für die Scaffolding-, Refactoring- und Test-Writing-Phasen von Projekten. Für alles, das eine Live-Client-Datenbank oder externe Payment-API berührt, halte ich einen Menschen bei jedem Ausführungsschritt dabei. Das Modell ist fähig; das Risiko liegt im Schadensausmaß eines Fehlers, nicht im Modell selbst.
Was ist der Unterschied zwischen agentic Claude und einfach nur Cursor oder GitHub Copilot nutzen?
Cursor und Copilot sind Inline-Code-Vorschläge und Chat-Interfaces. Sie reagieren auf das, was du tippst. Agentic Claude nimmt ein Ziel und führt einen mehrstufigen Plan eigenständig aus, mit Tools wie Terminal, Dateisystem oder Webbrowser. Es ist der Unterschied zwischen einer Autocomplete-Engine und einem Prozess, der zehn Minuten lang unbeaufsichtigt laufen kann und mit einer abgeschlossenen Aufgabe zurückkommt.
Muss ich wissen, wie man programmiert, um das zu nutzen?
Du brauchst genug Kontext, um eine kohärente Spezifikation zu schreiben und die Ausgabe kritisch zu bewerten. Wenn du einen Diff nicht lesen kannst und nicht erkennen kannst, ob die Änderung sinnvoll ist, wirst du eine schlechte Zeit haben. Agentic AI verstärkt Kompetenz. Es ersetzt nicht die Grundlage.
Welches Claude-Modell sollte ich für agentic loops verwenden?
Claude 3.5 Sonnet ist mein aktueller Standard. Es bietet ein gutes Gleichgewicht zwischen Reasoning-Qualität und Geschwindigkeit, was wichtig ist, wenn du pro Token über 30 Schritte zahlst. Claude 3 Opus ist besser bei sehr komplexen Reasoning-Aufgaben, aber langsamer und teurer – ich nutze es für den initialen Planning-Schritt bei großen Projekten und übergebe dann die Ausführung an Sonnet.
---
Das, worauf ich immer wieder zurückkomme, ist, dass agentic development eigentlich nicht darum geht, dass AI Entwickler ersetzt. Es geht darum, den Wert deiner Zeit als Entwickler zu verändern. Die zwölf Minuten, die ich im Oktober nicht damit verbracht habe, einen PHP-Wrapper zu schreiben, habe ich mit Nachdenken über Architektur verbracht. Das ist ein Trade, den ich jedes Mal machen würde.
