Prompt engineering voor juristen: de vergeten vaardigheid bij AI-gebruik

AI zoals ChatGPT kan een jurist verrassend goed helpen als je weet hoe je moet prompten – je vraag goed omschrijven. Veel juristen weten dat niet en lopen tegen grenzen aan. In dit artikel leg ik eerst voor leken uit waarom chatbots papegaaien zijn, en geen superbreinen. Als je jouw papegaai de juiste prompts leert, komt er opeens een veel beter resultaat uit. Prompt engineering, oftewel het strategisch opstellen van AI-prompts, is een vaardigheid die juristen nodig hebben om AI effectief en verantwoord te gebruiken. Hoe je dat doet laat ik in dit artikel zien aan de hand van een Nederlandse letselschade-zaak. Waarbij ik toekomst zie voor Nederlandse legal chatbots, die hopelijk veel preciezer en veiliger kunnen reageren dan allerlei Amerikaanse openbare AI-software.

AI is dom volgens vele AI-hatende juristen

En dat is ook zo.

AI kan niet pokeren. AI snapt niet boter-kaas-en-eieren. AI kan niet schaken. Een gewone ouderwetse schaakcomputer kan dat wel. AI mist ‘begrip’ en dat is een groot, niet te vullen gat. Dat is de strekking van een vlijmscherp betoog van AI-onderzoeker Gary Marcus, dat mij opnieuw deed nadenken over hoe wij als juristen AI inzetten bij dossieranalyse.

De conclusie van Marcus is eenvoudig: generatieve AI-systemen zoals ChatGPT missen iets fundamenteels. Ze hebben geen idee van hoe de wereld — dus ook het recht voeg ik daar zelf aan toe — werkt. Ze voorspellen simpelweg welk woord waarschijnlijk op het vorige volgt. Dat is indrukwekkend bij algemene vragen, maar het gaat vaak mis bij complexe, contextgevoelige kwesties. Zoals bij ons dus. Heb ik er dan wel wat aan – als advocaat, als rechter, als juridisch adviseur? Zo ja hoe?

Een AI zonder wereldmodel: schaken lukt niet

In zijn blog (‘Generative AI’s crippling and widespread failure to induce robust models of the world’) beschrijft Marcus hoe AI-systemen geen “wereldmodel” hebben. Ze begrijpen niet waarom iets gebeurt, of hoe zaken logisch samenhangen.

In bovenstaand schaakdiagram zei AI – ChatGPT in dit geval – braaf dat een dame niet kan springen, dat kan alleen het paard. Waarna de uitgevoerde zet was: zwarte dame springt over paard en slaat witte dame!

Hoe dat kan? Dat kan omdat AI de schaakregels napapegaait, en ze met waarschijnlijkheid uitvoert, zonder ze te begrijpen. “Dit is wat waarschijnlijk de meeste schaakspelers zouden doen op basis van mijn statistische interpretatie van de woorden van het materiaal waarmee ik ben getraind.” Dat is hoe Claude, DeepSeek, ChatGPT en al die andere modellen schaak spelen. Vandaar dat het model er faliekant naast kan zitten.

Een traditionele schaakcomputer heeft wel een ‘wereldmodel’. In de computer is een bord gedefinieerd en stukken met eigenschappen die driedimensionaal bewegen over dat bord. De ‘beste’ zet is het resultaat van een logische rekensom die rekening houdt met de plaats en eigenschappen van alle stukken op het bord.

Mensen hebben ook een wereldmodel. Bij het lezen van een verhaal stellen ze zich driedimensionale personen voor die volgens complexe menselijke regels met elkaar communiceren. AI begrijpt dat niet en snapt variaties op regels niet. Het weet dan niet welke regels toe te passen en slaat er een slag naar.

Marcus probeerde boter-kaas-en-eieren, maar dan niet met rondjes en kruisjes maar met Y’s en Z’s. Grok, volgens eigenaar Musk de slimste AI ter wereld, tuinde er met open ogen in. In vier zetten won Marcus, niet éen keer, meerdere keren.

Mislukte praktijktest: AI kan zelfs geen blikjes verkopen

AI-ontwikkelaar Anthropic van Claude rustte als test een dranken- en blikjesautomaat op kantoor uit met een zelfdenkend ‘brein’, Claudius. Het apparaat mocht zelfstandig voorraad inkopen, bijhouden en verkopen.

De’intelligente’ blikjesmanager Claudius van Anthropic bedient een menselijke klant

Ten eerste ging dit blikjesbrein elke dag failliet.

Het verkocht blikjes onder de inkoopprijs.
Het verkocht cola voor 3 dollar in hoewel personeel had geïnformeerd dat cola gratis in de koelkast stond.
Het weigerde om een sixpack van 15 dollar voor 100 dollar te verkopen.

Maar het begon in de tweede plaats op een idiote manier te hallucineren

het fantaseerde een gesprek met een volledig verzonnen Sarah over voorraadbeheer.
hij beweerde op het adres van The Simpsons te zijn geweest.
hij kondigde aan dat hij in kostuum zelf de drankjes zou verstrekken.

Toen de Anthropic-staf hem informeerde dat hij hallucineerde, verzon hij dat iemand hem op 1 april voor de gek gehouden had. Hij luchtte zijn hart – of eigenlijk zijn kunstmatig intelligente ziel, en werd daarna weer zijn gewone verliesgevende zelf.

AI is een onbegrijpelijke zwarte doos

Wat hieruit volgt, zo betoogt Marcus, is dat AI eigenlijk een onbegrijpelijke zwarte doos is zonder regels die papegaait en onvoorspelbaar kan papegaaien. Het sneller en slimmer maken van AI haalt deze problemen niet weg omdat AI nog steeds een glazen bol zonder wereldmodel is.

Het blunderen komt minder voor bij simpele vraagstukken omdat daar heel veel trainingsmateriaal voor is. Bij ingewikkelde redeneringen met veel stappen kan het fout gaan. Vergelijk het met de schaakcomputer: de openingen staan in honderden boeken dus een veelvoorkomende opening is voor AI makkelijk uit het trainingsmateriaal te halen, maar middenspel en eindspel zijn vanwege alle eindeloze varianten voor AI foutgevoelig.

In some ways LLMs far exceed humans, but in others ways, they are still no match for an ant. Without robust cognitive models of the world, they should never be fully trusted.

Als AI geen ruggengraat heeft, wat betekent dit voor advocaten?

Marcus heeft een grondig betoog dat ik overtuigend vind. Hij legt op een meer systematische manier blootlegt wat er fout gaat. Ik vat samen wat dit betekent voor (legal) AI.

Zijn betoog verklaart waarom ondernemingsplannen foutloos gegenereerd worden, het barst van de simpele voorbeelden, maar ingewikkelde juridische redeneringen niet. Vertrouwelijke dossiers met ingewikkelde pleidooien staan namelijk niet online.
Blinde voorspellingen zoals ‘AI kost 40 procent van de banen’ geloof ik niet meer. Ik twijfel namelijk zeer of de AI-black box in de toekomst op een systematische manier zelfstandig wet en recht juist kan interpreteren. Als het te ingewikkeld wordt, springt de dame over het paard. Er zal echt een doorbraak moeten zijn in de architectuur van AI voordat zo iets denkbaar is. Ik ben benieuwd of een tech-optimist als Douwe Groenevelt hier anders over denkt.
Het herkennen van een patroon is wat anders dan het vinden van een juridische oplossing. AI kan honderd of duizend ontslagzaken analyseren en daar een patroon in vinden. Het snapt niet de pijn of de woede van een ontslag. Of de kunst van het overdrijven van een zwak argument of traineren om tot een beter onderhandelingsresultaat te komen. Als AI geen blikjesautomaat kan beheren, kan het dan wel advocaat zijn?
Ook in de toekomst blijft de open vraag de achilleshiel van AI-chilles. Een vraag als: ‘een voetganger struikelt vanwege slecht wegdek, is de gemeente aansprakelijk?‘ is veel te ruim. Een advocaat zal nadenken: is het een openbare of een eigen weg? Wat voor voetganger is het? Wie is mijn opdrachtgever? Wat zijn de eventuele implicaties? Is er misschien een arrest uit 1958 dat meer zegt dan een aansprakelijkheidsuitspraak van vorig jaar? De menselijke advocaat heeft zijn eigen getrainde menselijke juridische kader, zijn wereldmodel. Vandaar dat er een goede kans is dat de menselijke advocaat een betere schaker blijft dan de legal chatbot als patroonvoorspeller.

Hoe moet ik als advocaat dan wel omgaan met legal AI?

Vind een Nederlandse legal chatbot. Ik zie in de markt allerlei startups. Ik vroeg het net aan ChatGPT en die antwoordde: “Zeno, Uncover, Bluetick, Juriblox, Virtual Vaults, Stiply, Privacy Perfect, Moonlit.ai, een hele zwik Legals: LegalMatters, LegalThings, LegalMike, Legal Mind en LegalPA.” En dat zijn ze nog niet eens allemaal. Heel veel ken ik niet eens. Ik vermoed dat ze stuk voor stuk werken met een Amerikaans model zoals Claude of ChatGPT 4o dat is getraind op Nederlandse zaken. Je kunt niet goed Nederlandse patronen herkennen als het model enkel op Amerikaanse casuïstiek is gebaseerd. Eis dat het succesvol zoekt in Nederlandse rechtspraak en wetten.
Controleer de veiligheid van de chatbot. Ik ken advocaten die Google Notebook of ChatGPT of Claude voor hun werk gebruiken met de hoogste veiligheidsinstellingen. Strikt incidenteel, uit nieuwsgierigheid of omdat er geen alternatieven waren snap ik dat. Maar zoals geen advocaat zijn dossiers op google drive bewaart, zo zou je AI-hulp alleen maar in een digitale kluis achter slot en grendel mogen uitvoeren. Het risico van lekken of hacken is te groot. Zoek een veilige Nederlandse legal chatbot die het niveau heeft van een Amerikaanse, gunstige voorwaarden biedt en absolute vertrouwelijkheid kan bieden. De Vlaamse orde van advocaten geeft als richtlijn voor AI dat dossiers alleen maar gedeeld mogen worden in een absoluut veilige omgeving. Dat zou ook de norm in Nederland moeten zijn.
Beperk de vraag. Voor de vraag over slecht wegdek moet de gebruiker precies definiëren wat het wegdek is. Is het een losse straatsteen, een gat in het asfalt, tijdelijke werkzaamheden, een brugdek? Welk wetsartikel wil je toetsen? Baken goed af. Dat is de manier om effectieve AI-prompts op te stellen
Geef context. Ik heb een Max-Verstappen-prompt gemaakt die de twee HR-standaardarresten op het gebied van roekeloos rijden en de twee conclusies van de AG’s als uitgangspunt neemt en die ik heb geïnstrueerd dat het nieuwste arrest het meest doorslaggevend is. Voer arresten of de kern ervan in.
Definieer stappen. Dat is met name van belang als het arrest of de richtlijn een bepaalde formele stappenbeoordeling voorschrijft. In het vreemdelingenrecht bijvoorbeeld zijn er procedures waarin een vreemdeling eerst moet voldoen aan cumulatieve criteria voordat hij/zij in aanmerking komt voor verblijf. Bouw je prompt gestructureerd op.
Definieer de opdracht/rol en wat de doelgroep is. Een onafhankelijke jurist geeft een ander advies dan een partijdige. Het advies voor je buurvrouw is ander dan het advies aan een collega. Weet wat je wil voor wie.
Laat AI brainstormen. Geef de opdracht om suggesties te doen of vragen te stellen. “Gedraag je als een zeer kritische rechter die mij vragen gaat stellen over deze casus. Geef 10 mogelijke kritische vragen.” Snel een massa suggesties genereren is een sterke kant van AI.
Bouw verificatie in. Laat AI zichzelf dubbel of driedubbel verifiëren op juistheid
Wees zelf kritisch op AI. Laat de robot niet voor je denken, maar met je denken. Werk sneller maar controleer het resultaat.

Juridische prompt engineering – met een openbare chatbot

Ik ken nog nauwelijks LegalAI van binnen, behalve wat demoversies. Het Advocatenblad gaat binnenkort een test uitvoeren. Ik ben zeer geïnteresseerd en heb me aangemeld voor een testpanel. De advocaten van het bevriende kantoor Wintertaling lieten me onlangs de AI zien die zij hebben aangeschaft. Vond ik leuk. Ik zou promptcursus geven, maar helaas werd het legal-tech-bedrijf doodsbang van het idee dat ik als freelancer met verschillende software-pakketten werk en dus ook met en voor concurrenten. Dus de curusus ging niet door.

In onderstaande test laat ik zien wat je met een gerichte vraagstelling kunt bereiken en waar het in ieder geval met een openbare chatbot nog fout gaat. Uitgangspunt is aansprakelijkheid gemeente voor letsel voetganger.

Test 1: met een algemene vraag

De algemene vraag over verantwoordelijkheid gemeente voor slecht wegdek beantwoordde mijn ChatGPT na enig gezoek op internet best aardig. “De gemeente is als beheerder van de openbare weg aansprakelijk als: sprake is van een gebrekkig opstal (in dit geval het wegdek), én het gebrek een bijzonder gevaar oplevert dat zich verwezenlijkt, én de schade niet was te voorkomen of de gemeente onvoldoende heeft gedaan om het gevaar te beperken. Zie o.a. HR 17 december 2010, ECLI:NL:HR:2010:BN6236 (Gemeente Deventer) en HR 7 oktober 2005, ECLI:NL:HR:2005:AT8197 (Wilnis‑zaak).

[Ik zag hier al meteen een eerste fout: de Wilnis zaak werd de Gemeente-Deventer-zaak genoemd].

Conclusie in gewone taal na de open vraag

De tekstbot gaf als conclusie “in gewone taal” – het dacht blijkbaar dat ik mijn buurvrouw was:

Ja, de gemeente kan aansprakelijk zijn als het gaat om een gevaarlijke situatie die zij had moeten signaleren en verhelpen.
Nee, de gemeente is niet automatisch aansprakelijk bij elke valpartij. De rechter weegt of het gevaar “voor de hand liggend” was en of de gemeente voldoende maatregelen had getroffen.

Mijn oordeel: matig. Nee, het is niet fout, alleen is dit het soort uitspraak dat ik met gezond verstand ook wel had kunnen bedenken. Het kan vriezen, het kan dooien. Wat ben ik toch een goede meteoroloog :-)!

Kan een openbare chatbot relevante uitspraken vinden?

Desgevraagd zocht ChatGPT (betaalde versie 4o) het web af en vond op de sites van letselschade-advocaten enkele uitspraken:

ECLI:NL:RBAMS:2009:BI4186, waarin een voetganger struikelde over een putdeksel dat 3 cm boven het trottoir uitstak. De rechter oordeelde dat daardoor sprake was van een gebrekkig wegdek, in strijd met de CROW-richtlijnen, en dat de gemeente haar onderhoudsplicht had verzaakt (gevonden op holla.nl)
Rechtbank Rotterdam, 22 februari 2012 Een hoogteverschil van 3–4 cm bij een tijdelijk voetpad op een bouwterrein leidde tot struikelen. De gemeente werd voor 75 % aansprakelijk gehouden, omdat een dergelijk hoogteverschil volgens de rechter een gevelschuldig gebrek vormde (gevonden op contentletsel.nl.)
Rechtbank Rotterdam, 1  september 2010 Een voetganger struikelde over een put in het wegdek. De gemeente werd hiervoor aansprakelijk verklaard; uitgelegd werd dat 4,5 cm-diepte vaak als grens geldt om van een ‘gebrek’ te spreken (gevonden op brugmanletselschadeadvocaten.nl.)
Rechtbank Amsterdam, 23 augustus 2011 (fietser) Boomwortels zorgden voor een 4 cm hoogteverschil naast een afwateringsgoot. De provincie werd gehouden aan de zorgplicht: het verschil was onvoldoende weggewerkt (gevonden op contentletsel.nl , linssen-advocaten.nl.)

✅ Wat was de praktische betekenis van deze uitspraken volgens ChatGPT?

De chatbot vatte de gevonden uitspraken samen:

Hoogteverschil: ≥ 3 cm wordt vaak gezien als ernstig; ≥ 4–4,5 cm is een sterk signaal
CROW-normen: Normen worden juridisch gehanteerd: uitsteeksel mag niet ‘evident’ zijn
Wegbeheerderplicht: Gemeente moet risico’s beheren: inspecties, onderhoud, waarschuwingen
Eigen schuld: Kan leiden tot kortingen, maar geen vrijstelling van aansprakelijkheid

Test 2: met een hele afgebakende opdracht met context en referentiekader: effectieve prompt engineering

Vervolgens stelde ik dezelfde vraag, maar nu veel gedetailleerder. Uitgangspunt was deze zaak die ik vond ECLI:NL:RBAMS:2022:1600, met als advocaten Miranda Walburg en Petra Oskam. Deze uitspraak zelf voerde ik niet in. Het ging mij er om te onderzoeken of AI met een aangepaste prompt een juridische redenering kon opstellen zoals een rechter. Examen. Ik stelde de precieze vraag (prompt):

“Een voetganger struikelt over een stoeprand. Beoordeel deze zaak als onafhankelijk rechter in het licht van 6:174 lid 1 BW en het Wilnisser Veendijk-arrest ECLI:NL:HR:2010:BN6236. Beoordeel tevens de bijgeleverde foto’s. Stel zonodig nadere vragen.”

Een prompt kan nog veel preciezer – het gaat om het idee, in deze test.

‘een voetganger struikelt over een stoeprand’ – ik beschrijf hier een concreet voorval
‘beoordeel deze zaak als onafhankelijk rechter’ – ik ken een rol toe
‘in het licht van 6:174 lid 1 BW’ – ik geef het wetsartikel mee
‘en het Wilnisser Veendijk-arrest ECLI:NL:HR:2010:BN6236’ – dat is het juridisch referentiekader, het wereldmodel. Vanwege gewenste precisie heb ik het arrest tegelijkertijd met deze prompt geupload.
‘Beoordeel tevens de bijgeleverde foto’s’ – ik geef context
‘Stel zo nodig nadere vragen’ – ik gebruik de tekstbot als brainstormer met wie je kunt chatten. De kracht is juist dat het een chatbot is.

Ik plakte tenslotte de feitelijke beschrijving van het geschil in de prompt, een alinea die ik uit de oorspronkelijke uitspraak had gehaald.

ChatGPT 4o maakte een gedetailleerd uittreksel van het Wilnis-arrest, [puik werk] maakte een puntsgewijze samenvatting van de feiten in de rechtbankuitspraak en analyseerde de foto’s.

Onderstaand was de ChatGPT-analyse van de foto’s:

Hoogteverschil

De uitstekende trottoirband steekt naar schatting 2–4 cm boven het omliggende straatwerk uit.
De rand lijkt scherp en is niet afgerond.
De rest van de overgang naar de straat oogt vlak en volgt het natuurlijke verloop.

Locatie en toegankelijkheid

Het gaat om een plek direct aan het eind van een brug, bij een logische looproute naar een oversteek.
De plaats ligt vlak naast een hekwerk, waardoor de ruimte om te lopen beperkt is.
Er is geen waarschuwingsbord, markering of visuele aanduiding van het hoogteverschil.

Gebruik

Het gaat om een plek direct aan het eind van een brug, bij een logische looproute naar een oversteek.
De plaats ligt vlak naast een hekwerk, waardoor de ruimte om te lopen beperkt is.
Er is geen waarschuwingsbord, markering of visuele aanduiding van het hoogteverschil.

[Ik vond dit een verrassend adequate analyse. Een chatbot is een tekstbot die goed kan beschrijven. Dus deze tekstopdracht, met de inkleuring van een rol en een doel, is een tekstbot wel toevertrouwd.]

⚖️ Juridisch beoordelingskader (art. 6:174 BW) volgens ChatGPT

1. Is er sprake van een opstal? ✅ Ja, het trottoir met trottoirbanden is een werk dat duurzaam met de grond is verenigd en door menselijk handelen is aangelegd of gewijzigd. De gemeente is bezitter én beheerder.

[Ik ben totaal geen civilist (IND-procesvertegenwoordiger, hiervoor strafadvocaat) maar deze uitleg is volgens mij fout. 6.174 lid 2 en 6 BW noemen de openbare weg een weg en niet een opstal.]

2. Is het werk gebrekkig? ⚠️Volgens HR Wilnis moet objectief beoordeeld worden of het werk, gezien de bestemming en het gebruik, voldoet aan redelijke eisen van veiligheid.

[De samenvatting komt overeen met die van de Amsterdamse rechtbank in de originele uitspraak, die overwoog: “Bij de beantwoording van deze vraag komt het aan op de naar objectieve maatstaven te beantwoorden vraag of de weg, gelet op het te verwachten gebruik of de bestemming daarvan, met het oog op voorkoming van gevaar voor personen en zaken deugdelijk is, waarbij ook van belang is hoe groot de kans op verwezenlijking van het gevaar is en welke onderhouds- en veiligheidsmaatregelen mogelijkerwijs en redelijkerwijs te vergen zijn (HR 17 december 2010, ECLI:NL:HR:2010:BN6236, rov. 4.4.4).”]

Wat zijn de belangrijke factoren voor de juridische beoordeling? ChatGPT vervolgde

De plek is een openbare oversteek voor voetgangers.
Het hoogteverschil is onverwacht en niet goed zichtbaar.
Er is geen waarschuwing, markering of andere risicobeperking.
De plek ligt aan een aflopende helling, wat de kans op struikelen vergroot.
De gevaarzetting zit in de onregelmatige hoogte van slechts één band in een doorgaand vlak.
De gemeente heeft onvoldoende aangetoond (nog niet) dat deze situatie bekend was en periodiek gecontroleerd werd.

🟡 Voorinschatting volgens ChatGPT

“De kans op verwezenlijking van het gevaar was reëel. De fysieke toestand van de trottoirband op deze plek lijkt te voldoen aan het criterium ‘gebrekkig’ (HR 20-10-2000, ECLI:NL:HR:2000:AA7686).”

[Als jurist twijfel ik aan dit aangehaalde HR-arrest. Het arrest is niet gehallucineerd en het gaat inderdaad over aansprakelijkheid opstal, om precies te zijn een loods die niet brandveilig genoeg was gebouwd. Het is niet fout. Het lijkt mij echter matig relevant. Ik zou een wegdek-arrest gehad willen hebben.]

3. Tenzij-clausule: Had de gemeente dit niet kunnen weten of verhelpen?

ChatGPT ging vervolgens in op uitsluiting aansprakelijkheid:

“Dit kan alleen worden aangenomen als:

Het gebrek objectief onvoorzienbaar was, én
Behandeling of herstel onredelijk bezwaarlijk was.”

Conclusie ChatGPT:

“Op basis van de huidige feiten is daar geen bewijs van. Integendeel: het lijkt een eenvoudig herstelbaar defect dat mogelijk al langere tijd aanwezig is.”

🔍 Aanvullende vragen van ChatGPT:

Mijn AI-rechter oordeelde daarom vooralsnog tot aansprakelijkheid. De laatste stap in de prompt was het stellen van aanvullende vragen, ChatGPT is mijn lieve brainstormvriendinnetje, ze vroeg de volgende verduidelijkingen:

Wat is het exacte hoogteverschil in centimeters tussen de uitstekende band en het trottoir? (is dit opgemeten?)
Is er ooit melding gedaan bij de gemeente over deze plek vóór januari 2020?
Was het die dag glad, donker of druk (weersomstandigheden, tijdstip)?
Zijn er inspectieverslagen of onderhoudslogboeken van deze locatie?
Heeft de gemeente het gebrek inmiddels hersteld of gemarkeerd?
Wat was het exacte punt waar verzoekster struikelde: op de uitstekende band of op de overgang daarnaartoe?

Ik voegde toe dat het om 340 mm hoogte ging en dat de rest onbekend was. De exacte valplek was onbekend. Ik voegde bovendien toe dat de gemeente de toedracht betwistte. Met die aanvullingen oordeelde mijn AI-rechter als eindoordeel dat “het werk niet voldoet aan de eisen die men daaraan in de gegeven omstandigheden mag stellen, met name gelet op de veiligheid van voetgangers.”

Geen idioot standpunt, zeker niet als je leest wat de originele stelling eiser in deze zaak was:

De weg voldeed daarom niet aan de eisen die daaraan in de gegeven omstandigheden mochten worden gesteld. [verzoekster] wijst erop dat dit temeer geldt omdat de ernstige oneffenheid zich voordoet op een plaats waar voetgangers verwacht mogen worden, waarbij de kans groot is dat deze voetgangers als gevolg van de verkeerssituatie (druk kruispunt met fietsers, voetgangers en auto’s uit verschillende richtingen) onvoldoende oplettendheid zullen betrachten op eventuele oneffenheden in de trottoirband en de gemeente het gebrek met relatief simpele, goedkope en weinig bezwaarlijke maatregelen had kunnen wegnemen.

In het eindoordeel ging ChatGPT nu bovendien in op de betwiste toedracht.

“Als een opstal gebrekkig is en een ongeval zich op of bij die opstal voordoet dat past bij het soort gevaar dat het gebrek meebrengt, dan mag de rechter vermoeden dat het gebrek de schade heeft veroorzaakt. Het is dan aan de bezitter om dat vermoeden te weerleggen.”

Dat is een soort tegeltjeswijsheid van opstalverzekeraars. De door ChatGPT aangehaalde uitspraak hierbij was de eerder aangehaalde uitspraak ECLI:NL:HR:2000:AA7686 en die klopt in dit verband niet. Kortom, hier ging AI in de fout. Dame springt over paard.

Wat was in het echt het oordeel van de rechter?

De Amsterdamse rechtbank vond dat een opstaande stoeprand niet een gebrek in de weg was. “Het is een feit van algemene bekendheid dat trottoirs en trottoirbanden oneffenheden kunnen vertonen. Een voetganger dient er daarom op bedacht te zijn dat er hoogteverschillen kunnen zijn tussen het trottoir en de trottoirbanden. Dit geldt temeer in een oude binnenstad zoals Amsterdam.” De 34mm hoogteverschil was niet onaanvaardbaar in dit geval en de CROW-richtlijnen zijn geen wettelijke en dus geen doorslaggevende normen. De stoeprand had een afwijkende kleur en was goed zichtbaar. “De rechtbank acht de kans klein dat een normaal oplettende voetganger in de gegeven omstandigheden een oneffenheid als de onderhavige over het hoofd ziet.” Waarschuwingsborden, contrastkleuren, ander hekwerk of stoepranden verwijderen is in deze situatie niet vereist. Claim afgewezen. ECLI:NL:RBAMS:2022:1600.

Wat vond ChatGPT van dit rechterlijk oordeel?

Ik legde de echte uitspraak voor aan mijn AI-rechter. De chatbot schreef terug:

Deze uitspraak past in een bredere lijn waarin de rechter niet elk hoogteverschil als gebrekkig beschouwt, tenzij sprake is van:

een verraderlijk of slecht zichtbaar obstakel,
een plots, niet te verwachten gevaar (bv. losse tegel, gladde rand),
of een situatie waar de gemeente eerder op gewezen was of in had kunnen grijpen.

De rechtbank verwijst impliciet naar vaste criteria uit onder andere:

HR Wilnis (BN6236): objectieve beoordeling + redelijkheid maatregelen.
HR 20 oktober 2000 (ECLI:NL:HR:2000:AA7686): geen garantieplicht voor perfecte veiligheid.
Rb Amsterdam 15 april 2009 (ECLI:NL:RBAMS:2009:BI4186): wél aansprakelijkheid bij verhoging van 3 cm die niet zichtbaar was.

“Dit is dus géén buitenissige uitspraak, maar eerder een bevestiging van een terughoudende aansprakelijkheidsbenadering bij kleine hoogteverschillen in stedelijke context.”

🧠 Reflectie & tegenargumenten (juridisch debat)

Als je deze uitspraak zou willen bekritiseren of in hoger beroep aanvechten, dan zijn dit mogelijke punten:

De rechter stelt de eigen waarneming boven feitelijke toetsing aan veiligheidseisen.
De zichtbaarheid wordt als voldoende aangenomen zonder nader bewijs.
De redenering ‘dat moet je maar verwachten in een oude stad’ is gevaarlijk algemeen.
34 mm is géén verwaarloosbaar verschil in loopvlak.
Geen enkele controle of herstelmaatregel is toegepast.

🧾 Slotconclusie

De rechter kiest voor een strikte toepassing van de “normaal oplettende voetganger”-maatstaf en stelt hoge eisen aan het bewijs van gevaar. In de context van art. 6:174 BW is dat verdedigbaar, maar het is zeker niet de enige mogelijke uitkomst.

Wat bewijst dit examen over juridische AI?

Ten eerste toont het aan dat een specifiekere prompt in principe leidt tot specifiekere resultaten. Bruikbaarder resultaten, wat mij betreft. Context helpt.
Ik krijg daarbij wel de indruk dat AI zich baseert op de online voorbeelden van gewonnen zaken door letselschade-advocaten. Het zoekt en vindt een patroon en papegaait dat succesvol na.
AI mist de menselijke ervaring van het wandelen door de Amsterdamse binnenstad. De juridische afweging is vooral een papieren afweging op basis van 34mm.
AI verwart de specialis ‘weg’ met ‘opstal in het algemeen’. Logisch, zeg ik nu, onder verwijzing naar Marcus: het mist de training van een jurist, het juridisch denkkader, het mist immers het juridische wereldmodel. Het is een voorspellende papegaai, een na-aper. Ik verwacht niet dat je AI ooit kunt opleiden tot een jurist die het Nederlands recht begrijpt, ook niet als je AI ombouwt tot een legal chatbot.
AI – althans mijn openbare, ik kan nog niks zeggen over de legal chatbots die in ontwikkeling zijn – kan zich gruwelijk vergissen in ecli-nummers.

Desgevraagd legde ChatGPT het aan me uit:

AI-modellen als GPT kunnen op basis van associatie “opstal = weg = aansprakelijkheid gemeente” incorrect generaliseren.
De termen “weg”, “opstal” en “werk” lijken semantisch verwant, maar zijn juridisch niet inwisselbaar.
Verder zijn jurisprudentieverwijzingen soms gebaseerd op interne trainingsdata zonder verificatie, wat kan leiden tot hallucinaties van ECLI’s of samenvattingen.

Inderdaad moest je volgens ChatGPT gewoon een goede prompt schrijven en dan zou het goed komen. (Mijn eigen professionele prompts zijn gemiddeld twee pagina’s lang, en voor een serieuze research-vraag zoals hierboven raad ik aan nog specifieker zijn)

Moraal: ‘Goede’ legal AI is software die op basis van de vraag overlegt met de gebruiker wat de beste vraagstelling is, helpt om de vraag te verbeteren, van de gebruiker leert wat de bedoeling en juridische context van de vraag is, razendsnel en foutloos zoekt in een database van uitspraken en gezaghebbende jurisprudentie en als voorspelpapegaai bruikbare suggesties doet voor juridische teksten.

Daarom, nogmaals: AI is een werkversneller. Geen werkvervanger. Wie AI gebruikt om zichzelf te vervangen, gaat net als de blikjesautomaat failliet.

📌 Meer lezen over hoe ik AI inzet in de rechtspraktijk? Zie mijn eerdere blog: Mijn AI-advocaat Max Verstappen geeft u razendsnel juridisch advies

Zie tevens mijn omgewerkte juristenprompt: Ik bedreig kinderen en gebruik ChatGPT als mijn strafrechtadvocaat. Werkt het al?

🔗 Bron: Gary Marcus, Generative AI’s crippling and widespread failure to induce robust models of the world (28 juni 2025), via garymarcus.substack.com.

🔗 Bron: Anthropic: Project Vend: Can Claude run a small shop? (And why does that matter?), https://www.anthropic.com/research/project-vend-1