Kun je AI Deep Research vertrouwen?

Bijna iedereen weet dat als je tools als CoPilot, Gemini of ChatGPT een vraag stelt, je niet zomaar er vanuit kunt gaan dat het antwoord klopt. En als je zo’n taalmodel vraagt om literatuurverwijzingen, dan kloppen die vaker niet dan wel. Met de komst van de DeepThink optie van DeepSeek, de “Doe diepgaand onderzoek” mogelijkheid van ChatGPT en de Thinking Mode van AI Studio (Gemini) lijkt daar verandering in gekomen te zijn. Deze tools genereren in een aantal minuten indrukwekkende overzichten, literatuurverwijzingen die vaak wél (b)lijken te kloppen. Een recente studie van ByteDance, genaamd “ReportBench”, biedt een diepgaande en soms ontnuchterende analyse. De studie pakt een fundamenteel probleem aan: hoe evalueer je de kwaliteit van een complex onderzoeksrapport dat door een AI is gegenereerd?

Eerst even de APA7 referentie voor het arXiv paper:

Li, M., Zeng, Y., Cheng, Z., Ma, C., & Jia, K. (2025). ReportBench: Evaluating deep research agents via academic survey tasks [Preprint]. arXiv. https://doi.org/10.48550/arXiv.2508.15804

De uitdaging: hoe evalueren?

Eerste vraag die de onderzoekers moesten beantwoorden: hoe ga je de kwaliteit van een antwoord op een vraag evalueren? Handmatig zou kunnen, maar schaalt niet, het is duur en traag. Dus hebben ze de vraag omgedraaid:

De onderzoekers van ByteDance bedachten een slimme methode die ze “Reverse Prompt Engineering” noemen, gebruikmakend van een bestaande ‘goudmijn’ aan kennis:

  1. Startpunt: bestaande, door experts geschreven en peer-reviewde survey papers van het online archief arXiv. Niet alle papers daar zijn peer-reviewd, dus het is een subset. Deze papers zijn de perfecte voorbeelden van hoe een goed literatuuroverzicht eruitziet.

  2. De ‘perfecte’ set bronnen: uit elke geselecteerde paper haalden ze de volledige bibliografie. Deze lijst van referenties wordt gebruikt als de “ground-truth reference set”,  de totale set bronnen die een menselijke expert voor dat specifieke onderwerp heeft gekozen.

  3. Vragen genereren vanuit het antwoord: de volgende stap heet “Reverse Prompt Engineering”, daarbij is het niet zo dat ze een vraag te stellen en het antwoord evalueren, ze doen juist het omgekeerde:  Ze gaven de volledige tekst van een expert-paper (het ‘antwoord’) aan een krachtig taalmodel (LLM) zoals GPT-4o. Vervolgens kreeg het model de taak om de prompt (de ‘vraag’) te schrijven die perfect door deze paper wordt beantwoord.

  4. Een benchmark creëren: Door dit proces creëerden ze een dataset met honderden vraag-antwoordparen (prompts en de bijbehorende antwoorden) over diverse wetenschappelijke domeinen, met verschillende niveaus van complexiteit (van een enkele zin tot zeer gedetailleerde prompts).

Deze dataset hebben ze gebruikt voor de evaluatie.

De Evaluatie: hoe goed doet de LLM het?

Met de in de vorige stap ontwikkelde dataset konden de onderzoekers de Deep Research LLM’s van OpenAI en Google testen. Ze keken naar twee belangrijke aspecten van de kwaliteit:

  • Referentiekwaliteit: Ze vergeleken de lijst van citaties die de LLM genereerde met de ground-truth bibliografie van de oorspronkelijke paper. Vond de agent dezelfde cruciale, door experts geselecteerde referenties? Dit gaf een maat voor “Precision” en “Recall”.
  • Feitelijke Kwaliteit: Dit werd op twee manieren gecontroleerd:

    • Geciteerde beweringen: Ondersteunt de bron die de AI citeert daadwerkelijk de bewering die de AI doet? Dat deden ze overigens niet handmatig, hier werd een ander LLM voor ingezet om deze semantische consistentie te verifiëren (het leven van onderzoekers is echt wel een stuk eenvoudiger geworden met AI!).

    • Niet-geciteerde beweringen: Voor feitelijke claims zonder directe citatie werd een “comité” van web-verbonden LLM’s (waaronder Gemini-2.5-pro en -flash) gebruikt om te stemmen over de juistheid ervan.

De Resultaten: het werkt, maar niet altijd

De resultaten zijn tweeledig. Enerzijds presteren de gespecialiseerde Deep Research LLM’s aanzienlijk beter dan de standaard LLM’s. Ze vinden relevantere bronnen en de citaties kloppen vaker. De specialisatie heeft dus zeker een meerwaarde.  Anderzijds legt de studie gebreken bloot. Zelfs de meest geavanceerde agents zijn nog steeds zeer vatbaar voor hallucinaties, die in twee vormen voorkomen:

  1. Statement Hallucination: De AI doet een bewering en citeert een bron, maar de inhoud van de bewering wijkt af van wat er daadwerkelijk in de bron staat.

  2. Citation Hallucination: De referentie zelf is verzonnen. De AI kan bijvoorbeeld een echte auteursnaam combineren met een niet-bestaande paper, of een URL fabriceren die nergens naartoe leidt.

Kanttekeningen

Kritiekpunt (niet uit de video overigens, maar van mijzelf) bij het onderzoek is dat de vergelijking veronderstelt dat menselijke auteurs nooit aan hallucinatie doen (dan heet het waarschijnlijk anders). Ook bij papers die wél door het peerreview proces zijn gegaan en van voor de tijd van grootschalige beschikbaarheid van LLM’s kwam en komt het voor dat auteurs verwijzen naar bronnen die niet te vinden zijn en dat ze onjuist verwijzen naar bronnen. Ik krijg zelf notificaties van Google als er een artikel verschenen is dat verwijst naar een artikel waarvan ik (co-)auteur ben. Daar ben ik soms hele wilde verwijzingen tegen gekomen waarbij ik geciteerd werd voor iets waar ik zeker geen uitspraken over gedaan heb.
Los daarvan blijft ook dit onderzoek benadrukken dat je simpelweg niet blind kunt varen op de output van een LLM. Wel fijn eigenlijk, blijven we als mensen en experts toch nog meerwaarde hebben.

Sowieso blijft het voor taalmodellen moeilijk om bv impliciete tegenstrijdigheden tussen papers te herkennen. Of om te begrijpen dat een beschreven methodologie of theorie achterhaald of onjuist is. Zie bijvoorbeeld deze blogpost van Pedro  De Bruyckere over onderwijsmythes en LLM’s. Zijn conclusie:

Wie wil dat AI helpt om onderwijsmythes te ontmantelen, moet AI actief uitnodigen om kritisch te denken. Doe je dat niet, dan krijg je gepolijste, plausibele, maar compleet foute lesideeën. Precies zoals mensen die al decennia produceren.

Dan maakt het niet uit of het DeepThink is of “snelle reactie”.

En als je regelmatige, compacte toelichting bij soms complexe AI-gerelateerde onderwerpen in videovorm wilt krijgen, dan is het volgen van het YouTubekanaal van Discover AI heel verstandig.

0 0 stemmen
Bericht waardering
Abonneer
Abonneren op

Deze site gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie gegevens worden verwerkt.

0 Reacties
Inline Feedback
Bekijk alle reacties
0
Tips, opmerkingen, aanvullingen, ideeën naar aanleiding van dit bericht?x