AI kan docenten helpen bij het ontwerpen van toetsen, maar alleen wanneer die inzet bewust, beperkt en gecontroleerd gebeurt. Recente handreikingen van Npuls beschrijven AI daarom niet als vervanger van toetskundig ontwerp, maar als een hulpmiddel binnen een bredere, AI-bewuste toetspraktijk. De kern blijft steeds hetzelfde: leerdoelen, onderwijsactiviteiten en toetsing moeten in samenhang worden ontworpen, en AI-integratie is daarbij een middel en geen doel op zich. UNESCO sluit daarop aan door te benadrukken dat AI in onderwijs en toetsing altijd moet vertrekken vanuit menselijke regie, pedagogische keuzes en ethische verantwoordelijkheid. (npuls.nl)
Voor mbo- en hbo-docenten is dit thema belangrijk omdat AI bij toetsontwerp zowel tijd kan besparen als nieuwe risico’s kan introduceren. AI kan snel varianten van vragen genereren, casussen voorstellen, een concept-rubric maken, voorbeeldantwoorden uitschrijven of studentinstructies helpen formuleren. Tegelijk kan dezelfde AI ook fouten introduceren, ongepaste moeilijkheidsgraden voorstellen, bestaande vooroordelen reproduceren of onbedoeld een te voorspelbare opdracht maken. De Europese Commissie benadrukt daarom dat docenten AI-systemen positief, kritisch en ethisch moeten gebruiken, met oog voor risico’s rond betrouwbaarheid, privacy en verantwoord handelen. (Publications Office of the EU)
In dit thema leren deelnemers AI te gebruiken als ontwerpassistent. Dat betekent: AI helpt bij het voorbereiden, variëren, controleren en aanscherpen van toetsen, maar de docent blijft verantwoordelijk voor de inhoud, de kwaliteit, de moeilijkheidsgraad, de fairness en de uiteindelijke inzet van de toets. Dit sluit aan bij de lijn van Npuls, TEQSA en Jisc: onderwijsinstellingen moeten niet alleen reageren op AI-gebruik door studenten, maar ook bewust nadenken over waar AI in de toetscyclus wél en niet passend is. (community-data-ai.npuls.nl)
Na afloop van dit thema kan de deelnemer:
uitleggen waarvoor AI bij toetsontwerp bruikbaar is en waarvoor niet;
AI gebruiken om concepten voor toetsvragen, casussen, rubrics en studentinstructies te genereren;
beoordelen of AI-gegenereerde toetsmaterialen aansluiten op leerdoelen, niveau en beroepscontext;
risico’s benoemen rond bias, fouten, privacy, transparantie en te grote afhankelijkheid van AI;
een eigen werkwijze formuleren waarin AI het toetsontwerp ondersteunt zonder menselijke regie over te nemen. (npuls.nl)
De deelnemer ontwikkelt een eigen AI-werkwijze voor toetsontwerp voor één vak, module, keuzedeel of onderwijseenheid. In deze werkwijze beschrijft de deelnemer waarvoor AI wordt gebruikt, welke controles altijd nodig zijn, welke informatie niet in AI-tools wordt ingevoerd, en hoe wordt vastgesteld dat de uiteindelijke toets valide, bruikbaar en passend is voor mbo of hbo. (npuls.nl)
De prestatie is voldoende wanneer de deelnemer:
minimaal drie toepassingen benoemt waarvoor AI in het eigen toetsontwerp nuttig kan zijn;
duidelijk maakt waarvoor AI juist niet gebruikt wordt;
per toepassing aangeeft welke menselijke controle nodig blijft;
benoemt hoe privacy, transparantie en kwaliteit worden bewaakt;
laat zien hoe leerdoelen, niveau en beroepscontext leidend blijven;
een praktisch stappenplan formuleert dat direct bruikbaar is in de eigen onderwijspraktijk. (Publications Office of the EU)
De meest bruikbare positie voor docenten is om AI te zien als een ontwerpassistent. AI kan helpen om sneller opties te verkennen, varianten te genereren en conceptteksten op te stellen, maar neemt het toetskundig denkwerk niet over. Npuls benadrukt dat AI-toepassingen onderwijs- en toetspraktijken kunnen ondersteunen, maar dat leerprocessen of besluitvorming niet door AI mogen worden overgenomen. Menselijke regie en inmenging blijven dus cruciaal. Ook UNESCO plaatst human agency centraal in AI-bekwaamheid van docenten. (npuls.nl)
Voor docenten betekent dit heel concreet: je kunt AI prima vragen om een eerste opzet voor een casus of rubric, maar je moet daarna zelf beoordelen of die opzet klopt, eerlijk is, het juiste niveau heeft en past bij de leerdoelen. AI kan ook helpen om sneller van een blanco pagina af te komen, maar mag niet de reden worden dat een slecht doordachte toets toch wordt ingezet. De kwaliteit van een toets blijft uiteindelijk afhangen van de kwaliteit van het onderwijsontwerp. Npuls noemt daarom constructive alignment het kompas bij AI-bewuste toetsing. (npuls.nl)
AI is vooral bruikbaar in de voorbereidende en ondersteunende delen van het toetsontwerp. Een eerste nuttige toepassing is het genereren van vraagvarianten. Een docent kan AI vragen om drie versies van een kennisvraag, praktijkvraag of casusvraag te maken op hetzelfde leerdoel, waarna de docent de beste variant kiest en verbetert. Dat kan helpen om sneller alternatieven te zien en om vragen minder voorspelbaar te maken. (npuls.nl)
Een tweede toepassing is het ontwikkelen van casussen, scenario’s en contexten. Vooral in mbo en hbo kan AI helpen om eerste versies van praktijksituaties te genereren, bijvoorbeeld een cliëntcasus, een klantvraag, een storingsmelding, een beleidsdilemma of een klassensituatie. Die eerste versie moet daarna altijd door de docent worden aangepast aan de eigen beroepscontext, het niveau en de gewenste complexiteit. TEQSA benadrukt dat assessmentontwerp steeds meer contextgebonden en betekenisvol moet zijn om goede assurance of learning te ondersteunen. (teqsa.gov.au)
Een derde toepassing is het maken van concept-rubrics, beoordelingscriteria en indicatoren. AI kan snel criteria voorstellen als analyse, onderbouwing, communicatie, beroepsmatig handelen of verantwoording. Dat bespaart tijd in de eerste ontwerpfase. Toch blijft het noodzakelijk om te controleren of die criteria observeerbaar zijn, of ze passen bij het leerdoel, en of ze niet te algemeen zijn geformuleerd. Npuls benadrukt dat valide en betrouwbare toetsing voorop moet blijven staan, ook wanneer AI in het proces wordt gebruikt. (npuls.nl)
Een vierde toepassing is het maken van voorbeeldantwoorden of voorbeelduitwerkingen. Niet om die direct als modelantwoord over te nemen, maar om snel te zien wat voor soort antwoorden AI zelf verwacht of produceert. Dat kan juist helpen om een toets kritisch te bekijken. Als AI met een oppervlakkige prompt al een overtuigend antwoord kan genereren, is dat vaak een signaal dat de vraag nog te generiek of te voorspelbaar is. Jisc’s driedeling helpt hier goed: soms moet je AI vermijden, soms de taak anders ontwerpen, en soms AI bewust meenemen in de taak. (Jisc)
Een vijfde toepassing is het opstellen van studentinstructies. AI kan helpen om een opdrachtbeschrijving of AI-gebruiksinstructie begrijpelijker, korter of consistenter te formuleren. Dat is vooral nuttig wanneer docenten duidelijke taal willen gebruiken richting studenten. Ook hier geldt dat de docent zelf moet bepalen wat wel en niet toegestaan is, en hoe transparantie over AI-gebruik wordt gevraagd. (Publications Office of the EU)
AI is minder geschikt wanneer de docent het eigen professionele oordeel dreigt uit te besteden. Dat geldt bijvoorbeeld voor het automatisch bepalen van de definitieve kwaliteit van een toets of voor het zonder controle overnemen van vragen, beoordelingscriteria of normeringen. Npuls benadrukt dat menselijke betrokkenheid cruciaal blijft en dat validiteit en betrouwbaarheid niet mogen worden ondergraven door gemak of automatisering. (npuls.nl)
Ook is AI ongeschikt wanneer privacy of vertrouwelijkheid in het geding komt. De Europese Commissie waarschuwt expliciet voor risico’s rond data, persoonsgegevens en de ethische inzet van AI in onderwijs. Dat betekent in de praktijk dat docenten geen studentgegevens, vertrouwelijke dossiers, stage-informatie of niet-openbare beoordelingsinformatie zomaar in een publieke AI-tool moeten invoeren. Werk daarom met neutrale, gefingeerde of geanonimiseerde voorbeelden wanneer je AI gebruikt om een toets te ontwerpen. (Publications Office of the EU)
Een derde risico is dat AI schijnkwaliteit produceert. Een rubric kan er netjes uitzien maar toch slecht passen bij het leerdoel. Een casus kan realistisch lijken maar inhoudelijk onjuist zijn. Een toetsvraag kan taaltechnisch goed geformuleerd zijn maar op het verkeerde cognitieve niveau zitten. Daarom is AI vooral handig in de fase van genereren en verkennen, maar niet als laatste kwaliteitsfilter. UNESCO en Npuls benadrukken beide dat basiskennis en kritisch redeneren nodig blijven om AI-output verantwoord te benutten. (unesdoc.unesco.org)
Een praktische werkwijze begint bij het leerdoel.
Stap één is daarom: formuleer eerst wat de student moet kennen, kunnen of verantwoorden. Pas daarna bepaal je of AI in het ontwerp kan helpen. Npuls noemt dit expliciet: een toetstaak ontwerpen begint bij de leerdoelen. Die stap voorkomt dat de tool leidend wordt. (npuls.nl)
Stap twee is: bepaal waar in de toetscyclus AI nuttig kan zijn. Je kunt AI bijvoorbeeld inzetten voor het verkennen van vraagsoorten, het genereren van casusmateriaal, het opstellen van eerste versies van criteria of het herschrijven van studentinstructies in eenvoudigere taal. Die werkwijze sluit aan bij het idee dat AI in het proces een ondersteunende functie kan hebben, zolang de docent bewust kiest waar dat passend is. (community-data-ai.npuls.nl)
Stap drie is: voer alleen veilige informatie in. Gebruik dus geen persoonsgegevens, geen vertrouwelijke praktijkinformatie en geen echte studentproducten als de tool of omgeving daarvoor niet expliciet geschikt en toegestaan is. Dit volgt rechtstreeks uit de Europese richtlijnen over AI en data in onderwijs. (Publications Office of the EU)
Stap vier is: laat AI meerdere opties geven in plaats van één “beste” antwoord. Bijvoorbeeld drie casusvarianten, vier rubriccriteria of vijf mogelijke toetsvragen. Dat maakt de docent minder afhankelijk van één gegenereerde uitkomst en ondersteunt echt ontwerpend denken. (npuls.nl)
Stap vijf is: controleer elke AI-uitkomst op minstens vijf punten, namelijk juistheid, niveau, aansluiting op het leerdoel, beroepsrelevantie en eerlijkheid. Voor sommige opdrachten komt daar ook nog taalniveau of inclusiviteit bij. Npuls en TEQSA leggen beide nadruk op kwaliteit, assurance of learning en het bewust zichtbaar maken van wat de student daadwerkelijk moet aantonen. (npuls.nl)
Stap zes is: test de toets met AI. Laat dezelfde of een andere AI-tool de vraag of casus beantwoorden. Als een generiek antwoord al voldoende lijkt om hoog te scoren, is de kans groot dat de toets nog te zwak, te voorspelbaar of te algemeen is. Deze stap past goed bij Jisc’s benadering om bewust te kiezen tussen vermijden, ontwijken of integreren. (Jisc)
Stap zeven is: documenteer kort hoe AI in het ontwerp is gebruikt. Dat helpt niet alleen voor transparantie, maar ook voor collegiale afstemming en kwaliteitszorg. TEQSA en Npuls benadrukken beide het belang van een programmatische en gedeelde benadering van assessment in een AI-tijdperk. (teqsa.gov.au)
Mbo-voorbeeld 1: Zorg of Welzijn.
Een docent wil een nieuwe casustoets maken over observeren en rapporteren. AI wordt gebruikt om drie eerste cliëntscenario’s te genereren met verschillende zorgzwaartes. Daarna kiest de docent één scenario, voegt echte beroepscontext toe, verwijdert onrealistische elementen en schrijft zelf de beoordelingscriteria. Vervolgens test de docent of AI de casus te makkelijk kan oplossen en scherpt de opdracht aan door ook prioritering en verantwoording te vragen. Zo helpt AI bij de eerste ontwerpfase, maar blijft de docent inhoudelijk in regie. (npuls.nl)
Mbo-voorbeeld 2: Techniek of ICT.
Een docent wil een praktijktoets voorbereiden rond storingsanalyse. AI helpt om tien varianten van storingsmeldingen te maken en om taalgebruik te vereenvoudigen voor studenten op niveau 2 of 3. De docent kiest daarna welke situaties realistisch zijn, koppelt ze aan een concrete simulatieopstelling en maakt zelf een observatielijst. AI versnelt dus de variatie en taalafstemming, maar niet de kern van de beoordeling. (Publications Office of the EU)
Hbo-voorbeeld 1: Bedrijfskunde of Finance.
Een docent wil een casus ontwerpen waarin studenten een beleidsadvies schrijven. AI wordt gebruikt om drie actuele organisatiescenario’s te genereren, plus een eerste set mogelijke dilemma’s. Daarna selecteert de docent één context, voegt lokale gegevens en tegengestelde belangen toe en laat AI nog één keer meedenken over mogelijke beoordelingscriteria. De definitieve rubric wordt daarna handmatig aangescherpt op niveau, argumentatie en beroepsmatige afweging. (teqsa.gov.au)
Hbo-voorbeeld 2: Lerarenopleiding of Social Work.
Een docent gebruikt AI om voorbeeldfeedback te genereren op drie concept-handelingsplannen. Niet om die feedback direct aan studenten te geven, maar om te onderzoeken welke soort aanwijzingen of valkuilen AI ziet. Daarna bepaalt de docent zelf welke feedback pedagogisch passend is en welke niet. In dit voorbeeld helpt AI dus niet alleen bij toetsontwerp, maar ook bij het aanscherpen van feedback- en begeleidingscriteria. (unesdoc.unesco.org)
Voor de eigen praktijk betekent dit thema dat docenten AI vooral slim kunnen inzetten in de eerste en middelste ontwerpfase: verkennen, variëren, herschrijven, structureren en controleren. Dat kan veel opleveren, zeker voor docenten die snel meerdere versies van een vraag, casus of rubric nodig hebben. Maar juist omdat AI overtuigend kan klinken, moet de docent een vaste controlelogica aanhouden. Zonder zo’n logica wordt de winst in tijd al snel verlies in toetskwaliteit. (npuls.nl)
De belangrijkste verschuiving is dus niet dat AI het toetsontwerp overneemt, maar dat docenten leren samenwerken met AI zonder de regie kwijt te raken. Dat vraagt basiskennis, kritische controle, duidelijke grenzen en bewuste keuzes per toets en per context. Precies daarom positioneren Npuls, de Europese Commissie en UNESCO AI-bekwaamheid niet als technisch extraatje, maar als onderdeel van professioneel handelen van docenten. (Publications Office of the EU)
Ontwikkel een eigen AI-werkwijze voor toetsontwerp voor één les, module, keuzedeel of onderwijseenheid van ongeveer 1 tot 2 pagina’s.
Beantwoord daarin deze zes vragen:
Welk leerdoel of welke leerdoelen staan centraal?
Voor welke onderdelen van het toetsontwerp wil je AI gebruiken?
Voor welke onderdelen gebruik je AI juist niet?
Welke informatie voer je bewust niet in vanwege privacy, vertrouwelijkheid of kwaliteit?
Welke controles voer jij altijd uit voordat je AI-output gebruikt?
Hoe toets jij of de uiteindelijke toets nog steeds valide, helder en passend is? (npuls.nl)
De feedback op deze opdracht richt zich op:
doelgerichtheid: start je zichtbaar vanuit leerdoelen;
bewuste inzet van AI: kies je gericht waarvoor AI wel en niet wordt gebruikt;
kwaliteitsbewaking: laat je zien hoe je juistheid, niveau en fairness controleert;
zorgvuldigheid: houd je rekening met privacy, transparantie en menselijke regie;
praktische bruikbaarheid: is je werkwijze haalbaar in jouw mbo- of hbo-context. (Publications Office of the EU)
Ik geef les in [mbo/hbo], opleiding [naam]. Genereer 5 varianten van een toetsvraag bij dit leerdoel: [plak leerdoel]. Zorg voor verschillende moeilijkheidsgraden en houd de taal duidelijk.
Maak 3 realistische casussen voor studenten in [opleiding] rond dit leerdoel: [plak leerdoel]. Schrijf praktijkgericht en geef per casus aan welk soort afweging of beslissing van de student wordt gevraagd.
Maak een eerste concept-rubric voor deze toets: [beschrijving toets]. Gebruik 4 tot 6 criteria en formuleer per criterium waarneembaar gedrag of kwaliteit.
Herschrijf deze toetsinstructie in eenvoudige, duidelijke taal voor studenten in [mbo/hbo-niveau]. Maak ook expliciet wat AI-gebruik wel en niet mag zijn: [plak instructie].
Beantwoord deze toetsvraag alsof je een student bent: [plak toetsvraag]. Leg daarna uit hoe makkelijk dit antwoord met generatieve AI te maken is en welke onderdelen van de vraag nog te generiek of voorspelbaar zijn.
Controleer of deze toetsvraag past bij het niveau van [mbo niveau / hbo propedeuse / hoofdfase]. Benoem wat te eenvoudig, te moeilijk of te vaag is en geef verbeteradviezen: [plak vraag].
Help mij een korte checklist te maken voor veilig gebruik van AI bij toetsontwerp. Neem op: geen persoonsgegevens, geen vertrouwelijke casuïstiek, menselijke controle en transparantie over gebruik.
Ontwerp een werkwijze waarin AI mij helpt bij het maken van een praktijkgerichte toets voor mbo-studenten in [opleiding], zonder dat AI het toetskundig ontwerp overneemt.
Ontwerp een werkwijze waarin AI mij helpt bij het maken van een casustoets of beroepsproducttoets voor hbo-studenten in [opleiding], met aandacht voor niveau, validiteit en verantwoording.
Hier is mijn concept-werkwijze voor AI bij toetsontwerp: [plak tekst]. Geef ontwikkelingsgerichte feedback op doelgerichtheid, kwaliteitscontrole, privacy en uitvoerbaarheid.
Attewell, S. (2024, April 22). Exploring AI and assessment – avoid, outrun or embrace. Jisc.
Beekman, K., Draaijer, S., Beckers, J., Schagen, E., & Hofman, I. (2025). Visie op toetsing en examinering in het tijdperk van AI. Npuls.
Beekman, K., Draaijer, S., Beckers, J., Schagen, E., & Hofman, I. (2025). Aanpakken voor het ontwerpen van AI-gedreven toetstaken (Handreiking 3). Npuls.
European Commission, Directorate-General for Education, Youth, Sport and Culture. (2022). Ethical guidelines on the use of artificial intelligence (AI) and data in teaching and learning for educators. Publications Office of the European Union.
Miao, F., & Cukurova, M. (2024). AI competency framework for teachers. UNESCO.
Npuls. (2025, May 27). Visie op toetsing, examinering en AI + handreikingen. Npuls.
Npuls. (2025). Aanpakken voor examencommissies (Handreiking 4). Npuls.
Tertiary Education Quality and Standards Agency. (2025). Enacting assessment reform in a time of artificial intelligence. TEQSA.
Deze website is ontwikkelt door Allard Strijker. Zie www.allardstrijker.nl voor meer infomatie en achtergrond. De website is ontwikkelt als showcase AI. De teksten zijn dus ook hoofdzakelijk gegenereerd door AI, de inhoud is gecontroleerd op fouten en hersteld waar nodig. Gebruik is volledig op eigen risico.
De prompt om de inhoud te genereren is als volgt, persoonlijke instellingen en eerdere resultaten daargelaten. Resultaten in het verleden geven dus geen garantie voor de toekomst en mijn resultaten zullen niet overeenkomen met gebruikers van anderen. Zie ook basis AI kennis.
Je bent een onderwijskundig ontwerper en docent, gespecialiseerd in mbo en hbo. Je werkt ontwikkelingsgericht volgens het Miller “Can do”-raamwerk en volgens de fasen Analyse, Ontwerp, Ontwikkeling en Evaluatie, met steeds aandacht voor implementatie in de onderwijspraktijk.
Werk nu THEMA 6 uit voor een online cursus van 5 EC over AI en toetsing voor mbo- en hbo-docenten met minimale voorkennis van AI.
Het thema heet: AI gebruiken om toetsen te ontwerpen.
Schrijf in eenvoudige, concrete en toegankelijke taal. Vermijd jargon en abstracte beleidstaal. Gebruik praktische docententaal. Maak de tekst direct bruikbaar voor een online leeromgeving of LMS.
Gebruik exact deze structuur:
## Thema 6. AI gebruiken om toetsen te ontwerpen
### Introductie
Leg uit waarom AI nuttig kan zijn als ontwerpassistent bij toetsontwerp, maar niet als vervanger van toetskundig en didactisch oordeel.
### Leerresultaten
Formuleer concrete leerresultaten in begrijpelijke taal.
### Prestatie
Beschrijf één duidelijke prestatie die de deelnemer aan het einde van dit thema oplevert.
### Prestatie-indicatoren
Geef concrete indicatoren waarmee zichtbaar wordt of de prestatie voldoende is.
## Inhoud
### 1. AI als ontwerpassistent, niet als vervanger
Werk uit dat menselijke regie centraal moet blijven.
### 2. Waarvoor kan AI wél goed worden gebruikt bij toetsontwerp?
Geef concrete voorbeelden zoals:
- vraagvarianten maken
- casussen of scenario’s genereren
- een eerste concept-rubric maken
- studentinstructies vereenvoudigen
- voorbeeldantwoorden gebruiken om toetskwetsbaarheid te testen
### 3. Waarvoor is AI minder geschikt of onwenselijk?
Ga in op:
- uitbesteden van professioneel oordeel
- privacy en vertrouwelijkheid
- bias, fouten en schijnkwaliteit
- blind overnemen van AI-output
### 4. Een veilige en bruikbare werkwijze voor docenten
Werk een concreet stappenplan uit waarin docenten:
- beginnen bij leerdoelen
- bewust kiezen waarvoor AI wordt ingezet
- geen vertrouwelijke data invoeren
- AI-output controleren op juistheid, niveau, beroepscontext en fairness
- de toets ook zelf met AI testen
- hun werkwijze kort documenteren
### 5. Concrete voorbeelden voor mbo en hbo
Werk minimaal 4 voorbeelden uit:
- 2 voor mbo
- 2 voor hbo
Maak de voorbeelden herkenbaar en praktijkgericht.
### 6. Wat betekent dit voor de eigen praktijk?
Vat samen hoe docenten AI slim kunnen inzetten zonder de regie kwijt te raken.
## Toetsing
### Formatieve opdracht
Ontwerp een kleine praktijkgerichte opdracht waarin deelnemers een eigen AI-werkwijze voor toetsontwerp maken.
### Ontwikkelingsgerichte feedbackcriteria
Geef criteria in docententaal.
## Concrete prompts voor het uitvoeren van de prestatie
Geef minimaal 8 concrete prompts die deelnemers kunnen gebruiken in Copilot om hun prestatie uit te voeren of aan te scherpen.
## Bronnenlijst in APA 7
Geef een volledige bronnenlijst in APA 7.
Extra eisen:
- gebruik APA-verwijzingen in de lopende tekst
- gebruik recente en betrouwbare bronnen
- laat zien dat de inhoud past voor mbo én hbo
- maak de tekst concreet en niet te abstract
- schrijf in doorlopende tekst met alleen functionele opsommingen
- laat duidelijk zien wat AI wel en niet mag overnemen
- benadruk privacy, menselijke regie, validiteit en praktische uitvoerbaarheid