Hieronder vindt u een nieuw evaluatiesysteem voor neuropsychologische tests. Ik heb dit ontwikkeld omdat het oudere evaluatiesysteem niet veel helpt of stimuleert om neuropsychologische tests te verbeteren. Verder is het met het oude systeem veel complexer om neuropsychologische tests te vergelijken.
Ik hoop dat u mijn voorgestelde moderne evaluatiesysteem leuk zult vinden. Veel leesplezier! Maar eerst een korte inleiding in de testpsychologie.
Testpsychologie, de studie van het ontwikkelen, onderhouden en evalueren van (neuropsychologische) tests, is nauwelijks populair bij psychologiestudenten. Ik hoop u te laten zien dat dat jammer is en niet zo hoeft te zijn. Een van de belangrijkste redenen voor mijn pleidooi is dat neuropsychologische tests de belangrijkste instrumenten zijn die neuropsychologen gebruiken om iets te zeggen over hersenstoornissen of hersenletsel. Veel hangt dus af van neuropsychologische testen.
Neuropsychologische tests zijn specifieke standaardprocedures om iemand iets te laten doen en vervolgens vast te leggen hoe het wordt gedaan en wat de resultaten zijn, vooral om cognitieve of hersenfuncties te meten. Iemand vragen om bijvoorbeeld 7 en 5 op te tellen is een heel eenvoudige test. Het heeft een standaardmanier van vragen stellen, maar kan verschillende soorten vragen hebben (6 en 1 optellen, of 2 en 3). De uitkomst kan eenvoudig worden gescoord: goed of fout.
Een complexere testprocedure gebruikt meer uitkomstmaten, zoals de tijd die nodig is om de test uit te voeren, en meer uitkomstresultaten. Testpsychologie schrijft voor dat er voldoende uitkomstmaten zijn, zodat de resultaten kunnen variëren. Wanneer de resultaten variëren, kunnen volgens de testpsychologie verschillen worden gedetecteerd. Een simpele geheugenprocedure waarbij je maar 2 woorden hoeft te onthouden, heeft te weinig variatie. Veel mensen zullen die 2 woorden onthouden, dus als hun geheugen verschilt, zal deze eenvoudige geheugentest dit niet kunnen detecteren.
Als er in de testpsychologie een procedure is ontwikkeld, is het essentieel om te gaan kijken welke resultaten er worden gevonden als je deze nieuwe test afneemt bij normale mensen (dat wil zeggen: die geen hersenletsel hebben, zogenaamd normale hersenen hebben) en bij hersenletsel patiënten. Je kunt natuurlijk niet alle mensen onderzoeken dus probeer je een representatieve steekproef te vinden.
Nogmaals, testpsychologie leert je dat een steekproef in veel relevante aspecten (d.w.z. leeftijd, opleiding, geslacht) vergelijkbaar moet zijn met de grotere populatie. Als een aandachtstest bijvoorbeeld bedoeld is voor volwassen patiënten, kan ik niet alleen kinderen onder de 12 jaar onderzoeken. Natuurlijk zullen ze heel anders zijn dan volwassenen en zullen de resultaten niet vergelijkbaar zijn.
Testpsychologie zegt niet veel over welke vorm tests kunnen hebben. Maar ik geef zeker de voorkeur aan computergestuurde tests omdat ze gemakkelijk af te nemen zijn en de meeste mensen ze leuk vinden. Ook maakt de computer geen fouten bij het vastleggen van de resultaten en levert deze de resultaten in een fractie van een seconde.
Helaas zijn de meeste psychologen niet zo handig met computers, dus werken ze nog steeds in zogenaamde papier-en-potloodformaten. Dergelijke instrumenten kosten meer tijd om af te nemen, er zijn meer fouten mogelijk bij het vastleggen van de resultaten en er is meer variatie mogelijk in de manier waarop de test wordt afgenomen (het is moeilijker om ze op exact dezelfde standaardmanier af te nemen).
Testpsychologie heeft veel (statistische) regels opgesteld waaraan neuropsychologische tests zich moeten houden. Een grondregel is dat een procedure betrouwbaar moet zijn, wat inhoudt dat als het de ene keer iets meet, het de andere keer op dezelfde manier moet kunnen meten (de zogenaamde test-hertest-betrouwbaarheid).
Deze test-hertestbetrouwbaarheid wordt vaak uitgedrukt in een correlatie: de correlatie tussen de eerste en de tweede afname van de test. De correlatiecoëfficiënt r moet rond de 0,70 of hoger liggen (=ideale situatie).
Net als een bloeddrukmanchet die om je bovenarm gaat om je bloeddruk te meten. U wilt natuurlijk dat uw bloeddruk betrouwbaar wordt gemeten, zodat u er zeker van bent dat verschillende resultaten het gevolg zijn van een verandering van uw bloeddruk in plaats van een meetfout.
Normaliter wordt de betrouwbaarheid bepaald door het instrument tweemaal toe te dienen aan dezelfde groep patiënten of gezonde mensen (de laatsten worden 'controles' genoemd omdat hun resultaten als dé normmaat worden genomen). In ideale omstandigheden zitten er maar enkele weken tussen de twee sessies omdat het essentieel is dat de patiënten of de gezonde mensen in deze periode niet veranderen. Anders kunnen de resultaten veranderd zijn, maar dan is het niet duidelijk of dit te wijten is aan de patiënten die in de tussentijd veranderd zijn of aan de instabiliteit van de test (meetfouten).
Helaas is het voor ontwikkelaars erg moeilijk om mensen te vinden die twee keer in een paar weken tijd een test willen ondergaan. Daarom is betrouwbaarheid in veel onderzoeken onderzocht in minder ideale omstandigheden en valt er soms niet veel over betrouwbaarheid te zeggen.
Neuropsychologische tests verschillen vaak in betrouwbaarheid. Er zijn testen waarbij het hertest-effect erg hoog is: de resultaten van de eerste en tweede toediening zijn zeer vergelijkbaar. Dit is bijvoorbeeld het geval wanneer je een test doet en snel ontdekt wat de 'truc' is, zodat je de volgende keer dat je de test doet hetzelfde of zelfs beter presteert dan de eerste keer.
Sommige eenvoudige geheugentests hebben dit 'probleem'. Als je 3 woorden moet onthouden en over ongeveer 2 weken moet je dezelfde 3 woorden onthouden, dan onthoud je ze waarschijnlijk vanaf de eerste sessie en zal je prestatie 100% zijn (het zogenaamde 'plafond-effect').
Een ander voorbeeld van problemen met de hertest-betrouwbaarheid zijn de zogenaamde executieve functietesten (=probleemoplossende test). Dergelijke procedures vereisen enig strategisch denkwerk waarbij je de 'truc' moet kennen. Als u zich bij de eerste afname van de test bewust wordt van deze truc, is de kans groot dat u de test de volgende keer dat u de test doet, veel beter zult doen. Een voorbeeld van zo'n executieve functietest is de Wisconsin Card Sorting-test. Het principe in deze test is uiterst eenvoudig en het helpt ook niet mee dat deze kennis zich tegenwoordig over het hele internet heeft verspreid.
De oplossing voor zulke ongewenste problemen met (hoge) test-hertestbetrouwbaarheid die ontwikkelaars en testpsychologie bieden, is het ontwikkelen van zogenaamde parallelle vormen: instrumenten die op elkaar lijken en door elkaar gebruikt kunnen worden. Maar het probleem met dergelijke vergelijkbare vormen is natuurlijk dat je ze minstens één keer moet toedienen aan alle patiënten en gezonde mensen. Dergelijke onderzoeken en normeringen zijn daarom zeldzaam en vaak maar bij slechts een handjevol mensen uitgevoerd.
Nogmaals, het praktische probleem is dat niet veel mensen zoveel vrije tijd hebben om in dit soort onderzoek te investeren. Het vinden van mensen om tests te doen is een zeer groot probleem voor ontwikkelaars. Mensen worden dus meestal betaald voor dergelijk onderzoek, of meestal worden alleen studenten gebruikt. Je begrijpt dat bij het toepassen van dat soort 'trucjes', het lang niet zeker is dat er een representatieve steekproef ontstaat.
Samengevat: in ideale omstandigheden zou de test-hertestbetrouwbaarheid van een neuropsychologische test hoog moeten zijn, minimaal .70. En dit zou niet zo moeten zijn vanwege een test die heel eenvoudig is uit te voeren, maar vanwege het feit dat de test inderdaad een cognitieve functie zo betrouwbaar meet dat een kleine verandering in deze functie inderdaad kan worden gemeten.
Volgens de theorie van de testpsychologie betekent validiteit dat een procedure inderdaad meet wat het zou moeten meten. Als ik een geheugentest wil gebruiken, moet ik er zeker van zijn dat dit inderdaad iets meet dat we 'geheugen' noemen. Als je vraagt om 3 woorden te onthouden, ligt dit nogal voor de hand. Maar als je vraagt om 15 woorden te onthouden en ze 5 keer te herhalen, is het iets minder duidelijk wat deze procedure meet. Bij deze taak zijn namelijk meer cognitieve processen (informatieverwerking) nodig, zoals aandacht, probleemoplossing en perceptie.
Validiteit is een van de meest uitdagende en moeilijke taken voor een ontwikkelaar en in de literatuur over testpsychologie is al veel geschreven over validiteit. Om echter te weten of een neuropsychologische test valide is, hebben we gedegen kennis nodig.
Onze wetenschappelijke kennis over hersenfuncties is echter nog zeer beperkt. In de neurowetenschappen hebben we geen ijzersterke modellen om uit te leggen wat elk hersengebied of elke functie precies doet. Daarvoor zijn onze tools nog vrij primitief en is ons brein veel te complex om te begrijpen. Daarom bestaan er ook meerdere verschillende modellen over het geheugen, aandacht, en probleemoplossing.
In studies proberen onderzoekers bewijs te vinden voor elk model en dergelijke studies worden in zeer uiteenlopende tijdschriften gepubliceerd. Het zou gemakkelijker zijn om slechts 2 of 5 tijdschriften te hebben, maar in plaats daarvan hebben we een paar honderd tijdschriften over hersenen en hersenletsel. We moeten dus enige consensus vinden over de verschillende hersenmodellen en dat is op zijn zachtst gezegd een uitdaging. Gelukkig lijken de meeste wetenschappers het eens te zijn over enkele specifieke modellen over je geheugen, aandacht en problemen oplossen. Er is dus wel enige consensus over verschillende hersenfuncties.
Maar als het gaat om het interpreteren van tests en wat ze zouden moeten meten, is consensus niet zo gemakkelijk te vinden. Elke onderzoeker gebruikt zijn eigen soort procedure om aan te tonen dat een specifiek model waar is. Het resultaat is dat er bij sommige 'standaard' neuropsychologische tests meerdere verschillende versies bestaan, soms meer dan 20! En als een testprocedure er hetzelfde uitziet maar andere instructies heeft of net iets anders is opgezet dan een andere versie, krijg je gegarandeerd andere resultaten.
Dat is geen betrouwbare wetenschap en het is zeker niet wat de testpsychologie aanbeveelt. Door de hoge publicatiedruk die op wetenschappers wordt uitgeoefend, kijken ze echter niet zo nauw of zorgvuldig naar deze 'kleine' details. Ze gaan er in hun studies gewoon vanuit dat de meeste testprocedures hetzelfde zijn, zodat ze iets kunnen blijven zeggen over een model van geheugen (of aandacht). Bovendien zijn neurowetenschappers geen testpsychologen.
Als neuropsychologische testontwikkelaar ben ik het absoluut niet eens met deze manier van wetenschap bedrijven, omdat voor mij het vinden van de waarheid, of in ieder geval het benaderen ervan, belangrijker is dan het publiceren van een artikel.
De huidige situatie is nog zorgwekkender omdat clinici afhankelijk zijn van wetenschappelijke tijdschriften. Hun keuzes worden dus beïnvloed door de wetenschap. En ik heb meer dan genoeg voorbeelden gezien van slechte (maar geaccepteerde) wetenschap die heeft geleid tot het gebruik van tests in neuropsychologisch onderzoek die in klinische settings echt nutteloos en zelfs slecht zijn.
Het trieste verhaal is dat het alleen maar erger wordt: doordat wetenschap grotendeels op basis van consensus werkt, worden er nog steeds veel slechte tests gebruikt. Er verschijnen veel proefschriften waarin conclusies worden getrokken op basis van gebrekkige (maar populaire) neuropsychologische tests. Dergelijke conclusies worden vervolgens gebruikt door jongere en meer onervaren clinici en uiteindelijk krijgen dergelijke conclusies de status van 'absolute' waarheid.
Op mijn pagina's over specifieke aandachtstests hoop ik dit soort 'onvolwassen' manieren van wetenschap bedrijven en werken in de klinische praktijk aan de kaak te stellen. En echt, ik kan het de wetenschappers niet kwalijk nemen, want ze zijn geen experts op het gebied van testpsychologie en ze zitten vast in een dwingend systeem van publicatiedruk.
Een andere regel uit de testpsychologie voor een goede neuropsychologische test is dat deze op een standaardmanier moet worden afgenomen. Wanneer instructies behoorlijk verschillen in een verder dezelfde testprocedure, kunnen de resultaten daardoor verschillen. Als u 10 woorden moet onthouden en ik geef u twee soorten instructies, zoals A. 'onthoud vooral de eerste 5 woorden' of B. 'onthoud alstublieft zoveel mogelijk', bestaat de mogelijkheid dat in één procedure er minder woorden worden onthouden (hoogstwaarschijnlijk in degene waar de focus wordt gelegd op de eerste 5 woorden, zodat er minder aandacht wordt besteed aan de andere woorden).
De meeste tests hebben inderdaad standaardinstructies die exact moeten worden uitgesproken zoals ze zijn opgeschreven. Psychologen zijn daarvoor opgeleid, zeker als ze cursussen testpsychologie hebben gevolgd. Bij neuropsychologisch onderzoek zijn dergelijke standaardinstructies van groot belang. Elke ogenschijnlijk kleine wijziging in de afname van een test kan de manier veranderen waarop iemand denkt of zijn aandacht richt. Dat kan direct tot een andere uitkomst leiden.
Als je een uitkomstmaat hebt zoals 5 woorden die je moet onthouden, is het gemakkelijk te begrijpen dat een kleine verandering in instructies kan leiden tot een relatief grote verandering in uitkomst als er maar 4 in plaats van 5 woorden worden onthouden.
Bij veel geheugentests worden woorden hardop uitgesproken door de onderzoeker, in een bepaald tempo (meestal wordt 1 seconde per woord aanbevolen). Het probleem met hardop spreken is echter dat elke stem uniek en dus anders is. Dit leidt tot verschillende articulaties van de te onthouden woorden. Zelfs het tempo verschilt per testleider. We weten dat het veranderen van tempo van invloed is op het herinneren van woorden in een lijst. Dus idealiter zouden woordenlijsten op een band moeten worden opgenomen. En afgespeeld met dezelfde recorder met exact dezelfde snelheid.
Een dergelijke perfecte standaardisatie, expliciet aanbevolen in de testpsychologie, wordt nog steeds niet gedaan, grotendeels vanwege het feit dat veel psychologen niet veel verstand hebben van computers of techniek. Maar het komt ook door de instructies bij veel tests, waarbij woorden of cijfers hardop moeten worden uitgesproken door de testleider.
Wanneer een test eindelijk beschikbaar is, in een standaardvorm, voldoende betrouwbaar en valide is, dan is het essentieel om te weten wat de resultaten betekenen. De belangrijkste vraag bij een neuropsychologische uitslag is: is het normaal of abnormaal? Behoort een score tot een normale populatie of behoort deze tot een groep hersenbeschadigde patiënten? En de tweede, gerelateerde vraag is: hoe abnormaal is deze score?
Ik kan hier best wel stellen dat de overgrote meerderheid van de meest gebruikte en bekende neuropsychologische testen onvoldoende genormeerd is. Dit betekent dat de normen meestal bevooroordeeld zijn, niet erg representatief voor een normale populatie en te oud. En dit is grotendeels te wijten aan het feit dat het normeren van tests een zeer tijdrovende en dus dure aangelegenheid is. En het is niet het werk van wetenschappers maar het werk van ontwikkelaars (uitgevers).
Er zijn zoveel verschillende neuropsychologische tests beschikbaar (met zoveel ontoereikende normen), dat het nauwelijks mogelijk is om te beslissen welke van hen genormeerd moeten worden. Het risico van het verspillen van veel geld - gemoeid met normering - wanneer u besluit een specifieke test te normeren die niet veel gebruikt zal worden, is relatief groot. Dit meer economische aspect van het ontwikkelen van neuropsychologische tests wordt niet veel besproken in handboeken over testpsychologie.
Met deze erbarmelijke stand van zaken leven we nu, over de hele wereld. Competitie, publiciteitsmoraal, egocentrisme, het heeft allemaal niet geleid tot een perfecte wetenschap waarin we allemaal een paar zeer goede neuropsychologische tests gebruiken die over de hele wereld worden ingezet en dus extreem goed genormeerd zijn.
Het menselijk ondernemen, het hoe van het maken en verspreiden van tests, is níet iets dat wordt onderwezen in cursussen testpsychologie. Maar mijn droom is nog steeds, dat het mogelijk is om sommige tests breed te gebruiken die dan extreem goed (wereldwijd) te normeren zijn.
En er zijn natuurlijk al testen die wereldwijd worden gebruikt (vooral de Wechsler-sets en de Delis-Kaplan-sets). Maar we hebben nog steeds geen groot reviewersforum waarin tekortkomingen van dergelijke tests worden besproken en suggesties voor verbeteringen worden gedaan. Dat is ook mijn missie met deze pagina's over testpsychologie, omdat ik ervan overtuigd ben dat dit wel degelijk (gratis) kan worden opgezet, met uw hulp.
Soms is het niet echt nodig om een test te normeren. Dit gebeurt wanneer u er vrij zeker van bent dat normale personen bijna 100% presteren bij een specifieke test. Dit is het geval bij gezichtsveldprocedures waarbij op een computerscherm flitsen met hoge snelheid worden weergegeven.
Uit de biologie weten we dat normale mensen gebouwd zijn om alle dingen in hun gezichtsveld te zien, vooral als die 'dingen' lichtflitsen zijn. Zelfs kinderen zien ze. Het is dus abnormaal om bij zo'n procedure meer dan bijvoorbeeld 2 flitsen (of prikkels zoals ze technisch worden genoemd) te missen. Het is niet nodig om dit met duizenden vrijwilligers te testen. Dergelijke redeneringen zie je echter niet vaak in boeken over testpsychologie.
Hetzelfde geldt voor simpele neurologische handelingen zoals het optillen van je rechterarm of het wijzen met je rechtervinger naar je neus met je ogen dicht. Van dergelijke ingrepen weten we al dat alle normale mensen (zonder hersenbeschadiging) ze perfect kunnen.
Idealiter zou een neuropsychologische test zo eenvoudig moeten zijn en tegelijkertijd onderscheid moeten kunnen maken tussen een gezond mens en iemand met hersenletsel. Dit soort testpsychologie, eigenlijk testfilosofie, zou meer onderwezen moeten worden zodat elke psycholoog de testopbouwfasen leert waarderen, en zodoende geïnspireerd kan worden om nog betere tests te ontwikkelen.
Een goede neuropsychologische test moet direct beschikbaar zijn en klanten (meestal clinici) moeten gemakkelijk kunnen zien waar deze te koop is. Helaas is dit nog steeds niet het geval.
Er is geen centrale database waar je snel kunt vinden waar je een instrument kunt krijgen. Ik gebruik twee grote handboeken om dit uit te zoeken. Soms is de uitgever echter failliet of geeft het boek achterhaalde informatie. Dan zou Google wellicht kunnen helpen. Soms kost het wat creativiteit en enige tijd om een test te vinden.
Een ander probleem met beschikbaarheid is dat een procedure niet echt commercieel verkrijgbaar is. Soms is er speciaal voor een onderzoek een testprocedure ontwikkeld en hebben de onderzoekers er geen moment aan gedacht dat deze procedure populair zou (kunnen) worden. Onderzoekers zijn natuurlijk geen testontwikkelaars of testuitgevers. Het is dus een probleem om zo'n nieuw ontwikkelde test te krijgen, omdat deze niet is ontwikkeld in een vorm die wijd verspreid kan worden.
Een ander criterium voor een neuropsychologische test bestaat wetenschappelijk gezien niet: klinische bruikbaarheid. Het is mijn persoonlijk criterium. Want toen ik zelf meer dan 3000 patiënten testte, en zo'n 300 normale personen, ontdekte ik dat een ingreep naast betrouwbaar en valide ook 'leuk' moet zijn. Wanneer iemand een toets niet leuk vindt, is de kans groot dat zijn prestatie veel minder dan optimaal is. Niet omdat iemand het niet kan, maar omdat iemand het niet wil of niet echt leuk vindt.
Als neuropsycholoog heb ik methodes om zulke vermindere motivatie op te sporen, maar bij gebruik van een niet zo vriendelijke test is het kwaad al geschied. Het enige wat ik dan kan zeggen is dat de testprestatie niet optimaal was door motivatieproblemen.
Het zou echter veel beter zijn om een test te hebben waarbij dergelijke motivatieproblemen helemaal geen probleem zouden zijn. Een testontwikkelaar moet hier goed over nadenken. Er zijn voorbeelden van tests waarbij de uitval inderdaad erg hoog is: mensen raken enorm gestresst en het resultaat is dat ze de test (of erger nog: ook andere tests) niet meer willen doen. Dit schaadt je neuropsychologisch onderzoek zodanig, dat er geen geldige conclusies kunnen worden getrokken over cognitieve (hersen)functies.
Vriendelijkheid of klinische bruikbaarheid is natuurlijk een beetje moeilijk te meten. Maar het is mijns inziens mogelijk om leuke testen te ontwikkelen waarbij de onderzochte zich niet overweldigd, teleurgesteld of boos voelt. Simpelweg omdat de testprocedure dat niet toelaat. Veel tests hebben bijvoorbeeld instructies om de test af te breken wanneer er 3 of meer fouten achter elkaar worden gemaakt. Dat wordt nadrukkelijk gedaan om stress en demotivatie te voorkomen.
Om een neuropsychologische test te evalueren kunnen verschillende criteria opgesteld worden. Ik heb een tabel gemaakt waarin ik verschillende criteria gebruik om neuropsychologische tests te evalueren. De meeste van deze criteria zijn gangbaar en worden ook gebruikt in handboeken zoals Strauss, Sherman en Spreen (2006).
Ik zal het hier echter gebruiken om elke test een bepaald aantal punten te geven. Hoe hoger een test scoort, hoe beter de test is. Dit doe ik om meerdere testen met elkaar te kunnen vergelijken.
Een classificatiesysteem op basis van punten spreekt gebruikers hopelijk meer aan en stimuleert testontwikkelaars om sneller een test te verbeteren of af te keuren.
Dit evaluatiesysteem dat ik heb samengesteld is geenszins definitief. Ik wil er graag mee beginnen om een kritischere kijk op tests te stimuleren en interactieve discussies met gebruikers, onderzoekers en ontwikkelaars op gang te brengen. Allemaal om ons neuropsychologisch arsenaal aan tests te verbeteren. Ik zal op mijn testpagina's een comment-based systeem toevoegen om dergelijke discussies te stimuleren en wellicht resulteert dit in een handig en nog beter (internationaal) testevaluatiesysteem. Dat zou fijn zijn. Al ben ik niet naïef: de meeste wetenschappers en/of ontwikkelaars zijn nog erg conservatief ingesteld...
Hierboven: de tabel met nieuwe evaluatiecriteria voor neuropsychologische tests
Standaardisatie
Een goede test moet overal en altijd hetzelfde zijn. Niet alleen in materialen, maar ook in de manier van scoren en afnemen van de toets.
In materialen:
0= onvoldoende. Materialen zijn zeer gevoelig voor degradatie door intensief gebruik of kopiëren. Voorbeelden zijn bandopnamen die op veel verschillende bandrecorders worden afgespeeld met verschillende geluiden en snelheden. Ook slijten en verliest de geluidskwaliteit snel bij intensief gebruik. Materialen zijn niet in de handel verkrijgbaar, dus er zijn op veel plaatsen allerlei soorten kopieën. Stimuli kunnen daarom gemakkelijk verschillend van elkaar klinken of er anders uitzien dan de oorspronkelijke stimuli die in normonderzoeken werden gebruikt.
1= Redelijk. Materialen zijn in één formaat in de handel verkrijgbaar maar toch zeer onderhevig aan slijtage (zoals bandopnamen). Stimuli kunnen nog steeds verschillend van elkaar klinken of er anders uitzien dan de oorspronkelijke stimuli die in normeringsonderzoeken werden gebruikt. Ofwel: materialen zijn maar ten dele gestandaardiseerd in een uniform formaat.
2= Goed. Alle materialen zijn in één formaat in de handel verkrijgbaar en niet of nauwelijks aan slijtage onderhevig. Voorbeelden zijn plastic materialen, computersoftware, geluids- of beeldopnamen op een computer.
Bij scoren:
0= onvoldoende. Het scoresysteem heeft niet genoeg duidelijke instructies, dus meerdere interpretaties zijn mogelijk, waardoor het risico op scoreverschillen tussen verschillende testers groter wordt. Alle scores moeten met de hand worden gedaan, dus fouten zijn mogelijk. Of het scoren met de hand duurt meer dan 20 minuten, waardoor het risico op vermoeidheid en fouten groter wordt.
1= Redelijk. Het scoresysteem heeft duidelijke instructies en meerdere interpretaties zijn bijna onmogelijk. Het scoresysteem moet echter met de hand worden uitgevoerd en duurt tot 20 minuten, waardoor het risico op vermoeidheid en fouten nog steeds toeneemt.
2= Goed. Het scoresysteem is volledig geautomatiseerd, dus fouten bij het scoren zijn niet mogelijk en het is in minder dan 1 minuut gedaan.
In de afname:
0= onvoldoende. Het afnemen van de test is zo ingewikkeld dat er behoorlijk wat training voor nodig is om het perfect te doen. Dit vergroot de kans op fouten. Of de administratie heeft onvoldoende duidelijke instructies waardoor het risico van verschillende administraties groot is.
1= Redelijk. De administratieregels zijn deels (grotendeels) uitgeschreven in de handleiding. Het risico van verschillende toedieningsformaten is nog steeds aanwezig maar door het gebruik van de handleiding vrij laag.
2= Goed. De instructies voor het afnemen van de test zijn kort en duidelijk geschreven in de handleiding of weergegeven op het computerscherm. Het risico van verschillende formaten bij het afnemen van de test is erg laag.
Normen
Een goede test moet voldoende solide normeringsgegevens hebben en er moet voldoende informatie worden gepresenteerd om de normeringsonderzoeken te evalueren.
Gezonde controles
0= niet beschikbaar of normen kunnen als te oud worden beschouwd en zijn vrijwel zeker niet meer geldig. Of geen gerapporteerde gegevens.
1= beschikbaar maar minder dan 100 controles, leeftijdsgroepen nauwelijks gestratificeerd, regionale vertegenwoordiging niet voldoende of vertekend, celgroottes tussen leeftijdsgroepen verschillen aanzienlijk of niet alle leeftijden vanaf 8 jaar zijn vertegenwoordigd.
2= beschikbaar en groepen zijn groter dan 100 controles, redelijk gestratificeerd, regionale vertegenwoordiging redelijk verdeeld, celgroottes over leeftijdsgroepen zijn redelijk gelijk verdeeld en alle leeftijden vanaf 8 jaar zijn vertegenwoordigd.
Patiënt groepen
0= niet beschikbaar of normen kunnen als te oud worden beschouwd en zijn vrijwel zeker niet meer geldig. Of geen gerapporteerde gegevens.
1= beschikbaar maar minder dan 100 patiënten, leeftijdsgroepen nauwelijks gestratificeerd, geen gelijke verdeling naar sekse of opleidingsniveau, regionale vertegenwoordiging niet voldoende of vertekend, celgroottes tussen leeftijdsgroepen verschillen sterk of niet alle leeftijden vanaf 8 jaar zijn vertegenwoordigd. Slechts 1 of 2 verschillende patiëntengroepen zijn vertegenwoordigd.
2= beschikbaar en groepen zijn groter dan 100 patiënten, redelijk gestratificeerd zowel qua opleidingsniveau als geslacht gelijkelijk verdeeld, regionale vertegenwoordiging redelijk verdeeld, celgroottes over leeftijdsgroepen zijn redelijk gelijk verdeeld en alle leeftijden vanaf 8 jaar zijn vertegenwoordigd. Er zijn meer dan 2 verschillende patiëntengroepen beschikbaar.
Internationale normen / betrokken landen
0= normen alleen beschikbaar voor land van herkomst. Of geen gerapporteerde gegevens.
1= normen ook beschikbaar in verschillende talen en/of landen
Betrouwbaarheid
Interne consistentie
0= onvoldoende. Betrouwbaarheidscoëfficiënt lager of gelijk aan .70. Of geen gerapporteerde gegevens.
1= Redelijk. Betrouwbaarheidscoëfficiënten tussen .70 en .85.
2= Goed. Betrouwbaarheidscoëfficiënt hoger of gelijk aan .85.
Test-hertest betrouwbaarheid
0= onvoldoende. Betrouwbaarheidscoëfficiënt lager dan .60. Of geen gerapporteerde gegevens.
1= Redelijk. Betrouwbaarheidscoëfficiënten tussen of gelijk aan .60 en .85.
2= Goed. Betrouwbaarheidscoëfficiënt hoger of gelijk aan .85. Nodig voor besluitvorming over één patiënt.
Split-half betrouwbaarheid
0= onvoldoende. Betrouwbaarheidscoëfficiënt lager dan .60. Of geen gerapporteerde gegevens.
1= Redelijk. Betrouwbaarheidscoëfficiënten tussen of gelijk aan .60 en .85.
2= Goed. Betrouwbaarheidscoëfficiënt hoger of gelijk aan .85. Nodig voor besluitvorming over één patiënt.
Parallelle testbetrouwbaarheid
Zie classificatieschema voor test-hertestbetrouwbaarheid
Validiteit
Convergente validiteit
0= onvoldoende. Betrouwbaarheidscoëfficiënten tussen test en andere soortgelijke tests lager dan .30. Er is geen factoranalyse of clustering van onderliggende factoren uitgevoerd. Geen gerapporteerde gegevens.
1= Redelijk. Betrouwbaarheidscoëfficiënten tussen of gelijk aan .30 en .40. Er is een factoranalyse uitgevoerd, maar de steekproef is kleiner dan 100.
2= Goed. Betrouwbaarheidscoëfficiënt hoger of gelijk aan .40. Factoranalyse of andere analyses uitgevoerd om onderliggende factoren te bestuderen in groepen groter dan 100 patiënten.
Afwijkende geldigheid
0= onvoldoende. Betrouwbaarheidscoëfficiënten tussen test en andere niet-vergelijkbare tests tonen correlaties van gemiddeld 0,40 of hoger. Of geen gerapporteerde gegevens.
1= Redelijk. Betrouwbaarheidscoëfficiënten liggen tussen of gelijk aan .30 en .40.
2= Goed. Betrouwbaarheidscoëfficiënten zijn lager dan .30 tussen de test en niet-vergelijkbare tests. De correlaties laten duidelijk een trend zien: dalend wanneer toetsen zich verwijderen van het zogenaamd beoordeelde domein.
Concurrente validiteit en predictieve validiteit
Zie het classificatieschema voor convergente validiteit
Sensitiviteit en specificiteit
Afhankelijk van wat de test zou moeten doen, hetzij het met zekerheid detecteren van een specifieke aandoening of het uitsluiten van een specifieke aandoening, kunnen de waarden van sensitiviteit of specificiteit veranderen.
0= lager dan 50% sensitiviteit en specificiteit; groepen zijn kleiner dan 100;
1= tussen 50 en 70% sensitiviteit en specificiteit; groepen zijn kleiner dan 100;
2= hoger dan 70% sensitiviteit en specificiteit en groepen zijn groter dan of gelijk aan 100.
Klinische bruikbaarheid of 'vriendelijkheid'
Beschikbaarheid
0= niet commercieel verkrijgbaar of beschikbaarheid sterk afhankelijk van de welwillendheid van één persoon of organisatie. Geen website beschikbaar.
1= beschikbaar als pro-deo product door enkele gepassioneerde onderzoekers of ontwikkelaars. Alleen per gewone post te bereiken. Geen website beschikbaar om de test te bestellen.
2= Heel gemakkelijk te verkrijgen dankzij een website met een bestelformulier. Meestal in de handel verkrijgbaar.
Gebruiksgemak voor de tester
0= Zeer ingewikkeld om af te nemen, er is relatief veel tijd nodig om de toetsafname onder de knie te krijgen. Bovendien vereist het afnemen van toetsen volledige concentratie om alle verschillende dingen perfect te doen.
1= Niet zo ingewikkeld om af te nemen, maar enige ervaring met testafname is vereist en computer- of handmatige vaardigheden zijn vereist om het perfect te doen.
2= Er is geen ervaring met testafname vereist of de afname duurt minder dan 5 minuten om te leren. Gewoonlijk is computerbeheer zo eenvoudig.
Bereik van gebruik
0= alleen de beste patiëntengroepen kunnen deze test vrij gemakkelijk doen vanwege de duur, complexiteit en het vermogen om patiënten te frustreren.
1= Alleen geschikt voor patiënten met voldoende visuele of motorische mogelijkheden.
2= Geschikt voor de meeste patiëntengroepen, ook voor slechtzienden of ernstig verstandelijk gehandicapten, of voor kinderen ouder dan 8 jaar
Heb jij hier een leuk verhaal, opmerkingen of toevoegingen over? Eentje die ook andere mensen zou kunnen helpen en vooral constructief is? Deel het dan alsjeblieft!
I will not take any responsibility for how the information on this website will affect you. It always remains your responsibility to handle all information with care and in case of medical or mental problems you should ALWAYS consult a professional in your neighbourhood!
Ik neem geen enkele verantwoordelijkheid voor hoe de informatie op deze site u zal beïnvloeden. Het blijft altijd uw verantwoordelijkheid om al deze informatie zorgvuldig te bekijken. In het geval van lichamelijke en/of mentale problemen dient u ALTIJD een professional in uw directe omgeving te waarschuwen!