Den primära fördelen med normreferensprov är att de kan ge information om hur en persons prestanda på testet jämförs med andra i referensgruppen.
En allvarlig begränsning av normreferensprov är att referensgruppen kanske inte representerar den nuvarande befolkningen av intresse. Som påpekats av Oregon Research Institute ”International Personality Item Pool”, ”Man bör vara mycket försiktig med att använda konserver” normer ”för att det inte är uppenbart att man någonsin kan hitta en population av vars nuvarande urval är en representativ delmängd. De flesta” normer ”är vilseledande och därför bör de inte användas. Mycket mer försvarbara är lokala normer, som man utvecklar sig själv. Till exempel om man vill ge feedback till medlemmar i en klass elever, bör man relatera poängen för varje individ till medel och standardavvikelser som härrör från själva klassen. För att maximera informativitet kan man ge eleverna med frekvensen cy-distribution för varje skala, baserat på dessa lokala normer, och individerna kan sedan hitta (och cirkulera) sina egna poäng på dessa relevanta distributioner. ”
Normreferens säkerställer inte att ett test är giltigt (dvs. att det mäter konstruktionen det är avsett att mäta).
En annan nackdel med normrefererade test är att de inte kan mäta befolkningens framsteg som helhet, bara där individer faller inom helheten. Snarare måste man mäta mot ett fast mål, till exempel för att mäta framgången för ett utbildningsprogram som syftar till att höja elevernas prestation.
Med ett normrefererat test var betygsnivå traditionellt inställt på den nivå som ställs av de 50 mitten av poängen. Däremot anser National Childrens Reading Foundation att det är viktigt att försäkra att praktiskt taget alla barn läser på eller över klassnivå efter tredje klass, ett mål som inte kan uppnås med en normdefinierad definition av klassnivå.
Normer innebär inte automatiskt en standard. Ett normrefererat test syftar inte till att upprätthålla förväntningar på vad testtagarna borde veta eller kunna göra. Det mäter testtagarnas nuvarande nivå genom att jämföra testtagarna med deras kamrater. Ett rangbaserat system producerar endast data som visar vilka elever som presterar på en genomsnittlig nivå, vilka elever som gör det bättre och vilka elever som gör det sämre. Det identifierar inte vilka testpersoner som kan utföra uppgifterna korrekt på en nivå som skulle vara acceptabel för anställning eller vidareutbildning.
Det yttersta målet med graderingskurvor är att minimera eller eliminera påverkan av variation mellan olika instruktörer på samma kurs, så att eleverna i en given klass bedöms i förhållande till sina kamrater. Detta kringgår också problem förknippade med att använda flera versioner av en viss undersökning, en metod som ofta används där testadministrationsdatum varierar mellan klassavsnitt. Oavsett skillnad i svårighetsgrad, verklig eller upplevd, ger betygskurvan en balanserad fördelning av akademiska resultat.
Böjd betyg kan dock öka konkurrenskraften mellan studenter och påverka deras känsla av fakultets rättvisa i en klass. Studenterna är i allmänhet mest upprörda om kurvan sänkte deras betyg jämfört med vad de skulle ha fått om en kurva inte användes. För att säkerställa att detta inte händer anstränger lärarna sig vanligtvis för att se till att själva testet är tillräckligt svårt när de tänker använda en betygskurva, så att de förväntar sig att den genomsnittliga eleven får en lägre råpoäng än poängen som är användas som genomsnittet i kurvan, vilket säkerställer att alla elever drar nytta av kurvan. Således kan böjda betyg inte användas blindt och måste övervägas noggrant och övervägas jämfört med alternativ som kriterierelaterade betyg. Dessutom kan ständigt missbruk av böjda betyg justera betyg på dåligt utformade tester, medan bedömningar bör utformas för att korrekt återspegla de lärandemål som instruktören har ställt in.