Primární výhodou normoreferenčních testů je, že mohou poskytnout informace o tom, jak je výkon jednotlivce v testu srovnáván s ostatními v referenční skupině.
Vážným omezením norem-referenčních testů je, že referenční skupina nemusí představovat aktuální populaci, která nás zajímá. Jak uvádí web Oregon Research Institute International Personality Item Pool, „je třeba si dávat velký pozor na používání konzerv.“ normy „protože není zřejmé, že by bylo možné někdy najít populaci, jejíž současný vzorek je reprezentativní podmnožinou. Většina„ norem “je zavádějící, a proto by se neměly používat. Mnohem obhajitelnější jsou místní normy, které jeden se rozvíjí. Například pokud chce dát zpětnou vazbu členům třídy studentů, měl by vztahovat skóre každého jednotlivce k prostředkům a standardním odchylkám odvozeným od samotné třídy. Pro maximalizaci informativity může studentům poskytnout s frekvencí distribuce cy pro každou stupnici na základě těchto místních norem a jednotlivci pak mohou najít (a zakroužkovat) svá vlastní skóre v těchto relevantních distribucích. “
Odkazování na normy nezaručuje, že je test platný (tj. že měří konstrukci, kterou má měřit).
Další nevýhodou testů odkazujících na normy je, že nemohou měřit pokrok populace jako celku, pouze pokud jednotlivci spadají do celku. Spíše je třeba měřit proti pevně stanovenému cíli, například měřit úspěch vzdělávacího reformního programu, jehož cílem je zvýšit výsledky všech studentů.
U testu podle normy byla tradičně úroveň známek nastaveno na úrovni stanovené středními 50 procenty skóre. Naproti tomu se Národní nadace pro čtení dětí domnívá, že je nezbytné zajistit, aby prakticky všechny děti četly na třetí nebo vyšší úrovni třetí třídy, což je cíl, kterého nelze dosáhnout normativně definovanou úrovní ročníku.
Normy automaticky neimplikují standard. Test zaměřený na normu se nesnaží prosadit jakékoli očekávání toho, co by měli účastníci testu vědět nebo být schopni udělat. Měří současnou úroveň testovacích subjektů porovnáním testovacích testů s jejich vrstevníci. Systém založený na hodnostech produkuje pouze data, která říkají, kteří studenti dosahují průměrné úrovně, kterým studentům se daří lépe a kterým studentům horší výsledky. Neurčuje, kteří účastníci testu jsou schopni správně vykonávat úkoly na úrovni, která by byla přijatelná pro zaměstnání nebo další vzdělávání.
Konečným cílem klasifikace křivek je minimalizovat nebo eliminovat vliv variací mezi různí instruktoři stejného kurzu, což zajišťuje, že studenti v dané třídě jsou hodnoceni ve srovnání se svými vrstevníky. To také obchází problémy spojené s využitím více verzí konkrétního vyšetření, což je metoda často používaná tam, kde se data správy testů mezi jednotlivými částmi třídy liší. Bez ohledu na jakýkoli rozdíl v úrovni obtížnosti, skutečné nebo vnímané, klasifikační křivka zajišťuje vyvážené rozložení akademických výsledků.
Zakřivené hodnocení však může zvýšit konkurenceschopnost mezi studenty a ovlivnit jejich smysl pro spravedlivou schopnost třída. Studenti jsou obecně nejvíce rozrušení v případě, že křivka snížila jejich známku ve srovnání s tím, co by dostali, kdyby křivka nebyla použita. Aby se zajistilo, že se tak nestane, učitelé obvykle vynaloží úsilí, aby zajistili, že test bude dostatečně tvrdý, když mají v úmyslu použít klasifikační křivku, takže by očekávali, že průměrný student získá nižší hrubé skóre, než jaké mělo být použity v průměru na křivce, čímž je zajištěno, že křivka bude mít prospěch pro všechny studenty. Zakřivené známky tedy nelze slepě použít a je nutné je pečlivě zvážit a zvážit ve srovnání s alternativami, jako je známkování podle kritérií. Kromě toho neustálé zneužívání zakřivených hodnocení může upravit hodnocení špatně navržených testů, zatímco hodnocení by měla být navržena tak, aby přesně odrážela cíle učení stanovené instruktorem.