Informácie

Prispôsobenie psychometrickej funkcie, keď sa údaje nehodia k sigmoidálnej zhode

Prispôsobenie psychometrickej funkcie, keď sa údaje nehodia k sigmoidálnej zhode


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Prispôsobujem psychometrickú funkciu množstvu údajov. Väčšina týchto údajov sa hodí k sigmoidálnej zhode (t. J. Účastníci môžu úlohu zvládnuť), ale niektorí jednotlivci túto úlohu absolútne nedokážu. Mám v pláne porovnať svahy získané z rôznych podmienok, ale narazil som na stenu s údajmi, ktoré nie je možné vykonať.

Podľa týchto údajov by mal byť sklon takmer rovný, nie? Údaje sú však skutočne hlučné a dochádza k nejakému podivnému prispôsobeniu - nakoniec dostávam chybne vysoké svahy. Používam pypsignifit, parametre, ktoré používam, sú uvedené nižšie. Máte nápad, ako tomu zabrániť?

num_of_block = 7 num_of_trials = 20 stimulus_intensities = [3, 7, 13, 20, 27, 32, 39] # úrovne stimulu percent_correct = [. 38, .75, .6, .43, .7, .65, .43] # percent správnych relácií 1-3 num_observations = [num_of_trials] * num_of_block # pozorovaní na blok dát = np.c_ [intenzita_ stimulu, percento_korektné, num_observations] nafc = 1 obmedzenia = („neobmedzené“, „neobmedzené“, „neobmedzené“, „beta“ (2,20) ') boot = psi.BootstrapInference (údaje, jadro = "ab", sigmoid = "gauss", priors = obmedzenia, nafc = nafc) boot.sample (2000) vytlačiť' pse ', boot.getThres ( 0.5) vytlačte 'sklon', boot.getSlope () vytlačte 'jnd', (boot.getThres (0.75) -boot.getThres (0.25))

To, čo hľadáte, sa nazýva hierarchický, viacúrovňový alebo náhodný efektový model. Vo vašom konkrétnom prípade je riešením hierarchická logistická regresia.

Predpokladajme, že $ y_ {st} v {0,1 } $ je odpoveď subjektu $ s $ na skúšku $ t $ a $ x $ je závislá premenná, potom jednoduchý hierarchický model, ktorý rieši váš problém, je:

$ y_ {st} sim mathrm {Bernoulli} ( mathrm {logit} ( alpha_s+ beta_s x)) $

$ beta_s sim mathcal {N} ( mu, sigma) $

kde $ mu $ je populačná hodnota sklonu a $ beta_s $ je odhad úrovne subjektu. Približne $ mu $ je vážený priemer všetkých $ beta_s $, kde hmotnosť každého $ beta_s $ je nepriamo úmerná odchýlke odhadu $ beta_s $. Podrobnejšie informácie o hierarchickej logistickej regresii a rozšíreniach jednoduchého modelu, ktoré som navrhol vyššie, nájdete v kapitole 14 Gelman & Hill (2006).

Podľa týchto údajov by mal byť sklon takmer rovný, nie?

Nie. Sklon by mal byť neistý. Plochý svah vyzerá inak, povedzme $ (10,0,61), (20,0,59), (30,0,6), (40,0,58), (50,0,6) $. Zodpovedajúci odhad $ beta $ by mal zobrazovať široký interval, takže nemôžete dospieť k záveru, že $ beta> 0 $ alebo $ beta <0 $ alebo $ beta = 0 $ (ako ste navrhovali).

Ako zvládne hierarchický model také neisté $ beta_s $? Tieto $ beta_s $ málo prispejú k odhadu $ mu $. Namiesto toho bude $ beta_s $ za tento konkrétny predmet stiahnuté smerom k $ mu $. Hierarchický model vám efektívne povie, že ak sú vaše údaje nepresvedčivé, bude iba predpokladať, že subjekt je typickým členom populácie (to znamená, ak by sa spoľahlivo odhadol $ mu $), a zahodí chybné údaje.

Literatúra: Gelman, A., & Hill, J. (2006). Analýza údajov pomocou regresných a viacúrovňových/hierarchických modelov. Cambridge University Press.


Jadrom veci je skutočnosť, že 60% odpovedí „áno“ nezávislých od úrovne stimulu (tj. Problematické údaje) môže pochádzať z extrémne citlivého subjektu (tj. Zo strmého svahu) s miernym predpojatím a vysokým oneskorením. rýchlosťou a extrémne necitlivým predmetom (tj. malý svah) s miernym predpätím a nízkou frekvenciou záberu. Pokiaľ ide o vaše údaje, prispôsobenie sa strmému svahu/vysokej dobehu je o niečo lepšie ako plytkému svahu/nízkej frekvencii, keď je váš predchádzajúci počet intervalov založený na rozdelení beta. Tipujem, že ak ste použili jednotnú hodnotu predchádzajúceho času a pravdepodobne aj rýchlosť uhádnutia, výsledkom bude lepšie prispôsobenie sa plytkému svahu. Skúsil by som niečo ako „Uniform (0,0,1)“.


↵ † Komu by mala byť adresovaná korešpondencia. E-mail: galériaruccs.rutgers.edu.

Tento príspevok je súčasťou špeciálnej série inauguračných článkov členov Národnej akadémie vied zvolených 30. apríla 2002.

Skratky: CS, podmienený podnet USA, nepodmienený podnet.

Pozrite si sprievodný životopis na strane 13121.

To ¶ Ako odhadnúť asymptotu je do istej miery problematické, pretože podmienené klovanie sa zdá byť asymptoticky nestabilné (pozri Obojsmerné zmeny vo výkone po akvizícii). Výsledky, ktoré sa majú uviesť, sú približne rovnaké, ak sa použijú iné odhady asymptoty (napríklad odhad asymptoty z najlepšie vyhovujúcej Weibullovej funkcie). Lepší termín ako asymptota by bol „priemerná sila výkonu po akvizícii“, ale je to ťažkopádne riešenie.

Odlišné matematické charakteristiky týchto dvoch reprezentácií údajov vylučujú použitie presne tej istej miery dynamického intervalu v oboch prípadoch. Funkcia Weibull je iba 0, keď sú skúšky alebo čas = 0. Reprezentácia po sebe idúcich krokov môže prekročiť danú úroveň viac ako raz.


Senzorické prahy, odchýlky odozvy a neurálna kvantová teória ☆

Senzorické diferenciálne prahy sú študované modelmi, ktoré rozdeľujú senzorický proces do dvoch po sebe nasledujúcich etáp: detekčná fáza nezávislá na motivačných premenných a rozhodovacia fáza, ktorá vyberá odpoveď pomocou motivácií a očakávaní pozorovateľa.

Uvažovaným detekčným modelom je neurálna kvantová teória. Na detekčný model sa používa niekoľko rozhodovacích modelov a analyzuje sa existujúca psychofyzická literatúra relevantná pre prahové hodnoty.

Dva aspekty údajov, krivky psychometrickej funkcie a izosenzitivity (prevádzková charakteristika prijímača), sa skúmajú pre tri rôzne experimentálne podmienky: (1) experiment s detekciou áno-nie (2) experiment s náhodnou prezentáciou a (3) s dvoma alternatívami dočasný experiment nútenej voľby.

Úlohou pozorovateľa je rozhodnúť, či je konkrétne pozorovanie spôsobené signálom alebo šumom. V jednej rozhodovacej stratégii, prísnom kritériu, pozorovateľ hlási signál iba vtedy, ak zistí nárast počtu excitovaných stavov pri úniku k. Iná rozhodovacia stratégia navrhuje zaujatosť reakcie: pozorovateľ hlási signál s pravdepodobnosťou tk ak sa počet excitovaných stavov zvýši presne k. Tento model poskytuje vysvetlenie spôsobu, akým sa psychometrické funkcie kvantovej teórie transformujú zmenami v experimentálnom postupe.

Tento výskum bol podporený grantom Národnej vedeckej nadácie pre University of Pennsylvania, NSF G-17637 a zmluvou medzi Úradom pre námorný výskum a University of Pennsylvania, NONR-551. Príprava tohto príspevku bola dokončená v Harvardskom centre kognitívnych štúdií.


Neparametrické testy rovnosti psychometrických funkcií

Mnoho empirických štúdií meria psychometrické funkcie (krivky popisujúce, ako sa výkonnosť pozorovateľov líši podľa veľkosti stimulu), pretože tieto funkcie zachytávajú efekty experimentálnych podmienok. Na posúdenie týchto účinkov sú k údajom často priradené parametrické krivky a porovnania sa vykonávajú testovaním na zhodnosť priemerných odhadov parametrov naprieč podmienkami. Tento prístup je parametrický, a preto je citlivý na porušenie implikovaných predpokladov. Okrem toho môže byť testovanie rovnosti priemerov parametrov zavádzajúce: Psychometrické funkcie sa môžu v rôznych podmienkach významne líšiť na základe pozorovateľa od pozorovateľa bez vplyvu na priemerné hodnoty odhadovaných parametrov. Na posúdenie rovnosti psychometrických funkcií ako takých sú teda potrebné alternatívne prístupy. Tento článok porovnáva tri neparametrické testy, ktoré sú použiteľné vo všetkých záujmových situáciách: Existujúci zovšeobecnený test Mantel – Haenszel, zovšeobecnenie testu Berry – Mielke, ktorý tu bol vyvinutý, a tu bol vyvinutý aj rozdelený variant zovšeobecneného testu Mantel – Haenszel . Ich štatistické vlastnosti (presnosť a výkon) sa študujú pomocou simulácie a výsledky ukazujú, že všetky testy sa nedajú rozlíšiť z hľadiska presnosti, ale líšia sa nejednotne, pokiaľ ide o výkon. Empirické použitie testov je ilustrované analýzami publikovaných súborov údajov a sú uvedené praktické odporúčania. Počítačový kód v matlabe a R na vykonanie týchto testov je k dispozícii ako elektronický doplnkový materiál.

Veľký počet empirických štúdií v rôznych oblastiach výskumu vyžaduje meranie výkonu pozorovateľov pri niektorých úlohách ako funkciu veľkosti stimulu. Výkon je najčastejšie vyjadrený ako správny pomer v súbore pokusov na každej úrovni stimulu a tieto údaje popisujú to, čo je známe ako psychometrická funkcia: Krivka udávajúca, ako sa správny podiel líši od úrovne stimulu. V ostatných prípadoch sú reakcie pozorovateľov na každú skúšku rozsudkami v troch alebo viacerých kategóriách, ktoré nie sú (alebo nemôžu byť) klasifikované ako správne alebo nesprávne. Napriek tomu súbor psychometrických funkcií stále opisuje výkon tým, že naznačuje, ako sa podiel reakcií v každej kategórii líši podľa úrovne stimulu. Väčšina štúdií sa zameriava na posúdenie toho, ako sa výkonnosť líši v experimentálnych podmienkach (s použitím návrhov medzi subjektmi alebo medzi subjektmi) alebo v rámci skupín definovaných podľa premenných subjektu (v ex post facto návrhy). Na dosiahnutie týchto cieľov je potrebné psychometrické funkcie porovnať medzi skupinami alebo experimentálnymi podmienkami a na tento účel je k dispozícii niekoľko možností.

Jedna možnosť pozostáva z prispôsobenia modelových kriviek na zhrnutie výkonnosti každého pozorovateľa pomocou parametrov modelu (zvyčajne umiestnenie a sklon psychometrickej funkcie). Akonáhle je to hotové, odhady parametrov (alebo ich transformácie) sú podrobené porovnaniu medzi skupinami alebo experimentálnymi podmienkami prostredníctvom t testy alebo ANOVA (pozri napr. Donohue, Woldorff, & amp Mitroff, 2010 Gil, Rousset, & amp Droit-Volet, 2009 Lee & amp Noppeney, 2014 Tipples, 2010 Vroomen & amp Stekelenburg, 2011). Platnosť tohto parametrického prístupu spočíva na primeranosti vybraných modelových kriviek a na dobrej zhode s údajmi každého pozorovateľa, ak tieto podmienky neplatia, porovnávania sú ohrozené. Ďalším problémom tohto prístupu je, že netestuje rovnosť psychometrických funkcií ako takých: Testuje iba rovnosť priemeru odhadovaných parametrov, čo môže platiť, aj keď sa psychometrické funkcie systematicky líšia v rôznych podmienkach na pozorovateľovi. -pozorovateľský základ.

Stále parametrická, ale menej prísna možnosť pozostáva z definovania K veličiny stimulu, pri ktorých sa zbierali údaje ako hladiny faktora opakovaných meraní pre ANOVA. Keď každá skúška umožňuje iba binárnu odpoveď (napr. Správnu alebo nesprávnu), závislou premennou je podiel, povedzme, správnych odpovedí. Tieto ANOVA zvyčajne zahŕňajú ďalšie opakované opatrenia alebo zoskupovacie faktory, ako to vyžaduje návrh štúdie (pozri napr. Capa, Duval, Blaison, & amp Giersch, 2014 Droit-Volet, Bigand, Ramos, & amp Oliveira Bueno, 2010 Gable & amp Poole, 2012 Wilbiks & amp Dyson, referencie 2013 uvedené v predchádzajúcom odseku tiež uviedli ANOVA tohto typu). Táto stratégia umožňuje testovanie rovnosti psychometrických funkcií priamo naprieč týmito ďalšími faktormi a ich interakciou, pretože je vopred jasné, že správny pomer sa bude líšiť naprieč úrovňami stimulov. Použitie tejto stratégie je však obmedzené na prípady, v ktorých sú povolené iba dve kategórie odpovedí. Na druhej strane parametrické predpoklady ANOVA neplatia, ak sú údaje proporciami, okrem takmer istého porušenia predpokladov homoscedasticity a sférickosti za takýchto podmienok.

Existujú situácie, v ktorých sú tieto parametrické prístupy buď nepoužiteľné alebo neodporúčané. Napríklad v dizajnoch v rámci subjektov sa psychometrické funkcie merajú pre každého pozorovateľa za niekoľkých experimentálnych podmienok. Vzhľadom na to, že výkon sa vo všeobecnosti medzi pozorovateľmi veľmi líši, agregácia údajov medzi nimi na porovnanie podmienok pridáva zbytočné odchýlky v chybách, a preto sú potrebné testy rovnosti psychometrických funkcií v rôznych podmienkach na báze pozorovateľ za pozorovateľom. To isté platí, keď je potrebné zozbierať údaje pre každú podmienku z niekoľkých relácií s každým pozorovateľom, čo vyžaduje analogický test rovnosti psychometrických funkcií medzi reláciami pred agregáciou údajov od všetkých pozorovateľov. Parametrické prístupy nie sú vo všetkých týchto prípadoch aplikovateľné a ANOVA pre kategorické premenné (označované ako CATANOVA Anderson & amp Landis, 1980 Onukogu, 1985a, b) sa môže zdať vhodné, ale ukážeme, že CATANOVA nemeria až do očakávaného výkonu.

Práca popísaná v tomto článku sa zamerala na vývoj troch úplne neparametrických testov rovnosti psychometrických funkcií a na posúdenie ich štatistických vlastností (presnosť a sila). Testy boli navrhnuté tak, aby boli použiteľné pre údaje zozbierané na K ≥ 2 úrovne stimulu v každom z Ja ≥ 2 podmienky s úlohou, ktorá to umožňuje J ≥ 2 kategórie odpovedí v každom klinickom skúšaní. Tieto testy sú všeobecnejšie než tie, ktoré navrhli Logvinenko, Tyurin a Sawey (2012), ktorých použiteľnosť je obmedzená na situácie, v ktorých Ja = J = 2 a ktorý je necitlivý na určité rozdiely medzi psychometrickými funkciami. Tri testy sú uvedené v ďalšej časti, po ktorej nasleduje opis simulačnej štúdie, ktorá hodnotila presnosť a výkon každého testu. Výsledky sú predložené a prediskutované bezprostredne potom, za ktorými nasleduje krátka časť dokumentujúca nevhodnosť CATANOVE. Príklady aplikácie týchto testov sú uvedené pomocou publikovaných údajov z niekoľkých štúdií, vrátane porovnávacích príkladov výsledkov našich neparametrických testov a konvenčného parametrického prístupu. Pred našou záverečnou diskusiou sú predstavené praktické odporúčania. Počítačový kód na vykonanie týchto testov v matlabu a R je dostupný ako elektronický doplnkový materiál.


Teória

Gaussove procesy (GP) je možné použiť na modelovanie pravdepodobnostných záverov o niektorých funkciách, ktoré nás zaujímajú f(X). To znamená, že namiesto jednoduchého vytvárania bodového odhadu ( widehat(x) ), všeobecný lekár vráti rozdelenie pravdepodobnosti p(f). Užívateľ môže tiež kódovať znalosti špecifické pre doménu f prostredníctvom predchádzajúcej distribúcie. Praktický lekár potom môže byť podmienený pozorovanými údajmi (D = < left <_i,_i vpravo >> _^n ) na vytvorenie neskoršej distribúcie p(f|D). Formálne je GP súbor náhodných premenných tak, že spoločná distribúcia akejkoľvek konečnej podskupiny týchto premenných je viacrozmerná gaussovská distribúcia (Rasmussen & amp Williams, 2006). Je koncepčne jednoduchšie uvažovať o všeobecných lekároch ako o rozdelení funkcií. Rovnako ako je premenná odvodená z gaussovského rozdelenia určená priemerom a rozptylom distribúcie - to znamená, p(X) ∼ N.(μ, σ 2) - funkcia vyvodená z distribúcie GP je špecifikovaná priemernou a jadrovou funkciou GP - to znamená, p(f) ∼ GP(μ(X), K(X, X′)). Priemerná funkcia kóduje centrálnu tendenciu funkcií odvodených z GP, zatiaľ čo funkcia jadra kóduje informácie o tvaroch, ktoré tieto funkcie môžu mať okolo priemeru. Funkcie jadra sa môžu veľmi líšiť v konštrukcii a majú veľký vplyv na neskoršiu distribúciu praktického lekára. Funkcie jadra sú zvyčajne navrhnuté tak, aby vyjadrili presvedčenie, že „podobné vstupy by mali vytvárať podobné výstupy“ (Duvenaud, 2014). Model GP je možné použiť v klasifikačných aj regresných nastaveniach a umožňuje kondicionovanie predchádzajúcich presvedčení po pozorovaní údajov s cieľom vytvoriť nové neskoršie presvedčenie o hodnotách funkcií prostredníctvom Bayesovej vety:

GP model pre odhad audiogramu poskytuje pravdepodobnostné odhady pravdepodobnosti detekcie tónu, čo je vo svojej podstate klasifikačná úloha. Na správnu konštrukciu rámca pre klasifikáciu GP je však vhodné najskôr preskúmať regresiu GP.

Pri typickom viacrozmernom regresnom probléme pozorované vstupy X a pozorované výstupy r naberať skutočné hodnoty a súvisia prostredníctvom nejakej funkcie f, ku ktorému máme prístup iba prostredníctvom hlučných pozorovaní. Tento príklad pre jednoduchosť predpokladá, že hluk je čerpaný nezávisle a identicky z gaussovského rozdelenia so strednou hodnotou 0 a štandardnou odchýlkou s:

GP podľa definície znamená spoločné rozdelenie na funkčné hodnoty akéhokoľvek súboru vstupných bodov:

Ešte dôležitejšie je, že praktickí lekári nám umožňujú podmieniť prediktívne rozdelenie nad neviditeľné body X* na (možno hlučných) pozorovaniach z f. Nechaj r = f(X) + ε byť hlučné pozorovania f na tréningových vstupoch X, a nechaj f*=f(X*) sú testovacími výstupmi, ktoré vás zaujímajú. Potom je spoločná distribúcia implikovaná GP

Aplikácia výnosov Bayesovej vety

(Rasmussen & amp Williams, 2006). Nasledujúce priemerné a kovariančné funkcie odrážajú predchádzajúce predpoklady a informácie obsiahnuté v pozorovaniach.

Pri klasifikačných problémoch sa cieľová funkcia presúva z vytvárania výstupov s reálnou hodnotou do diskrétneho priestoru, kde ri môže absolvovať iba fixný počet tried C.1, C.2, ⋯, C.m. Zvlášť zaujímavý je tu špeciálny prípad binárnej klasifikácie, v ktorom výstupy môžu mať jednu z dvoch tried: ri ∈ <0, 1>. Metódy lineárnej klasifikácie predpokladajú, že triedou podmienená pravdepodobnosť zaradenia do „pozitívnej“ triedy je nelineárnou transformáciou základnej funkcie známej ako latentná funkcia, ktorý uplatňuje nasledujúcu transformáciu na pravdepodobnosť:

Pozorovacou funkciou Φ môže byť akákoľvek sigmoidálna funkcia. Bežné voľby sigmoidálnych funkcií zahŕňajú logistickú funkciu ( Phi (w) = frac < exp (w)> <1+ exp (w)> ) a kumulatívny gaussovský ( Phi (w) = podskupina <- infty> < presah< int >> frac < exp vľavo (-^2 vpravo)> < sqrt <2 pi >> dz ). Je potrebné vziať do úvahy ešte jednu komplikáciu problému klasifikácie všeobecných lekárov. Za predpokladu, že pozorovania sú podmienene nezávislé vzhľadom na hodnoty latentnej funkcie, Bayesova veta uvádza neskoršie rozdelenie ako

kde Z je normalizačný faktor, ktorý je aproximovaný v nižšie uvedených schémach.V regresnom nastavení je ľahké pracovať so zadnou distribúciou priamo, pretože je výsledkom gaussovského prior a gaussovskej pravdepodobnosti. Pravdepodobnosť je však v klasifikačnom prostredí sigmoidálna a súčin gaussovskej distribúcie so sigmoidálnou funkciou nevytvára traktovateľnú zadnú distribúciu. Aby sa využili výpočtové výhody rámca odhadu GP, model sa musí namiesto toho aproximovať s Gaussovou distribúciou. Bežné aproximačné schémy zahŕňajú Laplaceovu aproximáciu a šírenie očakávania (Rasmussen & amp Williams, 2006). Laplaceova aproximácia pokúša sa aproximovať zadnú distribúciu prispôsobením Gaussovej distribúcie na Taylorovu expanziu druhého rádu zadnej časti okolo jej priemeru (Williams & amp Barber, 1998). Šírenie očakávania pokúša sa aproximovať zadnú distribúciu porovnaním prvého a druhého momentu - priemeru a rozptylu - zadnej distribúcie (Minka, 2001).

Ako už bolo spomenuté, funkcie jadra kódujú informácie o tvare a plynulosti funkcií čerpaných z praktického lekára. Aj keď samotný GP je neparametrický model, mnohé funkcie jadra majú parametre Θ, označované ako hyperparametre. Úprava hyperparametrov má značný vplyv na prediktívne rozloženie praktického lekára. Napríklad obľúbené štvorcové exponenciálne jadro je parametrizované svojou stupnicou dĺžky ℓ a rozptylom výstupu σ (Rasmussen & amp Williams, 2006):

Modelové presvedčenie o hyperparametroch je opäť možné vypočítať podľa Bayesovej vety:

kde p(Θ |H) je predchádzajúci hyperparameter, ktorý je možné použiť na kódovanie znalostí domény o nastaveniach hyperparametrov, alebo môže zostať neinformatívny (Rasmussen & amp Williams, 2006). Stanovenie neskoršej distribúcie je často výpočtovo neriešiteľné, a preto je možné nastavenia hyperparametrov zvoliť pomocou optimalizačných algoritmov, ako je napríklad gradientový zostup.

Jednou pozoruhodnou výhodou modelu GP je, že jeho pravdepodobnostné predpovede umožňujú súbor techník spoločne známych ako aktívne učenie. Aktívne vzdelávanie, niekedy nazývané aj „optimálny experimentálny dizajn“, umožňuje modelu strojového učenia vyberať údaje, ktoré vzorkuje, aby lepšie fungoval s menším počtom školení (Settles, 2009). Na rozdiel od adaptívnych techník sú otázky prostredníctvom aktívneho učenia zvolené tak, aby sa minimalizovala nejaká stratová funkcia. Aktívny postup učenia môže napríklad vybrať dotaz navrhnutý tak, aby minimalizoval očakávanú chybu modelu oproti latentnej funkcii. Všeobecne platí, že aplikácia aktívneho učenia prebieha nasledovne: Najprv použite existujúci model na klasifikáciu nepozorovaných údajov, nájdite najlepší nasledujúci bod na dotaz na základe nejakej objektívnej funkcie a vyhľadajte údaje prostredníctvom orákula (napr. ľudský odborník), nakoniec preškoľujte klasifikátor a opakujte tieto kroky, kým nebudete spokojní.

Najbežnejšou formou aktívneho učenia je vzorkovanie neistoty (Lewis & amp Gale, 1994 Settles, 2009). Modely využívajúce vzorkovanie neistoty budú dotazovať oblasti vo vstupnej doméne, v ktorých je model najistý. V prípade pravdepodobnostnej klasifikácie vzorkovanie neistoty zodpovedá dotazovaniu inštancií, pre ktoré je pravdepodobnosť, že budú susediacimi triedami, najbližšie k 0,5. Táto metóda môže rýchlo identifikovať hranicu triedy pre cieľovú funkciu, ktorá nás zaujíma, ale pretože sa vzorkovanie neistoty pokúša presne zistiť, kde p(r = 1|X) = 0,5 (v binárnom prípade), model nepreskúma vstupný priestor. V kontexte psychometrických polí nie je prechod z jednej triedy do druhej (t. J. Psychometrické rozpätie) v tomto prípade tak ľahko odhadnutý (Song et al., 2018).

Bayesovské aktívne učenie nesúhlasom (BALD) sa pokúša tento problém obísť pomocou informačno-teoretického prístupu (Houlsby, Huszár, Ghahramani, & amp Lengyel, 2011). Informačno-teoretická optimalizácia bola úspešná pri implementácii efektívneho parametrického percepčného modelovania, najskôr pre unidimenzionálne (Kontsevich & amp Tyler, 1999) a potom pre multidimenzionálne (DiMattina, 2015 Kujala & amp Lukka, 2006) psychometrické funkcie. Implementácia tu používanej metódy BALD (Garnett, Osborne, & amp Hennig, 2013) predpokladá existenciu niektorých hyperparametrov, ktoré riadia vzťah medzi vstupmi a výstupmi p(r|X, Θ). Pri vykonávaní regresie GP napríklad so štvorcovým exponenciálnym jadrom by Θ predstavovali hyperparametre dĺžky a rozptylu výstupu. Podľa bayesovského rámca je možné vyvodiť neskoršiu distribúciu cez hyperparametre p(Θ |D). Každé možné nastavenie Θ predstavuje jasnú hypotézu o vzťahu medzi vstupmi a výstupmi. Cieľom metódy BALD je čo najrýchlejšie znížiť počet životaschopných hypotéz minimalizáciou entropie zadnej distribúcie Θ. Za týmto účelom sa BALD pýta na vec X čo maximalizuje pokles očakávanej entropie:

kde H[Θ |D] je Shannonova entropia Θ daná D. Tento výraz môže byť ťažké priamo vypočítať, pretože latentné parametre často existujú vo vysokorozmernom priestore, ale je ich možné prepísať pomocou entropií v jednorozmernom výstupnom priestore (Kujala & amp Lukka, 2006):

Tento výraz je možné vypočítať v lineárnom čase, čo uľahčuje prácu s ním v praxi. BALD vyberie X pre ktorý je celý model najistý r (t.j. vysoká H[r|X]), ale pre ktoré sú jednotlivé predpovede dané nastavením hyperparametrov veľmi sebavedomé. To možno interpretovať ako „hľadanie X u ktorých sa [hyper] parametre v zadnej časti najviac nezhodujú na výsledku “(Houlsby et al., 2011).


Metódy

Adaptívne postupy (schodiská) boli simulované pomocou účastníkov modelu so známou (veridickou) základnou psychometrickou funkciou popísanou kumulatívnou Weibullovou funkciou (hladká krivka na obr. 1A a ekv. (1)) pomocou softvéru Matlab (The Mathworks Inc., Natick, MA, USA). Formulácia Weibullovej funkcie udávajúca pravdepodobnosť, p (x)Správna indikácia intervalu signálu na akejkoľvek danej úrovni stimulu je: (1) p x = 1 - 1 - g exp - k x t β, kde X je úroveň stimulu, t je prahová hodnota (t. j. úroveň stimulu v teoretickom konvergenčnom bode adaptačného postupu, napr. t = 10 pre výkon konvergujúci asymptoticky na 70,7% správne na obr. 2A), 1 β určuje sklon psychometrickej funkcie, g je pravdepodobnosť správnosti pri náhodnom výkone (0,5 pre úlohu 2 AFC) a k je daná: (2) k = - log 1 - c 1 - g 1 β.

Obrázok 2: Účinky počtu obrátení, sklonu, veľkosti kroku a pravidla nastavenia na typický postup pri schodisku.

Parameter c je určené pravidlom sledovania schodiska-zodpovedá bodu, v ktorom sa postup teoreticky zblíži, napríklad na 70,7% pre naše 2-dole, 1-hore schodisko. Parameter sklonu, β, je zvyčajne neznámy, ale je opravený v každej z našich simulácií.

Každá simulácia začala úrovňou stimulu nastavenou na trojnásobok (známeho) prahu modelového subjektu. Hodnota stimulu bola upravená test po teste podľa reakcií modelu a pravidla úpravy a veľkosti schodiska. Napríklad pre úroveň stimulu zodpovedajúcu 80% správnosti základnej veridickej psychometrickej funkcie by modelový subjekt mal 80% pravdepodobnosť, že bude správne reagovať v každom pokuse, v ktorom bola táto úroveň stimulu použitá pri simulácii. Distribúcie prahových odhadov boli vyrobené pomocou 1 000 simulácií daného adaptívneho postupu s rovnakou veľkosťou kroku, pravidlom zastavenia a spôsobom odhadu prahu. Použili sme 1 000 simulácií, pretože pilotné testovanie ukázalo, že toto číslo prinieslo stabilné výsledky. Potom sa vykonali analýzy účinkov počtu zvratov použitých na odhad prahu, pravidla úpravy a konzistencie odozvy.

Na simulácie odhadu prahu za normálnych podmienok (t.j. stabilná odozva) mal účastník modelu vždy prah t = 10, a pokiaľ nie je uvedené inak, sklon β = 1. Pre väčšinu simulácií bolo použité schodisko 2-krát, 1-hore s krokom 1 dB (Levitt, 1971). Skúmali sa účinky pravidla zastavenia (tj. Počet zvratov do konca), pre 10, 20 a 100 zvratov - zvolených preto, že 10 alebo 20 zvratov sa bežne používa v literatúre o senzorickom spracovaní pri vývojových poruchách, ako je dyslexia, príklad. Sto zvratov presahuje počet, ktorý sa bežne používa aj v podrobných psychofyzických štúdiách vyškolených dospelých. Skúmali sa tiež účinky veľkosti kroku postupu (2 dB alebo 1 dB) a pravidla jeho úpravy (2 nadol, 1 nahor alebo. 3 nadol, 1 nahor) a sklon veridickej psychometrickej analýzy pozorovateľa modelu. funkcia (β = 0,5, 1 alebo 3). Na porovnanie, u vyškolených dospelých subjektov majú 2 psychometrické funkcie AFC pre frekvenčnú diskrimináciu sklon približne 1 (Dai & amp Micheyl, 2011), zatiaľ čo detekcia medzery má strmší sklon (Green & amp Forrest, 1989). Prevody medzi mierami sklonu nájdete v Strasburger (2001).

Na preskúmanie účinkov počtu zvratov s rôznymi prahmi u jednotlivých účastníkov mal modelový účastník sklon β = 1, ale prah pre rôznych účastníkov sa pohyboval od 1 do 20. Prahové hodnoty sa potom odhadli pomocou schodiska 2 dole, 1 hore s krokom 1 dB. Priemerné odhadované prahy produkované schodiskom boli porovnané s verdiktickými prahmi účastníkov modelu.

Účinky počtu zvratov na skupinové porovnania boli skúmané pomocou skupín 1 000 účastníkov modelu (všetky svahy β = 1) s prahmi odvodenými zo známej Gaussovej distribúcie, sústredených na celočíselnú hodnotu medzi 5 a 12. Vybrali sme štandardnú odchýlku, ktorá bola 20% priemeru, pretože Weberov zákon určuje štandardnú odchýlku, ktorá je konštantným zlomkom priemeru . Prahové hodnoty boli odhadnuté pomocou postupu schodiska 2-dole, 1-hore s krokom 1 dB, ako aj postupu 3 nadol, 1-up s krokom 2 dB. Veľkosti efektov boli vypočítané na porovnanie medzi prvou skupinou (so stredom na 5) a každou z nasledujúcich skupín (tj priemer prvej skupiny bol odpočítaný od priemeru každej inej skupiny a výsledok bol vydelený ich spoločnou štandardnou odchýlkou ), a to pre verdiktný aj odhadovaný prah.

Aby sme preskúmali účinky konzistencie odozvy, modelovali sme „laps“ ako skúšky, kde účastník modelu správne odpovedal s pravdepodobnosťou 0,5 (t. J. Uhádnutý) bez ohľadu na úroveň stimulu (Wichmann & amp Hill, 2001a Wichmann & amp Hill, 2001b). Pre počiatočné simulácie účinkov rýchlosti zániku na nameraný prah mal modelový subjekt veridický prah t = 10 a sklon β = 1. Prahové hodnoty boli odhadnuté pri schodisku 2 nadol, 1 schodisko s krokom 1 dB. Rýchlosť výpadku bola stanovená na 0%, 5%alebo 10%. Simulácie skúmajúce účinky rýchlosti zániku na skupinové porovnania použili rovnaký súbor počiatočných distribúcií účastníkov modelu, ako sa použili v skupinovej analýze opísanej vyššie. Miera odchýlky bola 0%, 5% a 10% a prahové hodnoty boli odhadnuté pomocou postupu 2-nadol, 1-hore s krokom 1 dB. Veľkosti efektov pre skupinové porovnania sa vypočítali rovnakým spôsobom, ako je popísané vyššie.


Dôsledky pre analýzu údajov o detekcii 2AFC

Detekčný výkon je určený (1) senzorickými faktormi, ktoré definujú charakteristiky senzorických účinkov S 1 a S 2 a (2) rozhodovacie/reakčné faktory, ktoré definujú, ako pozorovateľ použije realizáciu S 1 a S 2 dať odpoveď. Odhady modelu štandardného rozdielu d ' ako ( hat prime = sqrt <2> < Phi^<< - 1 >>> ( hat

) ) , kde p je podiel správnych odpovedí zhromaždených v rámci prezentačných objednávok, ale efekty objednávok môžu byť vážne kontaminujúce p Green and Swets (1966, s. 108, 408–410) odkazovali na „postup na opravu odhadu [správneho pomeru] pre akékoľvek intervalové odchýlky, ktoré môžu pretrvávať“, postup pozostávajúci z odhadu d ' podľa rozdielového modelu so zaujatosťou. Skutočne, ekv. 4a a 4b predpisujú odhadovanie d ' ako ( hat prime = vľavo [<< Phi^<< - 1 >>> (<< hat

> _1>) + < Phi^<< - 1 >>> vľavo (<<< hat

> _2 >> right)> right]/ sqrt <2> ), čo je oprava navrhnutá spoločnosťou Green and Swets. Odhaduje sa aj model rozdielu so zaujatosťou c ako ( hat = left [<< Phi^<< - 1 >>> left (< hat

> right) - < Phi^<< - 1 >>> left (<<< hat

> _2 >> right)> right]/ sqrt <2> ). Tento model samozrejme prináša c = 0 a štandardný odhad d ' kedy p 1 = p 2 = p.

Ale použitie tejto korekcie, ako odporúča Klein (2001), prináša nesprávne odhady, ak sa pozorovatelia správajú podľa modelu nerozhodnosti, ako je uvedené ďalej. Najprv zvážte príklad na obr. 3, kde zaujatý pozorovateľ s c = 0,5 a d ' = 0,8 by sa získalo (bez chyby vzorkovania) p 1 = 0,821 a p 2 = 0,584. Pri rozdielovom modeli s predpätím je odhadovaná citlivosť ( hat prime = vľavo [<< Phi^<< - 1 >>> (. 821) + < Phi^<< - 1 >>> (. 584)> vpravo]/ sqrt <2> = 0,8 ) a odhadované kritérium je ( hat = left [<< Phi^<< - 1 >>> (. 821) - < Phi^<< - 1 >>> (. 584)> right]/ sqrt <2> = 0,5 ) , čím sa vráti k pravde d ' a c. Uvažujme teraz o príklade na obr. 6, kde nezaujatý pozorovateľ (c = 0) s nerozhodnosťou (δ = 1) a odchýlkou ​​odozvy (ξ1 = .8), ale inak s tým istým d ' = 0,8, by získalo p 1 = 0,808 a p 2 = 0,535. Oprava z (neadekvátneho) rozdielového modelu s predpätím prinesie ( hat prime = vľavo [<< Phi^<< - 1 >>> (. 808) + < Phi^<< - 1 >>> (. 535)> vpravo]/ sqrt <2> = 0,678 ) (asi o 15% nižšie ako je pravda d ') a „obnoví“ neexistujúci ( hat = left [<< Phi^<< - 1 >>> (. 808) - < Phi^<< - 1 >>> (. 535)> right]/ sqrt <2> = 0,55 ) vedľa. Tento príklad ilustruje nie je to, že klasická korekcia zaujatosti je vo svojej podstate nesprávna, ale skôr to, že jej platnosť nemožno považovať za samozrejmosť bez znalosti toho, aký proces reakcie skutočne generoval údaje. Iba s dvoma nezávislými zdrojmi údajov (empirické proporcie p 1 a p 2) a tiež dva parametre na odhad (d ' a c), rozdielový model s predpojatosťou vždy bezchybne zapadne do údajov. Jeho nevýhodou je, že na testovanie modelu nezostávajú žiadne stupne voľnosti. Potom model „uspeje“ jednoduchým vynútením interpretácie, že stačí rozhodovacia zaujatosť p 1 a p 2 sa líšia.

Obrázok je v skutočnosti o niečo komplexnejší, pretože absencia správnych rozdielov v proporciách v rámci príkazov na prezentáciu neposkytuje dôkaz o platnosti štandardného rozdielového modelu. Ako už bolo spomenuté, nerozhodný pozorovateľ (tj.> 5> 0) bez zaujatosti reakcie (tj.1 = .5) získa rovnaký podiel správnych odpovedí v oboch intervaloch. Na ilustráciu znova zvážte prípad znázornený na obr. 6, ale teraz s ξ1 = .5, takže (< hat

_1> = < hat

_2> = 0,444 +, 0,5 krát, 455 =, 6715 ). Potom podľa predpokladaného platného štandardného rozdielového modelu ( hat prime = sqrt <2> < Phi^<< - 1 >>> (. 6715) = 0,628 ), čo je asi o 22% menej ako pravda d ' 0,8.

Stručne povedané, na odhad je potrebná znalosť zdrojového modelu d ' adekvátne. Je zaujímavé, že boli navrhnuté experimentálne metódy, ktoré poskytujú dostatočný stupeň voľnosti na testovanie modelu všeobecnej nerozhodnosti a umožňujú odhad jeho parametrov (pozri García-Pérez & amp Alcalá-Quintana, 2010a). To môže pomôcť určiť, či δ = 0, a teda či štandardný diferenčný model alebo diferenčný model s odchýlkou ​​platí pre predmet od subjektu. Podobné úvahy platia aj vtedy, ak je cieľom prispôsobiť psychometrickú funkciu údajom o detekcii 2AFC, problému, ktorý riešime v nasledujúcej časti.


Prístup k porovnávaniu modelov aplikovaný na psychofyzické modely

Psychometrická funkcia

PF týka niektorých kvantitatívnych stimulačných charakteristík (napr. Kontrastu) psychofyzického výkonu (napr. Správneho pomeru pri detekčnej úlohe). Bežná formulácia PF je daná:

v ktorom X označuje intenzitu stimulu a ψ označuje mieru výkonu (napr. správny pomer) a γ a 1 −λ zodpovedajú dolnej a hornej asymptote. F je zvyčajne nejaká sigmoidálna funkcia, ako je kumulatívna normálna distribúcia, Weibullova funkcia alebo logistická funkcia. Parametre γ a λ sa všeobecne považujú za obťažujúce parametre v tom, že necharakterizujú senzorický mechanizmus, ktorý je základom výkonu.Napríklad pri úlohe ‘yes/no, ’, v ktorej je na pokus predložený jeden stimul a pozorovateľ sa musí rozhodnúť, či obsahuje cieľ alebo nie, γ zodpovedá miere falošných poplachov, ktorá charakterizuje rozhodovací proces. Na druhej strane, v an mAFC (m Alternative Forced Choice) úloha, v ktorej m podnety sú predložené na pokus a pozorovateľ sa rozhodne, ktorý obsahuje cieľ, γ je určený úlohou a všeobecne sa predpokladá, že sa rovná 1/m. Parameter λ sa bežne označuje ako ‘ miera kolapsu ’ v tom, že zodpovedá pravdepodobnosti negatívnej reakcie nezávislej od podnetu (napr. ‘no ’ pri úlohe áno/nie alebo nesprávne pri mÚloha AFC). Senzorický mechanizmus, ktorý je základom výkonu, je charakterizovaný funkciou F. Funkcia F má dva parametre: α a β. Parameter α určuje umiestnenie F, zatiaľ čo parameter β určuje rýchlosť zmeny F. Interpretácia α a β pokiaľ ide o senzorický alebo percepčný proces, základný výkon závisí od konkrétnej úlohy. Napríklad pri úlohe detekcie kontrastu mAFC α zodpovedá intenzite stimulu, pri ktorej pravdepodobnosť správna detekcia dosiahne určitú hodnotu kritéria, zvyčajne v polovici cesty medzi dolnou a hornou asymptotou psychometrickej funkcie. V tomto kontexte α je mierou detekovateľnosti stimulu a často sa označuje ako ‘threshold. ’ Pri úlohách založených na vzhľade 2-Alternative Forced Choice (2AFC) (Kingdom and Prins, 2016, ੳ.3 ), ako je úloha zarovnania Verniera, ktorú používame ako náš príklad nižšie, α označuje bod subjektívnej rovnosti alebo PSE. V tomto poslednom kontexte α nie je mierou detekovateľnosti Vernierovho ofsetu, ale skôr meria zaujatosť pri odpovedi vľavo alebo vpravo. V tejto úlohe je detekovateľnosť posunu kvantifikovaná parametrom β (čím vyššia je hodnota β, čím je offset rozpoznateľnejší). V zostávajúcej časti tohto článku použijeme termíny umiestnenie a svahu parameter pre α a β, resp. Tieto termíny opisujú samotnú funkciu a nenesú žiadne dôsledky na charakteristiky základného senzorického alebo percepčného procesu. Tieto termíny ako také majú výraznú výhodu v tom, že sú vhodné na použitie bez ohľadu na povahu úlohy.

Logiku prístupu k porovnávaniu modelov predstavíme najskôr pomocou jednoduchého hypotetického experimentu s jednou podmienkou. Príklad potom rozšírime o druhú experimentálnu podmienku.

Jednoduchý príklad s jednou podmienkou demonštrujúci prístup porovnávania modelov

Predstavte si experimentálny stav, v ktorom má pozorovateľ detekovať Vernierov posun. Úlohou je úloha 2AFC, v ktorej má pozorovateľ naznačiť, či je spodná z dvoch zvislých čiar odsadená vľavo alebo vpravo vzhľadom na hornú čiaru. Použije sa päť rôznych ofsetov a pri každom offsetu sa predloží 50 pokusov. Obrázok 1A zobrazuje hypotetické výsledky z takéhoto experimentu. Vynesený je podiel pokusov, pri ktorých pozorovateľ uviedol, že dolnú čiaru vníma vľavo od hornej čiary ako funkciu skutočného Vernierovho posunu. Obrázok 1B zobrazuje štyri rôzne modely týchto údajov. Tieto modely sa líšia v predpokladoch, ktoré robia, pokiaľ ide o percepčný proces, ktorý je základom výkonnosti. Všetky modely zdieľajú tiež niekoľko predpokladov a my s nimi začneme.

POSTAVA 1. (A) Výsledky hypotetického experimentu, v ktorom sú pozorovatelia testovaní pomocou Vernierovej zarovnávacej úlohy. Vynesené sú pomery odpovedajúcich ‘vľavo ’ pre každé z piatich použitých Vernierových zarovnaní. Správne pozorované proporcie tiež definujú nasýtený model, ktorý nerobí žiadne predpoklady o tom, ako pravdepodobnosť správnej reakcie závisí od experimentálnych podmienok alebo intenzity stimulu. (B) Štyri rôzne modely výsledkov uvedené v (A). Modely sa líšia vzhľadom na svoje predpoklady týkajúce sa dvoch zo štyroch parametrov PF (umiestnenie a sklon). Text popisuje, ako vykonať porovnanie modelov medzi modelmi, ktoré sú tu označené ako 𠆏uller, ’ ‘lesser, ’ a ‘saturated ’ (posledný uvedený v A).

Všetky štyri modely na obrázku 1B predpokladajú nezávislosť a stabilitu. Stručne to znamená, že pravdepodobnosť odpovede ‘left ’ je úplne určená fyzickým Vernierovým posunom. K príkladu porušenia predpokladu nezávislosti dochádza vtedy, keď je menej pravdepodobné, že pozorovateľ odpovie ‘vľavo ’ na šiesty pokus, pretože odpovedal ‘vľavo ’ na všetky predchádzajúce pokusy. K príkladu porušenia predpokladu stability dochádza vtedy, keď sa pozorovateľ v priebehu postupu stane neopatrným a s väčšou pravdepodobnosťou zareaguje nezávisle od podnetu. Všetky modely na obrázku 1B tiež predpokladajú, že skutočná funkcia opisujúca pravdepodobnosť odpovede ‘left ’ ako funkciu Vernierovho ofsetu má tvar logistickej funkcie. Nakoniec všetky modely predpokladajú, že pravdepodobnosť, že pozorovateľ odpovedá nezávisle od podnetu v akejkoľvek danej štúdii (rýchlosť zániku), je 0,02. Aj keď je tento predpoklad istý, že nie je úplne správny, údaje získané v experimente, ako je tento, vo všeobecnosti obsahujú veľmi málo informácií o hodnote parametra lapse, a preto je jeho uvoľnenie problematické (Prins, 2012 Linares a L ópez-Moliner , 2016). Všimnite si toho, že pri takejto úlohe rýchlosť, ktorou pozorovateľ zanikne, určuje dolnú aj hornú asymptotu funkcie. Všetky modely na obrázku 1B to teda predpokladajú γ = λ = 0.02.

Aj keď modely na obrázku 1B zdieľajú mnoho predpokladov, líšia sa v predpokladoch, ktoré robia, pokiaľ ide o hodnoty parametrov umiestnenia a sklonu PF. Modely v ľavom stĺpci nerobia žiadne predpoklady týkajúce sa hodnoty parametra umiestnenia a umožňujú mu nadobudnúť akúkoľvek hodnotu. Hovoríme, že parameter polohy je parameter 𠆏ree ’. Modely v pravom stĺpci naopak predpokladajú, že parameter polohy sa rovná 0. Hovoríme, že hodnota parametra umiestnenia je 𠆏ixovaná. ’ Inými slovami, modely v pravom stĺpci predpokladajú, že pozorovateľ neuprednostňuje odpoveď (‘vľavo ’ alebo ‘right ’), ak sú dva riadky fyzicky zarovnané. Pohyb medzi dvoma radmi kladie podobné obmedzenia na parameter sklonu funkcií. V dvoch modeloch v hornom rade je parameter sklonu voľný parameter, zatiaľ čo modely v dolnom rade fixujú parameter sklonu na trochu ľubovoľnú hodnotu 1. Tu odkazujeme na modely zadaním počtu hodnôt parametrov umiestnenia a parametra sklonu. hodnoty je potrebné odhadnúť. Napríklad model v ľavom hornom rohu budeme označovať ako 𠆁 α 1 β. ’

Pohyb doprava v modelovej mriežke na obrázku 1B teda obmedzuje hodnotu parametra umiestnenia, zatiaľ čo pohyb nadol obmedzuje hodnotu parametra sklonu. Výsledkom je, že žiadny model (‘model B ’) na obrázku 1B, ktorý je umiestnený vpravo a/alebo pod iným (‘model A ’), sa nikdy nemôže lepšie zhodovať so zisteným p (‘vľavo ’) než tento model a hovoríme, že model B je ‘vnorený ’ pod modelom A. Zo štyroch modelov uvedených na obrázku 1B môžeme vytvoriť päť párov modelov, v ktorých je jeden z modelov vnorený pod druhý model. Pre akýkoľvek takýto pár používame výraz ‘lesser model ’ pre reštriktívnejší model a 𠆏uller model ’ pre menej obmedzujúci model. Pre každý takýto pár môžeme určiť štatistický ‘p-hodnota ’ s použitím testu pravdepodobnostného pomeru [(napr. Hoel a kol., 1971), ktorý je klasickým štatistickým testom s nulovou hypotézou (NHST)]. Test pomeru pravdepodobnosti je podrobne vysvetlený nižšie. Nulová hypotéza, ktorá by sa testovala, uvádza, že predpoklady, ktoré menší model robí, ale plnší model nie, sú správne. Interpretácia súboru p-hodnota je rovnaká pre všetky NHST vrátane t-test, ANOVA, chí-kvadrát test vhodnosti a podobne, s ktorými môže byť čitateľ oboznámený. Ďalšími kritériami, ktoré sa bežne používajú na určenie, ktorý z modelov je preferovaný model, sú informačné kritériá a bayesovské metódy (napr. Akaike, 1974 Jaynes a Bretthorst, 2003 Kruschke, 2014 Kingdom a Prins, 2016). Kľúčovou výhodou informačných kritérií a bayesovských metód je, že môžu porovnávať ľubovoľný pár modelov bez ohľadu na to, či je jeden vnorený pod druhý. Základné myšlienky prístupu k porovnávaniu modelov sa vzťahujú na ktorúkoľvek z vyššie uvedených metód.

Rôzne výskumné otázky vyžadujú štatistické porovnania medzi rôznymi pármi modelov. Napríklad v tu opísanom hypotetickom experimente by sme chceli otestovať, či údaje naznačujú prítomnosť odchýlky odozvy. Pokiaľ ide o parametre modelu, odchýlka by bola indikovaná parametrom polohy odchyľujúcim sa od hodnoty 0. Porovnávali by sme teda model, v ktorom sa predpokladá, že parameter polohy sa rovná 0, s modelom, ktorý tento predpoklad nevytvára. . Porovnávané modely by sa mali líšiť iba v predpokladoch týkajúcich sa parametra umiestnenia. Ak by sa modely v porovnaní líšili vzhľadom na akékoľvek iné predpoklady a zistili by sme, že sa modely výrazne líšia, neboli by sme schopní určiť, či významnosť vznikla, pretože predpoklad, že parameter polohy sa rovná 0, bol falošný alebo pretože jeden z ďalších predpoklady, ktoré sa medzi modelmi líšili, boli falošné. Čo by potom mali modely v porovnaní predpokladať o parametri sklonu? Na základe zásady šetrnosti by sme mali, vo všeobecnosti, zvoliť tie najprísnejšie predpoklady, od ktorých môžeme odôvodnene očakávať, že sú platné. Ďalším faktorom, ktorý je potrebné zvážiť, je, či údaje obsahujú dostatočné informácie na odhad parametra sklonu. V tomto kontexte sa zdá nerozumné predpokladať akúkoľvek konkrétnu hodnotu pre parameter sklonu a údaje sú také, že podporujú odhad parametra sklonu. V dvoch porovnávaných modeloch teda urobíme z parametra sklonu voľný parameter.

Vzhľadom na vyššie uvedené úvahy je tu vhodné porovnanie modelov medzi modelmi označenými na obrázku 1B ako 𠆏uller ’ a ‘lesser ’. Obrázok 2 predstavuje tieto dva modely z hľadiska predpokladov, ktoré robia. Opäť je nevyhnutné, aby sa dva porovnávané modely líšili iba pokiaľ ide o testovaný predpoklad (alebo predpoklady). Priamka spájajúca modely na obrázku 2 je označená za predpokladu, že menší model robí, ale plnší model nie. Tento predpoklad je, že parameter polohy sa rovná nule (tj. α = 0). Tento predpoklad testuje modelové porovnanie medzi týmito dvoma modelmi, či už sa vykonáva testom pomeru pravdepodobnosti, jedným z informačných kritérií alebo bayesovským kritériom. Tu porovnáme modely pomocou testu pomeru pravdepodobnosti. Test pomeru pravdepodobnosti je možné použiť na porovnanie dvoch modelov, keď je jeden z modelov vnorený pod druhý. Pravdepodobnosť spojená s každým z modelov je rovnaká ako pravdepodobnosť, s ktorou by model priniesol výsledky, ktoré sú zhodné s tými, ktoré dosiahol náš pozorovateľ. Pravdepodobnosť spojená s úplnejším modelom bude vždy väčšia ako pravdepodobnosť spojená s menším modelom (pamätajte, že plnší model sa vždy môže zhodovať s menším modelom, zatiaľ čo opak nie je pravdivý). Pomer pravdepodobnosti je pomer pravdepodobnosti spojený s menším modelom k tomu, ktorý je spojený s úplnejším modelom. Za predpokladu, že je menší model pravdivý (‘Null Hypotéza ’), transformovaný pomer pravdepodobnosti [TLR = 𢄢 × loge(pomer pravdepodobnosti)] je distribuovaný asymptoticky ako distribúcia χ 2 so stupňami voľnosti, ktoré sa rovnajú rozdielu v počte voľných parametrov medzi modelmi 1. Test pomeru pravdepodobnosti je teda možné použiť na vykonanie klasického (𠆏isherian ’) NHST na odvodenie štatistických údajov. p-hodnota.

OBRÁZOK 2. Schematické znázornenie prístupu porovnávania modelov aplikovaného na výskumnú otázku opísanú v časti 𠇊 Jednoduchý príklad s jednou podmienkou demonštrujúci prístup porovnania modelu. ” Každý kruh predstavuje model údajov uvedených na obrázku 1. Modely sa líšia v závislosti od predpokladov, ktoré robia. Predpoklady, ktoré každý z modelov robí, sú uvedené v kruhoch, ktoré modely predstavujú. Riadky spájajúce dvojice modelov sú označené predpokladmi, ktoré sa medzi modelmi líšia. V rámci prístupu porovnávania modelov sa konkrétne predpoklady testujú porovnaním modelu, ktorý vytvára predpoklady, s modelom, ktorý tieto predpoklady nevytvára. Napríklad na testovanie, či sa parameter polohy PF rovná nule (t. J. Či α = 0), porovnáme model vľavo hore (𠆏uller ’), ktorý nevytvára predpoklad, s modelom vpravo hore, ktorý robí predpoklad. Všimnite si toho, že inak tieto dva modely vychádzajú z rovnakých predpokladov. Porovnanie modelov je možné vykonať aj medzi modelmi, ktoré sa líšia z hľadiska viacerých predpokladov. Test Goodness-of-Fit napríklad testuje všetky predpoklady modelu, okrem predpokladov nezávislosti a stability. The p-hodnoty vyplývajúce z tu uvedených troch porovnaní modelov sú uvedené na tomto obrázku.

Keď sa porovnanie modelu vykonáva pomocou testu pomeru pravdepodobnosti, výsledný TLR sa rovná 0,158. S 1 stupňom voľnosti (plnší model má o jeden voľný parameter [parameter polohy] v porovnaní s menším modelom) p-hodnota je 0,691. Rozdiel medzi úplnejším a menším modelom bol v predpoklade, že parameter polohy bol rovný nule, a preto sa zdá rozumné vyvodiť záver, že tento predpoklad je platný. Nezabudnite však, že menší model urobil ďalšie predpoklady. Išlo o predpoklady nezávislosti a stability, predpoklad, že parametre odhadovacej rýchlosti a rýchlosti lapovania sa rovnajú 0,02 a tvar funkcie je logistickou funkciou. Vyššie uvedené porovnanie modelu je platné iba vtedy, ak sú tieto predpoklady platné. Tieto predpoklady (okrem predpokladov nezávislosti a stability) môžeme otestovať vykonaním takzvaného testu Goodness-of-Fit.

Porovnanie modelov, ktoré sa má vykonať pre test Goodness-of-Fit, je porovnanie medzi naším menším modelom zhora a modelom, ktorý robí iba predpoklady nezávislosti a stability. Druhý model sa nazýva nasýtený model. Skutočnosť, že úplnejší model v porovnaní je nasýtený model, robí z tohto testu test vhodnosti 2. Uvedomte si, že nasýtený model vôbec nerobí žiadne predpoklady týkajúce sa toho, ako sa pravdepodobnosť reakcie ‘vľavo ’ líši v závislosti od intenzity stimulu alebo experimentálnych podmienok. Ako taký umožňuje pravdepodobnosti všetkých piatich intenzít stimulov, ktoré boli použité na získanie akejkoľvek hodnoty, nezávisle od seba. Nasýtený model teda jednoducho zodpovedá pozorovaným pomerom odpovedí ‘vľavo ’ pre päť intenzít stimulu. Všimnite si toho, že predpoklady nezávislosti a stability sú potrebné na priradenie jednej hodnoty pre p (‘left ’) všetkým pokusom s konkrétnou intenzitou stimulu. Všimnite si tiež, že všetky modely na obrázku 1B, ako aj akýkoľvek iný model, ktorý vytvára predpoklady nezávislosti, stability a ďalšie (obmedzujúce) predpoklady, sú vnorené pod nasýtený model. Preto pre všetky tieto môžeme vykonať test dobroty zhody pomocou testu pomeru pravdepodobnosti. The p-hodnota vhodnosti nášho menšieho modelu bola 0,815, čo naznačuje, že predpoklady, ktoré menší model vytvára, ale nasýtený model nie (tj. všetky predpoklady okrem nezávislosti a stability) sa zdajú byť rozumné.

Príklad s dvoma podmienkami

Predstavte si teraz, že vedci k experimentu pridali druhú podmienku, v ktorej sa pozorovateľ najskôr prispôsobí vertikálnej mriežke pred vykonaním pokusov o zarovnanie podľa Verniera. Pre vedcov je zaujímavé, či je na Vernierovu ostrosť ovplyvnená adaptácia. Výsledky oboch podmienok sú uvedené na obrázku 3A. Na tieto údaje môžeme opäť použiť niekoľko možných modelov. Obrázok 3B zobrazuje deväť modelov, ktoré je možné na tieto údaje použiť. Tieto modely sa líšia v predpokladoch, ktoré robia, pokiaľ ide o percepčný proces, ktorý je základom výkonnosti. Opäť niekoľko predpokladov zdieľa všetkých deväť modelov. Všetky modely predpokladajú nezávislosť a stabilitu. Všetky modely opäť predpokladajú, že skutočná funkcia popisujúca pravdepodobnosť odpovede ‘left ’ ako funkcie Vernierovho ofsetu má tvar logistickej funkcie. Nakoniec všetky modely opäť predpokladajú, že pravdepodobnosť, že pozorovateľ reaguje nezávisle od podnetu v akejkoľvek danej skúške (rýchlosť zániku), sa rovná 0,02. Rovnako ako v modeloch znázornených na obrázku 1B, deväť modelov na obrázku 3B sa líši iba s ohľadom na predpoklady, ktoré robia, pokiaľ ide o hodnoty parametrov umiestnenia a sklonu. Modely v ľavom stĺpci nerobia žiadne predpoklady týkajúce sa hodnoty jedného z parametrov umiestnenia a umožňujú každému prevziať akúkoľvek hodnotu nezávisle od hodnoty druhého. Hovoríme, že hodnoty sú ‘unconstrained. ’ Modely v strednom stĺpci predpokladajú, že dva parametre umiestnenia sú si navzájom rovnaké (𠆌onstrained ’). Inými slovami, podľa týchto modelov nie je hodnota parametra umiestnenia ovplyvnená experimentálnou manipuláciou. Tieto modely však nepredpokladajú konkrétnu hodnotu parametra zdieľanej polohy. Modely v pravom stĺpci ďalej obmedzujú parametre umiestnenia: predpokladajú, že obidva sa rovnajú 0. Ako sme to urobili v príklade s jednou podmienkou, hovoríme, že hodnoty parametrov umiestnenia sú 𠆏ixované. ’ Pohyb medzi rôznymi riadky kladú podobné obmedzenia na parametre sklonu funkcií. Modely v hornom rade umožňujú obidvom zjazdovkám nadobudnúť na sebe nezávislú hodnotu. Modely v strednom rade predpokladajú, že svahy sú v týchto dvoch podmienkach rovnaké, a modely v dolnom rade predpokladajú konkrétnu hodnotu pre oba svahy (tu sme opäť vybrali ľubovoľnú hodnotu 1). Tu odkazujeme na modely určením, koľko hodnôt parametrov umiestnenia a hodnôt parametrov sklonu je potrebné odhadnúť. Napríklad model v ľavom hornom rohu budeme označovať ako 𠆂 α 2 β. ’

OBRÁZOK 3. (A) Výsledky hypotetického experimentu, v ktorom pozorovatelia vykonávajú Vernierovu zarovnávaciu úlohu za dvoch experimentálnych podmienok (plné versus otvorené symboly). Pri každom stave sa používa päť intenzít stimulu.Vynesené sú pomery odpovedajúcich ‘vľavo ’ pre každú z 10 kombinácií experimentálnych podmienok a intenzity stimulu. Správne proporcie tiež definujú nasýtený model, ktorý nerobí žiadne predpoklady o tom, ako pravdepodobnosť správnej reakcie závisí od experimentálnych podmienok alebo intenzity stimulu. (B) Deväť rôznych modelov výsledkov uvedených v (A). Modely sa líšia vzhľadom na svoje predpoklady týkajúce sa dvoch zo štyroch parametrov PF (umiestnenie a sklon). Text popisuje porovnanie modelov medzi modelmi, ktoré sú tu označené ako 𠆏uller, ’ ‘lesser, ’ a ‘saturated ’ (posledný uvedený v A).

Pohyb doprava v modelovej mriežke na obrázku 3B zvyšuje obmedzenia hodnôt parametrov umiestnenia, zatiaľ čo pohyb nadol znižuje obmedzenia na svahoch. Pod tento model je teda vnorený akýkoľvek model (‘model B ’), ktorý umiestnil ľubovoľnú kombináciu krokov vpravo a nadol (vrátane iba krokov vpravo alebo iba nadol) vzhľadom na iný (‘model A ’). Z deviatich modelov uvedených na obrázku 3B nájdeme 27 párov modelov, v ktorých je jeden z modelov vnorený pod druhý model. Opäť pre každý takýto pár môžeme vykonať porovnanie modelu a opäť to porovnanie modelu otestuje, či sú opodstatnené predpoklady, ktoré menší model robí, ale plnší model nie. Ktoré dva modely je potrebné porovnať, aby sa otestovalo, či adaptácia ovplyvňuje ostrosť Verniera? Rozdiel v ostrosti Verniera medzi týmito dvoma podmienkami by zodpovedal rozdielu v parametroch sklonu. Vyššia hodnota sklonu by zodpovedala vyššej ostrosti. Model, ktorý predpokladá, že adaptácia neovplyvňuje Vernierovu ostrosť, teda predpokladá, že parametre sklonu v týchto dvoch podmienkach sú rovnaké. Model, ktorý predpokladá, že ostrosť Verniera je ovplyvnená adaptáciou, predpokladá, že parametre sklonu sa medzi podmienkami líšia. Porovnávali by sme teda model, ktorý umožňuje rôznym svahom v týchto dvoch experimentálnych podmienkach, s modelom, ktorý obmedzuje, že svahy sú medzi podmienkami identické. Porovnávané modely by mali vytvárať rovnaké predpoklady týkajúce sa parametrov umiestnenia v týchto dvoch podmienkach. Je to z rovnakého dôvodu, ako je uvedené vyššie v príklade s jednou podmienkou: Ak sa porovnávané modely líšia v predpokladoch, ktoré robia, pokiaľ ide o parametre polohy, ako aj svahy, a zistíme, že sa modely výrazne líšia, neboli by sme schopný určiť, či má byť významnosť pripisovaná účinku na parametre polohy, parametre sklonu alebo oboje. Čo by potom mali modely v porovnaní predpokladať o parametroch polohy? V závislosti od špecifík experimentu by tu mohlo byť rozumné predpokladať, že parametre polohy v obidvoch podmienkach sa rovnajú 0 (vyššie sme už určili, že v podmienkach bez adaptácie sa parameter polohy aspoň výrazne neodchyľuje od nuly). Vzhľadom na konkrétnu výskumnú otázku položenú v tomto príklade a vyššie uvedené úvahy je preto vhodné porovnanie modelu medzi úplnejším modelom 𠆀 α 2 β ’ a menší model 𠆀 α 1 β. ’ Na obrázku 3B sme tieto dva modely označili ako 𠆏uller ’ a ‘Lesser. ’ Na obrázku 4 sú uvedené predpoklady plnšieho aj menšieho modelu. Riadok spájajúci modely je označený za predpokladu, že menší model robí, ale plnší nie. Keď sa toto porovnanie modelu vykoná pomocou výsledného testu pomeru pravdepodobnosti p-hodnota je 0,016, čo naznačuje, že odhady sklonu sa medzi týmito dvoma experimentálnymi podmienkami výrazne líšia. Všimnite si, že p-hodnota je presná iba vtedy, ak sú splnené predpoklady, ktoré obidva modely robia (nezávislosť, stabilita, rýchlosť zániku sa rovná 0,02, PSE sa rovnajú 0 a tvar psychometrickej funkcie je logistický). Všetky tieto prvé predpoklady okrem prvých dvoch je možné otestovať vykonaním testu Goodness-of-Fit úplnejšieho modelu. Výsledkom porovnania modelu Goodness-of-Fit je a p-hodnota rovná 0,704, čo naznačuje, že predpoklady, ktoré vytvára plnší model, ale nasýtený model nie (tj. všetky predpoklady okrem nezávislosti a stability), sa zdajú byť primerané.

OBRÁZOK 4. Podobne ako na obrázku 2, ale teraz aplikované na experiment s dvoma podmienkami opísaný v časti 𠇊 Príklad dvoch podmienok. ” Každý kruh predstavuje model údajov uvedených na obrázku 3A. Plnejší model nepredpokladá, že svahy sú rovnaké, zatiaľ čo menší model tento predpoklad robí. Všimnite si toho, že inak modely vychádzajú z rovnakých predpokladov.

Porovnanie s inými prístupmi

Aby sme to zhrnuli, podstatou prístupu porovnávania modelov k štatistickému testovaniu je, že pojíma štatistické testy experimentálnych účinkov ako porovnanie dvoch alternatívnych modelov údajov, ktoré sa líšia v predpokladoch, ktoré robia. Povaha predpokladov týchto dvoch modelov určuje, na ktorú výskumnú otázku sa zameriava. Porovnajte to s prístupom kuchárskej knihy zahŕňajúcim množstvo rôznych testov, z ktorých sa každý zameriava na konkrétny experimentálny účinok. Možno by existoval ‘ test parametrov umiestnenia ’, ktorý by určoval, či sa parametre polohy v rôznych podmienkach výrazne líšia. Potom by pravdepodobne existoval aj test sklonu ‘ a ’ a možno dokonca aj test umiestnenia a sklonu ‘. ’ Pre každú z nich môžu existovať rôzne verzie v závislosti od predpokladov, ktoré test robí. Môže napríklad existovať ‘lokačný test ’, ktorý predpokladá, že svahy sú rovnaké, ďalší ‘lokačný test ’, ktorý nepredpokladá, že svahy sú rovnaké, a tretí ‘lokačný test ’, ktorý predpokladá fixnú hodnotu pre parametre sklonu. Všimnite si toho, že rozdiel medzi prístupmi je len v koncepcii, predpokladaný ‘lokačný test ’ by bol formálne identický s porovnaním modelu medzi modelom, ktorý neobmedzuje parametre umiestnenia na model, ktorý obmedzuje ich identitu. Prístup k porovnávaniu modelov je samozrejme oveľa flexibilnejší. Dokonca aj v jednoduchom experimente s dvoma podmienkami a iba vzhľadom na testy zahŕňajúce parametre polohy a sklonu sme definovali deväť rôznych modelov na obrázku 3B, z ktorých je možné identifikovať 27 rôznych párov modelov, v ktorých je jeden model vnorený pod druhý.

Všimnite si toho, že aj v jednoduchom experimente s dvoma podmienkami nášho príkladu je možné domyslieť oveľa viac porovnaní modelov. Napríklad by sme chceli znova otestovať vplyv na svah, ale necítime sa pohodlne, ak predpokladáme, že miera odchýlky je 0,02. Potom máme možnosť uvoľniť predpoklad týkajúci sa miery zániku, ktorú vytvára úplnejší a menší model. Mohli by sme buď odhadnúť jednu, spoločnú rýchlosť zániku pre tieto dve podmienky, ak môžeme predpokladať, že miery zániku sú medzi podmienkami rovnaké, alebo by sme mohli odhadnúť rýchlosť zániku pre každú z podmienok jednotlivo, ak nechceme predpokladať, že uplynutie sadzby v týchto dvoch podmienkach sú rovnaké. Dokonca nás môže zaujímať, či je rýchlosť lapovania ovplyvnená nejakou experimentálnou manipuláciou (napr. Van Driel et al., 2014). Potom by sme porovnali model, ktorý umožňuje rôznym rýchlostiam prestávok za podmienok, s modelom, ktorý obmedzuje, aby boli rýchlosti záchytu medzi podmienkami rovnaké.

Prístup k porovnávaniu modelov zovšeobecňuje na komplexnejšie návrhy výskumu a výskumné otázky. Napríklad Rolfs a kol. (2018) porovnal menší model, v ktorom všetky sedenia v experimente percepčného učenia sledovali trojparametrovú krivku jednoduchého učenia sa a plnší model, v ktorom sa kritickým podmienkam umožnilo odchýliť sa od krivky učenia. Inými slovami, toto porovnanie modelu testovalo, či sa percepčné učenie prenáša do kritických podmienok alebo nie (pozri tiež Kráľovstvo a Prins, 2016, ੹.3.4.2). Ako ďalší príklad Prins (2008b) porovnal modely, v ktorých bol výkon v úlohe diskriminácie textúry sprostredkovaný súčtom pravdepodobnosti medzi dvoma alebo tromi nezávislými mechanizmami. Ako posledný príklad použil Prins (2008a) prístup porovnávania modelov, aby zistil, či dve premenné interagovali vo svojom účinku na lokalizačné parametre PF v návrhu faktoriálového výskumu 2 × 3.

Všimnite si toho, že výskumné otázky sa len zriedka týkajú absolútnej hodnoty akéhokoľvek parametra per se. Výskumné otázky sa skôr zaoberajú vzťahmi medzi hodnotami parametrov odvodenými za rôznych experimentálnych podmienok. Spoločná stratégia na odvodenie bodových a rozptylových (napr. Štandardných chýb alebo intervalov spoľahlivosti) odhadov parametrov PF v jednotlivých podmienkach je teda trochu zvláštnou a nepriamou metódou na riešenie výskumných otázok. Navyše, určenie toho, či sú odhady parametrov výrazne odlišné, sa často vykonáva pomocou odhadov parametrov a ich SE, ktoré sú nápadné a často sa riadi diskutabilnými pravidlami (napríklad, 𠇎 keď sa pruhy SE neprekrývajú, odhady parametrov sa výrazne líšia & #x201D), na rozdiel od dodržania teoreticky správneho postupu. Nakoniec, na rozdiel od prístupu porovnávania modelov, prístup SE-balling neumožňuje porovnanie modelov medzi modelmi, ktoré robia rôzne predpoklady týkajúce sa hodnoty viacerých parametrov súčasne.


Spoľahlivosť testovacieho skóre

Ak má byť meranie dôveryhodné, musí byť spoľahlivé. Musí byť konzistentný, presný a jednotný pri rôznych príležitostiach testovania, v priebehu času, medzi pozorovateľmi a medzi vzorkami. Z psychometrického hľadiska sa spoľahlivosť týka miery, do akej sú výsledky merania presné a presné, bez náhodných a nevysvetlených chýb. Spoľahlivosť skóre testu stanovuje hornú hranicu platnosti, a tým obmedzuje platnosť testu, takže nespoľahlivé skóre testu nemožno považovať za platné.

Spoľahlivosť bola opísaná ako „základná pre celú psychológiu“ (Li, Rosenthal a & Rubin, 1996) a jej štúdia sa datuje takmer storočie (Brown, 1910 Spearman, 1910).

Koncepty spoľahlivosti v teórii testov sa vyvíjali, vrátane dôrazu v IRT modeloch na informačnú funkciu testu ako pokrok oproti klasickým modelom (napr. Hambleton et al., 1991) a pokusov poskytnúť nové zjednocujúce a koherentné modely spoľahlivosti (napr. Li & amp Wainer, 1997). Embretson (1999) napríklad spochybnil tradíciu teórie klasických testov tvrdením, že „kratšie testy môžu byť spoľahlivejšie ako dlhšie testy“ (s. 12) a že „štandardná chyba merania sa líši medzi osobami s rôznymi vzorcami odpovedí, ale zovšeobecňuje sa medzi populáciami“ (s. 12). V tejto časti je popísaná spoľahlivosť podľa klasickej teórie testov a teórie odozvy na položku. Na objektívne hodnotenie spoľahlivosti sú poskytnuté usmernenia.

Vnútorná konzistencia

Stanovenie vnútornej konzistencie testu sa zameriava na stupeň jednotnosti a súdržnosti medzi jeho súčasťami. Testy, ktoré sú rovnomernejšie, bývajú spoľahlivejšie. Ako miera vnútornej konzistencie je koeficient spoľahlivosti druhou mocninou korelácie medzi získanými skóre testov a skutočnými skóre, bude vysoký, ak existuje relatívne malá chyba, ale nízky s veľkým počtom chýb. V klasickej teórii testov je spoľahlivosť založená na predpoklade, že chyba merania je rozdelená normálne a rovnako pre všetky úrovne skóre. Naopak, teória reakcie na položku tvrdí, že spoľahlivosť sa líši medzi osobami s rôznymi vzorcami odpovedí a úrovňami schopností, ale zovšeobecňuje sa medzi populáciami (Embretson & amp Hershberger, 1999).

Na výpočet vnútornej konzistencie sa spravidla používa niekoľko štatistík. Metóda odhadovania spoľahlivosti rozdelená na polovicu efektívne rozdelí testované položky na polovicu (napr. Na nepárne položky a párne položky) a koreluje skóre z každej polovice testu so skóre z druhej polovice. Táto technika znižuje počet položiek v teste, čím sa znižuje stupeň spoľahlivosti. Použitie Spearman-Brownovho prorockého vzorca umožňuje extrapoláciu zo získaného koeficientu spoľahlivosti na pôvodnú dĺžku testu, čo zvyčajne zvyšuje spoľahlivosť testu. Asi najbežnejším štatistickým indexom vnútornej konzistencie je Cronbachova alfa, ktorá poskytuje dolný odhad spoľahlivosti skóre testu ekvivalentný priemernému koeficientu konzistencie rozdelenej na polovicu pre všetky možné rozdelenia testu na polovice. Všimnite si, že teória reakcie na položku znamená, že za určitých podmienok (napr. Adaptívne testovanie, v ktorom je potrebné merať položky najbližšie k úrovni schopností vyšetrovaného) môžu byť krátke testy spoľahlivejšie ako dlhšie testy (napr. Embretson, 1999).

Minimálne úrovne prijateľnej spoľahlivosti by vo všeobecnosti mali byť určené zamýšľanou aplikáciou a pravdepodobnými dôsledkami skóre testov. Niekoľko psychometrikov navrhlo pokyny na vyhodnotenie koeficientov spoľahlivosti testovacích skóre (napr. Bracken, 1987 Cicchetti, 1994 Clark & ​​amp Watson, 1995 Nunnally & amp Bernstein, 1994 Salvia & amp Ysseldyke, 2001) v závislosti od toho, či sa majú testové skóre použiť na vysoké hodnoty. -alebo rozhodovanie s nízkymi vkladmi. Vysoké stávky testy sa týkajú testov, ktoré majú dôležité a priame dôsledky, akými sú klinická diagnostika, umiestnenie, povýšenie, výber personálu alebo rozhodnutie o liečbe z dôvodu ich závažnosti, tieto testy vyžadujú prísnejšie a konzistentnejšie psychometrické štandardy. Nízke stávky testy majú naopak pre skúšaných len malé alebo nepriame dôsledky.

Potom, čo test spĺňa prijateľné pokyny pre minimálnu prijateľnú spoľahlivosť, má zvýšenie spoľahlivosti obmedzené výhody. Clark a Watson (1995) poznamenávajú, že „Maximalizácia vnútornej konzistencie takmer vždy vytvára mierku, ktorá je obsahovo dosť úzka, ak je škála užšia ako cieľový konštrukt, je svalidita ohrozená“ (s. 316–317). Nunnally a Bernstein (1994, s. 265) priamo uvádzajú: „Nikdy neprechádzajte na menej platné opatrenie jednoducho preto, že je spoľahlivejšie.“

Miestna spoľahlivosť a podmienená štandardná chyba

Indexy spoľahlivosti vnútornej konzistencie poskytujú jediný priemerný odhad presnosti merania v celom rozsahu skóre testov. Naopak, lokálna spoľahlivosť sa týka presnosti merania pri špecifikovaných úrovniach vlastností alebo v rozsahu skóre. Podmienená chyba sa týka rozptylu merania na konkrétnej úrovni latentného znaku a jeho druhá odmocnina je podmienená štandardná chyba. Zatiaľ čo klasická teória testu tvrdí, že štandardná chyba merania je konštantná a platí pre všetky skóre v konkrétnej populácii, teória odozvy na položku tvrdí, že štandardná chyba merania sa líši v závislosti od skóre testu získaného vyšetrovaným, ale zovšeobecňuje naprieč populáciami (Embretson & amp. Hershberger, 1999).

Univerzálny neverbálny inteligenčný test (UNIT Bracken & amp McCallum, 1998) ilustruje použitie klasickej teórie testov pri určovaní lokálnej spoľahlivosti lokálne spoľahlivosti z orientácie klasickej testovacej teórie. Na základe odôvodnenia, že spoločné skóre pri klasifikácii jedincov s mentálnym postihnutím je FSIQ rovné 70, bola vypočítaná spoľahlivosť skóre testov obklopujúcich tento rozhodovací bod. Konkrétne koeficient alfa spoľahlivosti boli vypočítané pre FSIQ od - 1,33 a - 2,66 štandardných odchýlok pod normatívnym priemerom. Spoľahlivosti boli opravené na obmedzenie v rozsahu a výsledky ukázali, že kompozitné spoľahlivosti IQ prekročili navrhované kritérium 0,90. To znamená, že JEDNOTKA je v tomto rozsahu schopností dostatočne presná, aby spoľahlivo identifikovala individuálnu výkonnosť v blízkosti spoločného bodu prerušenia pri klasifikácii ako mentálne retardovanej.

Teória odozvy položky umožňuje stanovenie podmienenej štandardnej chyby na každej úrovni výkonu testu. Niekoľko opatrení, ako napríklad stupnice diferenciálnej schopnosti (Elliott, 1990) a stupnice nezávislého správania-revidované (SIB-R Bruininks, Woodcock, Weatherman, & amp Hill, 1996), uvádza pre každé skóre testu chyby miestneho štandardu alebo lokálnu spoľahlivosť. Táto metodika nielenže určuje, či je test presnejší pre niektorých členov skupiny (napr. Vysoko fungujúce osoby) ako pre ostatných (Daniel, 1999), ale sľubuje aj to, že mnoho ďalších indexov pochádza z indexov spoľahlivosti (napr. Indexová nezrovnalosť) skóre) sa môže nakoniec prispôsobiť skutočnému výkonu skúšaného. K dispozícii je niekoľko metodík založených na IRT na odhadovanie spoľahlivosti lokálneho rozsahu pomocou podmienených štandardných chýb merania (Andrich, 1988 Daniel, 1999 Kolen, Zeng, & amp Hanson, 1996 Samejima, 1994), ale žiadna sa zatiaľ nestala testovacím priemyselným štandardom.

Časová stabilita

Sú výsledky testov v priebehu času konzistentné? Skóre testu musí byť primerane konzistentné, aby malo praktické využitie pri klinickom a vzdelávacom rozhodovaní a predpovedalo budúci výkon. Koeficient stability alebo koeficient spoľahlivosti skóre opakovania testu je indexom časovej stability, ktorý je možné vypočítať koreláciou výkonu testu pre veľký počet vyšetrovaných v dvoch časových bodoch. Dva týždne sa považujú za preferovaný časový interval opakovania testu (Nunnally & amp Bernstein, 1994 Salvia & amp Ysseldyke, 2001), pretože dlhšie intervaly zvyšujú množstvo chýb (v dôsledku dozrievania a učenia) a majú tendenciu znižovať odhadovanú spoľahlivosť.

Bracken (1987 Bracken & amp McCallum, 1998) odporúča, aby bol celkový koeficient stability testu vyšší alebo rovný 0,90 pre testy s vysokými stávkami v relatívne krátkych intervaloch opakovania testu, zatiaľ čo koeficient stability 0,80 je primeraný pre nízke testovanie stávok. Koeficienty stability môžu byť falošne vysoké, dokonca aj pri testoch s nízkou vnútornou konzistenciou, ale testy s nízkymi koeficientmi stability majú zvyčajne nízku vnútornú konzistenciu, pokiaľ neberú do úvahy vysoko variabilné stavové konštrukty, ako je stavová úzkosť (Nunnally & amp Bernstein, 1994). Ako všeobecné pravidlo sa ako indexy spoľahlivosti uprednostňujú opatrenia vnútornej konzistencie pred koeficientmi stability.

Interrater Konzistencia a konsenzus

Kedykoľvek testy vyžadujú, aby pozorovatelia poskytli úsudky, hodnotenia alebo skóre za konkrétne správanie alebo výkon, konzistentnosť medzi pozorovateľmi predstavuje dôležitý zdroj presnosti merania. Na štúdium konzistencie a konsenzu medzi pozorovateľmi sa použili dva oddelené metodologické prístupy: spoľahlivosť interratéra (pomocou korelačných indexov na referenčnú konzistenciu medzi pozorovateľmi) a interratterová dohoda (riešenie percentuálnej zhody medzi pozorovateľmi, napr. Tinsley & amp Weiss, 1975). Tieto charakteristické prístupy sú nevyhnutné, pretože je možné dosiahnuť vysokú spoľahlivosť interratérov s nízkou evidentnou zhodou medzi hodnotiteľmi, ak sú hodnotenia odlišné, ale proporcionálne. Podobne je možné mať nízku spoľahlivosť interratéra s vysokou evidentnou zhodou medzi hodnotiteľmi, ak indexom konzistencie chýba sila kvôli obmedzeniu rozsahu.

Spoľahlivosť interratéra sa týka proporcionálnej konzistencie rozptylu medzi hodnotiteľmi a býva korelačná. Najjednoduchší index zahŕňa koreláciu celkových skóre generovaných rôznymi hodnotiteľmi. Vnútro triedna korelácia je ďalším indexom spoľahlivosti, ktorý sa bežne používa na odhad spoľahlivosti hodnotení. Jeho hodnota sa pohybuje od 0 do 1,00 a dá sa použiť na odhad očakávanej spoľahlivosti buď individuálnych hodnotení poskytnutých jedným hodnotiteľom, alebo priemerného hodnotenia poskytnutého skupinou hodnotiteľov (Shrout & amp Fleiss, 1979). Ďalší index spoľahlivosti, Kendallov koeficient zhody, určuje, aká spoľahlivosť medzi hodnotenými údajmi existuje. Tento postup je vhodný, keď sa od hodnotiteľov požaduje, aby zoradili osoby alebo správanie v určenej dimenzii.

Dohoda Interrater sa týka zameniteľnosti rozsudkov medzi hodnotiteľmi a rieši, do akej miery hodnotitelia hodnotia rovnako. Indexy dohody medzi hodnotiteľmi zvyčajne odhadujú percentuálny podiel zhody na kategorických a ratingových rozhodnutiach medzi pozorovateľmi, pričom sa líšia v miere, v akej sú citlivé na mieru zhody, ktorá je správna pre náhodnú dohodu. Cohenovej kappa je široko používaná štatistika dohody medzi pozorovateľmi určená pre situácie, v ktorých hodnotitelia klasifikujú položky hodnotené do diskrétnych nominálnych kategórií. Hodnoty kappa sa pohybujú od - 1,00 do +1,00, hodnoty kappa 0,75 alebo vyššie sa vo všeobecnosti chápu ako indikácia vynikajúcej zhody nad náhodu, hodnoty medzi 0,60 a 0,74 sa považujú za dobrú zhodu, hodnoty medzi 0,40 a 0,59 sa považujú za spravodlivé a tie nižšie, 40 sú považované za chudobné (Fleiss, 1981).

Spoľahlivosť a zhoda interratéra sa môže logicky líšiť v závislosti od stupňa konzistencie očakávaného od konkrétnych sád hodnotiteľov. Dá sa napríklad očakávať, že ľudia, ktorí hodnotia správanie dieťaťa v rôznych kontextoch (napr. Škola vs. domov), budú vytvárať nižšie korelácie ako dvaja hodnotitelia, ktorí hodnotia dieťa v rovnakom kontexte (napr. Dvaja rodičia v domácnosti alebo dvaja učitelia v škole). V prehľade 13 predškolských sociálno-emocionálnych nástrojov bola drvivá väčšina uvádzaných koeficientov interraterovej kongruencie pod 0,80 (rozsah 0,12 až 0,89). Walker a Bracken (1996) skúmali zhodu biologických rodičov, ktorí hodnotili svoje deti v štyroch stupniciach hodnotenia predškolského správania. Interparentná zhoda sa pohybovala od najnižšej hodnoty 0,03 (batéria pre hodnotenie temperamentu pre deti, jednoduchosť riadenia prostredníctvom rozptýlenia) až po najvyššiu hodnotu 0,79 (batéria pre posudzovanie temperamentu pre deti prístup/stiahnutie). Okrem obáv z nízkych koeficientov kongruencie autori vyjadrili aj obavu, že 44% rodičovských párov malo priemernú odchýlku naprieč škálami od 10 do 13 štandardných rozdielov v skóre v rozmedzí od 0 do 79 štandardných bodov.

Interraterové štúdie sa prednostne vykonávajú v terénnych podmienkach, aby sa zlepšila zovšeobecniteľnosť testovania klinickými lekármi „vykonávajúcimi v časových obmedzeniach a podmienkach svojej práce“ (Wood, Nezworski a Stejskal, 1996, s. 4). Cone (1988) opísal interscorer štúdie ako zásadné pre meranie, pretože bez skórovania konzistentnosti a súhlasu nie je možné riešiť mnoho ďalších problémov so spoľahlivosťou a validitou.

Zhoda medzi alternatívnymi formami

Keď sú k dispozícii dve paralelné formy testu, potom korelácia skóre v každom formulári poskytuje ďalší spôsob hodnotenia spoľahlivosti. V klasickej teórii testov striktná paralelizmus medzi formami vyžaduje rovnosť prostriedkov, odchýlok a kovariancií (Gulliksen, 1950). Bola navrhnutá hierarchia metód na určenie zdrojov chýb merania pomocou alternatívnych foriem (Nunnally & amp Bernstein, 1994 Salvia & amp Ysseldyke, 2001): a) posúdiť spoľahlivosť alternatívnych foriem s dvojtýždňovým intervalom medzi formami, b) podávať obidve formy v ten istý deň, a ak je to potrebné (c) zariadiť, aby rôzni hodnotitelia hodnotili formy podávané s dvojtýždňovým intervalom opakovaného testu a v ten istý deň. Ak je korelácia skóre v intervale dvoch týždňov medzi alternatívnymi formami nižšia ako koeficient alfa o 0,20 alebo viac, potom je prítomná značná chyba merania v dôsledku vnútornej konzistencie, skóre subjektivity alebo nestability znakov v priebehu času. Ak je korelácia skóre podstatne vyššia pre formy podávané v ten istý deň, potom chyba môže vyplývať z variácií vlastností v priebehu času. Ak korelácie zostanú nízke pre formy podávané v ten istý deň, potom sa tieto dve formy môžu líšiť v obsahu, pričom jedna forma je vnútorne konzistentnejšia ako druhá. Ak sú variácie vlastností a rozdiely v obsahu vylúčené, potom porovnanie subjektívnych hodnotení z rôznych zdrojov môže umožniť, aby hlavný zdroj chýb bol prisúdený subjektivite bodovania.

V teórii odozvy na položky je možné porovnať testovacie formuláre preskúmaním formulárov na úrovni položky. Formuláre s položkami s porovnateľnými ťažkosťami s položkami, odpoveďami omilostenými a štandardnými chybami podľa úrovne vlastností budú mať spravidla adekvátnu úroveň spoľahlivosti alternatívnej formy (napr. McGrew & amp Woodcock, 2001). Ak sú napríklad ťažkosti položky pre jeden formulár vynesené proti ťažkostiam pre druhý formulár, očakáva sa jasný lineárny trend. Keď sú surové skóre vynesené proti úrovniam vlastností pre dve formy do rovnakého grafu, ogive diagramy by mali byť identické.

Skóre z rôznych testov, ktoré využívajú rovnaký konštrukčný prvok, nemusí byť zároveň súbežné, ak obidve zahŕňajú sady úrovní spôsobilosti položky, ktoré sú závislé na hodnotách testovaných látok. Ako uvádza Embretson (1999), „Porovnávanie skóre testov vo viacerých formách je optimálne, ak sa úrovne obtiažnosti testu u rôznych osôb líšia“ (str. 12). Schopnosť IRT odhadnúť úroveň znaku v rôznych testoch nevyžaduje predpoklady rovnobežných tvarov ani testy s rovnakými hodnotami.

Generalizácia spoľahlivosti

Spoľahlivosť zovšeobecnenie je metaanalytická metodika, ktorá skúma spoľahlivosť skóre v rámci štúdií a vzoriek (Vacha-Haase, 1998). Rozšírenie generalizácie platnosti (Hunter & amp Schmidt, 1990 Schmidt & amp Hunter, 1977), generalizácia spoľahlivosti, skúma stabilitu koeficientov spoľahlivosti vo vzorkách a štúdiách. Aby sa demonštrovala presnosť merania pre populácie, pre ktoré je test určený, test by mal preukázať porovnateľné úrovne spoľahlivosti v rôznych demografických podskupinách populácie (napr. Pohlavie, rasa, etnické skupiny), ako aj vo významných klinických a výnimočných populáciách .


Abstrakt

Dynamike spracovania, ktorá je základom dočasných rozhodnutí, a dobám odozvy, ktoré generujú, sa pri štúdiu intervalového načasovania venovala malá pozornosť. Naproti tomu modely iných jednoduchých foriem rozhodovania boli rozsiahle skúmané pomocou reakčných časov, čo viedlo k podstatnému rozpojeniu medzi časovými a nečasovými teóriami rozhodovania. Zastrešujúci teoreticko-teoretický rámec, ktorý zahŕňa existujúce, nie dočasné časové modely rozhodovania, však môže zohľadňovať samotné intervalové načasovanie aj časové rozhodovanie. Hľadali sme dôkazy pre tento rámec v časovej diskriminácii ľudí testovaných na úlohe časovej delenia. V tejto úlohe účastníci retrospektívne kategorizovali skúsené doby stimulu ako krátky alebo dlho na základe ich vnímanej podobnosti s dvoma, zapamätanými referenčnými trvaniami a boli odmenení iba za správnu kategorizáciu týchto referencií. Naša analýza pomerov výberu a reakčných časov naznačuje, že dvojstupňový sekvenčný difúzny proces, parametrizovaný tak, aby maximalizoval získané odmeny, mohol predstavovať hlavné vzorce výkonu delenia. Prvá fáza difúzie kráti intervaly akumuláciou endogénne hlučného hodinového signálu, druhá fáza rozhoduje o dočasnej reprezentácii prvého stupňa akumuláciou dôkazov prvého stupňa poškodených endogénnym hlukom. Maximalizácia odmeny vyžaduje, aby miera akumulácie a počiatočný bod druhého stupňa boli založené na stave časovača prvého stupňa na konci trvania stimulu a aby sa odhady oneskorení, ktoré nesúvisia s rozhodnutím, znižovali v závislosti od stimulu trvanie. Výsledky sú v súlade s týmito predikciami, a preto podporujú rozšírenie driftovo -difúzneho modelu statického rozhodovania o doménu intervalového načasovania a časových rozhodnutí.