Missbruk av statistik?

I förra veckan presenterades med stor mediauppmärksamhet en undersökning om betygens långsiktiga inverkan på elevers studieresultat. Anna Sjögren från institutet för arbetsmarknadspolitisk utvärdering hade jämfört utvecklingen för elever som fått betyg i trean och sexan med dem som fick betyg först på högstadiet. Jämförelsen gjordes genom att se hur det gick för de studerade eleverna. Fyra olika ”framgångs”-mått definierades för varje elev:

  1. Hur lång utbildningslängd har eleven haft i sitt liv
  2. Vilken årsinkomst hade eleven hamnat i
  3. Lyckades eleven få till en gymnasieexamen
  4. Lyckades eleven få en universitetsutbildning

I slutordet skriver Anna Sjögren bland annat:

”Resultaten av analysen tyder på att betygsfriheten i genomsnitt missgynnade flickors utbildningslängd även om den genomsnittliga effekten är liten, bara ca 3 veckor”

”Medan sannolikheten att klara gymnasiet minskade bland söner till lågutbildade när betygen avskaffades, ser betygsfriheten istället ut att ha gynnat söner till högutbildade föräldrar”

Som synes är uttalandena i rapporten synnerligen försiktiga, författaren har nog en känsla av att evidensen är svag. Men, det blir ändå en stor nyhet i media, det är ju politiskt sprängstoff. Björklunds sympatisörer jublar medan de rödgröna deppar. Ingen tycks ifrågasätta grunderna för resultaten, något som jag tidigare berört här: ”Forskarna säger…”.

Då jag själv är politiskt intresserad och statistiskt bevandrad, visserligen inom tekniska tillämpningar, men ändå, så sökte jag rätt på rapporten och började granska den. Det är en omfattande undersökning som gjorts och Anna Sjögrens ambition, noggrannhet och vilja till objektivitet kan man inte ifrågasätta, dock måste jag ifrågasätta hennes statistiska kompetens.

Min slutsats efter granskningen är att den inte säger ett dugg om hur betygsreformen påverkat elevernas utveckling. De resultat som kallas ”evidence” i den engelskspråkiga rapporten kan mycket väl vara helt slumpmässiga och är oanvändbara som underlag för politiska beslut.

Att man överhuvudtaget kan hoppas på att hitta några effekter här är ett resultat av att reformen genomfördes under en längre tid i Sverige och att man därmed kan jämföra betygssatta och betygsfria elever från samma årskull.  Förutsättningarna tycks alltså vara goda. men det visar sig inte hjälpa, man tvingas frångå grundläggande statistiska metodregler för att hitta samband.

Jag finner tre kardinalfel i rapporten, angående

  • metodik,
  • bortfall och
  • massignifikans.

Innan jag går in på min kritik skall jag försöka förklara det viktiga statistiska begreppet signifikans:

När man gör statistiska tester utgår man från en hypotes och uppskattar hur stor sannolikheten är för att ens resultat kunde ha uppstått av ren slump, dvs. av andra orsaker än de man identifierat. Om denna sannolikhet är liten så har man alltså stöd för sin hypotes och man säger att hypotesen är signifikant. Sannolikhetsgränsen, signifikansnivån, bestäms i förväg och brukar oftast väljas till 5 %.

För att testa komplicerade hypoteser, såsom den nu aktuella, formulerar man normalt en matematisk modell som kan användas för att eliminera störande inverkan från andra effekter än dem man är intresserad av. I det aktuella fallet konstrueras en modell som inkluderar effekter som samhällstrend, kommun och årskull.

Man tycks ha ägnat mycket kraft åt att finna en relevant matematisk modell, trots de stora svårigheterna med sådant här material, men analysen med hjälp av modellen innehåller så stora brister, tycker jag, att man faktiskt inte har någon aning om den slutliga signifikansnivån. De tre kardinalfelen:

Metodik, den som söker han skola finna

Den statistiska analysen av datamaterialet har gått till på följande sätt:

  1. Man gjorde först en modell som skulle testa om avskaffandet av betygen påverkat de fyra framgångsmåtten. Det visade sig då att ingen signifikant förändring kunde konstateras, varken för pojkar eller flickor.
  2. Man spekulerade då i att det kunde finnas en effekt i hur  långt ifrån tillfället för reformens genomförande en elev befann sig i systemet. Man gjorde då en uppdelning i fjorton grupper efter deras avstånd till reformgenomförandet på respektive skola. Denna modifierade matematiska modell användes sedan för att jämföra barn till låg-, mellan-, resp. högutbildade föräldrar.
  3. Trots denna efterhandskonstruktion hittade man alltför få ”signifikanser” på den traditionella 5 %-nivån och bestämde sig att istället använda 10 %-nivån.

Denna forskningsmetodik är helt förkastlig. Det är faktiskt så att om man t.ex. simulerar slumptal i en dator så kommer man om man letar tillräckligt länge hitta falska samband, helt enkelt för att slumptal ofta samlar ihop sig i grupper. Sättet att undvika att göra sådana fel är att bestämma i förväg vilka hypoteser man tänker testa på vilken signifikansnivå och hålla sig till detta.

Bortfall.

Tyvärr har bara 187 av 290 kommuner svarat på Anna Sjögrens enkätundersökning. Hela undersökningen grundar sig alltså på ca 65 % av kommunerna. Detta vore inget problem ur statistiskt perspektiv om urvalet hade varit slumpmässigt med avseende på det man vill undersöka. Men är det så? Det har vi tyvärr ingen aning om, det skulle ju kunna vara så att det finns något samband mellan att man inte svarar och att det gått dåligt eller bra för ens elever.

Det finns många exempel på hur statistiska slutsatser gått snett på grund av detta. Ett jag själv minns var när man på en valvaka räknade ut KD efter den s.k. vallokalsundersökningen, det fick signifikant under 4 % och skulle åka ur riksdagen. När rösterna var räknade visade det sig att KD klarade sig med god marginal. Vem kunde ana att just KD-sympatisörer tenderade att avstå från att svara i vallokalsundersökningen?

Massignifikans

Som sagt, signifikansnivån 10 % i statistiken betyder att det är högst 10 % sannolikhet att man skall få ett resultat, så extremt som det man observerat, av rent slumpmässiga skäl. Om man nu gör tio sådana test oberoende av varandra så kan man därmed förvänta sig att man hittar signifikans i en av dem även om utfallet är helt slumpmässigt. Detta kallas ibland massignifikansproblemet, ett problem som löses med teorier kring multiple comparisons.

I Anna Sjögrens slutliga undersökning, efter efterhandsjusteringarna av modellen, har hon 17 grupper av elever, fyra framgångsfaktorer, tre föräldraklasser och pojkar/flickor. Detta gör att hon genomför 17*4*3*2=408 signifikanstester på 10 %-nivån.  Av 408 statistiska tester kan man, om det hela är helt slumpmässigt, förvänta sig att 41 intervall på 10%-nivån visar signifikans. I den aktuella undersökningen hittar man totalt 50.

Detta kan alltså mycket väl vara ett rent slumpmässigt resultat. Nu är det kanske inte så, nästan alla skattningar går nämligen åt samma håll, dvs. visar överensstämmande resultat inom de konstlade tidsgrupperingarna. Detta antyder någon inverkan, men vad signifikansnivån egentligen är kan man helt enkelt inte uttala sig om förutom att den uppenbarligen är klart högre än 10%.

De tre kardinalfel som jag här har diskuterat är fallgropar som är lätt att falla i när man fascinerats av de statistiska verktygen och leker med statistisk programvara. Jag har själv gjort sådana misstag.

Skyddet mot sådana misstag i vetenskapliga sammanhang är granskningsförfarande. I det aktuella fallet har ännu inte rapporterna ganskats i det vetenskapliga granskningssystemet, då det inte är publicerat i någon vetenskaplig tidskrift. Men, Anna Sjögren är inte ensam, hon har samarbetat med Johnny Zetterberg, doktor i nationalekonomi, och hon ”är tacksam för synpunkter från…” och räknar upp sex namn. En snabb koll med Google visar att åtminstone fyra av dem är doktorer i ekonomi,  en är doktor i ”Public Policy”, ingen är statistiker.

Är detta missbruk av statistiska metoder etablerat i sociologin och nationalekonomin, eller råkade jag komma över ett udda exempel? Man undrar.

Referenser:

Anna Sjögren, Betygsatta barn – spelar det någon roll i längden? Rapport 2010:8, IFAU – Institutet för arbetmarknadspolitisk utvärdering.

Anna Sjögren,  Graded children – evidence of longrun consequences of school grades from a nationwide reform. Working paper 2010:7, IFAU – Institute for labour market policy evaluation.

47 svar to “Missbruk av statistik?”

  1. Niklas Says:

    Bra och tydligt skrivet som vanligt Thomas! Ja, vad skall man säga. Det är så trist att säga att man inte är det minsta förvånad, min uppfattning är tyvärr att mycket av all vetenskapen idag är ganska ”enkel” och inte speciellt nydanande eller djuplodande. Självklart finns det massor av bra vetenskap fortfarande men den generella kvalitén är inte så fantastiskt hög. Kanske beror det på att det skall gå snabbt och att man kräver X antal rapporter per år.

    Har du skickat din text ovan till Anna Sjögren? Vore intressant och höra hennes synpunkter.

  2. Thomas Svensson Says:

    Ja, Niklas, hur stor del av samhällsvetenskapen är egentligen vetenskap? Jag funderar just på att jämföra naturvetenskap, ingenjörskonst och samhällsvetande i ett Popperskt perspektiv.

    Jag skickade en länk till mitt blogginlägg till Anna Sjögren, förhoppningsvis kommer hon med en kommentar så småningom.

  3. Björn Says:

    det här var ju mycket mycket intressant Thomas. Tack för ett bra och lärorikt inlägg!

  4. farbror Says:

    Det där med vallokalsundersökningar är intressant. När släpptes resultatet av undersökningen? Nyheten att KD riskerade att åka ur kan ju ha fått några politiskt närastående horder att taktikrösta (”Lex Kamrat Fyra Procent”).

    Bortfallet är till synes stort men det är av (tror jag) en ganska normal omfattning för studier av detta slag.

    Det mest genanta är väl om man faktiskt har låtit den insamlade datamängden ha varit styrande för vilken modell man skall använda.

  5. Betygen fungerar | Christermagister Says:

    […] Missbruk av statistik —————- Om du inte följt bloggen tidigare och vill läsa mer om betyg […]

  6. Kristian Grönqvist Says:

    Thomas

    Intressant genomgång. ffa om det kunde vara si eller så. Det här har förstår inget att göra med din egen agenda?

  7. Jan Lenander Says:

    Eftersom jag också tycker att det är viktigt att förstå statistik på djupet så att det inte bara blir ett trovärdigare sätt att ljuga så har jag en del jämförelsematerial. Anna Sjögrens undersökning innehåller till att börja med riktigt tydliga kriterier för att mäta om betygen är bra eller inte. Den har en modell som är genomarbetad och baserad på tidigare forskning. För en naturvetare som mig känns det förstås fortfarande tunt men jämför man med andra områden är det här långt över genomsnittet.

    Jag är förstås också skeptisk till att undersöka en alternativ hypotes och att nöja sig med 10% nivån men ifall man bara använder sig av detta under utvärderingsfasen och dessutom bara för en alternativ hypotes så är det visat att slutsatsen kan ha en rimlig nivå av trovärdighet.

    När det gäller bevis för att betygen skulle vara skadliga har stora mängder forskning försökt att bevisa det i mer än 40 år och inte producerat något som ens varit i närheten av lika gediget som det Anna Sjögren åstadkommit.

  8. Thomas Svensson Says:

    Kristian:

    Jag har nog egentligen ingen agenda i denna fråga. Men jag är intresserad av skolans ständiga misslyckande, vilket förmodligen är orsaken till att gjorde mig besväret att granska dessa rapporter.

    Jag är tvehågsen om nyttan av betyg.Själv fick jag betyg från och med ettans vårtermin, tror jag, och jag minns hur jag såg fram emot betygen varje termin. Kanske berodde detta på att jag var en förhållandevis flitig liten gosse, men jag kommer inte ihåg att mina klasskamrater var mindre intresserade av betygsutdelningen.

    Samtidigt tycker jag att lärande görs bäst i en kreativ anda av glädje över växande kunskap och skulle gärna se att man kunde inplantera en anda som gjorde betygen överflödiga. Men ännu har man knappast lyckats med något i den vägen. Betygens betydelse för mina tre vuxna barns utveckling borde jag ha en uppfattning om, men jag har inget minne av att vi hade någon åsikt om dem, det var nog andra förhållanden som betydde mera, tror jag.

  9. Thomas Svensson Says:

    Jan:

    Jag håller med dig om att modellen i detta fall tycks vara mycket väl genomtänkt och det är inte den jag kritiserar.

    Det du kallar rimlig nivå för trovärdighet är, som jag påpekar under rubriken massignifikans, ytterst nära det man kan förvänta sig vid en fullständig slumpmässighet. Hur nära kan man inte bedöma då det finns mycket beroenden i de lika testerna och att min uppskattning om förväntade 41 stycken 10 %-signifikanser därmed är en underskattning.

    Problemet är att man efter bortfall, efterhandskonstruktioner och massignifikans inte har någon som helst kontroll över signifikansnivån. Vi har ingen aning om hur sannolikt det är att resultatet är ett utslag av slumpen, dvs. av orskakssammanhang vi inte har kontroll över.

    Men, undersökningen har ändå gett ett mycket viktigt resultat, nämligen att betygsreformens inflytande på elevernas ”framgång” var oväsentlig, dess inflytande drunknar i allehanda andra faktorers inverkan. Det är inte viktigt för de här mätbara framgångsfaktorerna om man har betyg eller inte.

    Detta är en tröst för mig som är tvehågsen angående betygens nytta och kanske också för dig då betygen i alla fall inte har visat sig vara skadliga med avseende på de mätta egenskaperna.

    Din uppfattning att denna undersökning ligger klart över genomsnittet jämfört med andra områden är verkligen ingen tröst, det gör mig bara mer bekymrad.

  10. Thomas Svensson Says:

    farbror:

    Vallokalsundersökningen görs alltid utanför vallokalerna, dvs. den påverkar inte någon att taktikrösta. Nej, i det fallet var det just bortfallet som var den allmänna förklaringen, men jag minns inte hur stort det var.

    Vad som är mest genant skall jag låta vara osagt, men jag skulle säga att de tre kardinalfelen var för sig är tillräckliga för att misskreditera det klena resultatet.

  11. Jan Lenander Says:

    Thomas, jag blir också missmodig över den otroligt låga standarden på forskning kring betyg, omdömen och utvärdering av kunskapstillväxt. Något som lämnar fältet öppet för någon typ av politisk debatt med enorma övertoner.

    Jag har själv precis som du alltid lockats av kunskaperna i sig själv och egentligen inte funderat mycket kring mina betyg men då har också nästan hela det smörgåsbord av kunskap som skolan tillhandahållit känts relevant för en kille med teoretisk läggning. Jag upplever att det är många elever som behöver få veta att ett stort svårgreppbart områden är något som de har nytta av för att ta sig an arbetet med att lära sig det.

    Bra omdömen kräver en kalibrering och betyg är enda sättet vi än så länge har hittat som kan hjälpa till med detta.

    Ibland funderar jag på om det inte egentligen finns en stor rädsla för att det som skolan säger är absolut nödvändigt att kunna skulle kunna väljas bort av elever som fick nyttan förtydligad. När Lars Ohly säger att ”alla ska kunna allt” så finns det ändå elever som vare sig vill eller kan lära sig vissa saker, åtminstone inte just då. Målrelaterade betyg gör det ytterst tydligt vilka mål eleverna verkligen vill uppnå och samhället har inte glädje av att understödja dem som vill låtsas ha kunskap som de inte besitter.

  12. Kristian Grönqvist Says:

    Som tidigare bloggare är jag också intresserad av betygens betydelse. Men jag följer en mycket mer empirisk metod.
    Sedan betygen i Sverige började avvecklas, har den svenska kunskapsnivån sjunkit till strax över Albanien. Finland , som ligger i särklass i Europa har betygen kvar och det är knappast troligt att det finska eleverna är så mycket bättre begåvade än de svenska. Det finns alltså ett generellt facit.
    Kommunaliseringen av skolan har dessutom lett till en inflation i omdömen, för att inte säga glädjebetyg och därmed gjort det svårare att hålla en koll på standarden i den svenska skolorna.
    Det är klara fakta som inte behöver statistiskt bevisas.
    Med agenda menade jag att Du tillhör den falangen som tycker att en fri och otvungen agenda är bäst i skolan, vilket jag inte helt håller med om.
    Att Du inte heller är alldeles till Dig för betyg gör mig ytterligare lite säkrare om agendans betydelse

    Som Jan så förtjänstfullt påpekar är forskningen om betydelsen av betygsfrihet mycket påvrare, vilket har lett till en nästan postmodernistisk tolkning av skolan roll, där tyckande och pedagogiska grepp prövas utan någon som helst dokumentation.

    När jag har anställt folk är det viktigare att de kan det de skall göra, inte att de kan samarbeta och vara trevliga. Jag kan nog lära dem att samarbeta. Trevlig skall telefonisten vara. Telefonsvarare är bara bedrägeri.

  13. Thomas Svensson Says:

    Kristian:
    Problemet med din empiriska metod är att det finns så oerhört mycket andra faktorer som inträffat under den period som kunskapsförflackningen pågått.

    Det är för att filtrera bort sådana andra faktorer som man gör undersökningar som den Anna Sjögren gjort. Men, det visar sig att inte ens det räcker. Störande faktorer dominerar så mycket att man inte kan dra mycket andra slutsatser än att självsäkra uttalanden som dina inte är att lita på – den studerade betygsreformen har helt enkelt visat sig vara förhållandevis betydelselös!

    Angående den agenda som du tillskriver mig är den, som sagt, inte klar för mig själv. Jag tillhör verkligen inte någon falang men sympatiserar starkt med Poppers gamla uttalande:

    ” …Men det är en kritik av tendensen att belasta institutionerna, i synnerhet utbild­ningsinstitu­tioner, med den omöjliga uppgiften att välja ut de bästa. Detta bör aldrig göras till deras upp­gift. Denna tendens förvandlar vårt utbild­ningsväsen till en kapplöpningsbana och en studiekurs till ett hinderlopp. I stället för att uppmuntra den studerande till att ägna sig åt studier för deras egen skull, i stället för att uppmuntra en sann kärlek hos honom till hans ämne och till forskningen, uppmuntras han till att studera för sin personliga karriärs skull; han uppmuntras att inhämta endast sådana kunska­per, som kan underlätta för honom att klara de hinder som han måste klara för sin befordran. Med andra ord grundas våra urvalsmetoder, t o m på vetenskapens område, på en något vulgär vädjan till den egna ambitionen.”

    Ur Det öppna samhället och dess fiender, 1945.

  14. Kristian Grönqvist Says:

    Thomas

    !945!! Du ser vad jag menar.
    Nästan lika illa som religion. Vi lever i 2010 och man har åsikter om skolan som är från 1945.
    Det är just det som är det stora problemnet med skolan.
    Popper och popperister tror att människor är som han. De är de inte.
    Människor är av naturen bekväma och vill helst inte göra det de inte är intresserade av.
    När man diskuterar med nördiga teoretiker tror de alltid att majoriteten av befolkningen är intresserad av att verkligen studera i skolan.
    Idag räcker det inte ens med den vulgära vädjan till ambitionen. Hälften av skoleleverna har inte ens ambition.
    De vill bara genomföra skolan med minsta möjliga ansträngning och sedan löser det sig nog.
    Då kan man inte komma dragandes med romantiska föreställningar om att de kommer att läsa av eget intresse. De eleverna finns naturligtvis, men de klarar av vilken skitskola som helst, just för att de är intresserade av eget bevåg eller föräldrars.

    Att bevisa att dessa romantiska föreställningar är realistiska, är just precis det, som ingen ännu lyckats bevisa med en utredning.
    Anna har istället kommit med en utredning som tycks visa på motsatsen.

    Personligen är jag helt ointresserad vilken sida av det politiska blocket som lyckas visa detta, eller vilken religion, men det förvånar mig att Du så okritiskt sväljer åsikter som envetet har försämrat vår kunskapsnivå.
    Och att skylla på komplexitet.
    Jfr med Finland som haft en liknande samhällsutvecklnig utom det neurotiska förhållande till ordning och betyg.

  15. janlenander Says:

    Jag är ytterst förtjust i Karl Popper och anser att större delen av hans tankar lever starkt även i dagens samhälle. Även tankarna om utbildningsväsendet talar till mig som alltid fokuserat på kunskapen framför betygen. Jag undrar dock om Karl Popper skulle ha tyckt något vidare om vissa typer av studier helt utan mål och om han verkligen ansåg att det skulle vara bra med ett samhälle utan urvalsmekanismer.

    Det känns som att de flesta av oss gärna vill välja bort vissa människor som läkare piloter mm när det handlar om att vi själva ska blir opererade, åka flygplan etc. Det är nog troligt att vi är en majoritet som inte heller tycker att samhället ska slösa bort praktikplatser och enormt dyra övningsutrustningar på de som inte visar någon talang.

    Den ännu mer grundläggande frågan om feedback är viktigt för att individer ska lyckas tycker jag att många skulle våga svara ett obehindrat JA på.

    Läs gärna mer på min blogg: http://janlenander.wordpress.com/2010/06/16/utvarderingar-och-aterkoppling/

  16. Thomas Svensson Says:

    Kristian:
    ”Vi lever i 2010 och man har åsikter om skolan som är från 1945”. Du skall veta att jag till råga på allt har åsikter om skolan som i mycket överensstämmer med Michel Montaigne från slutet av 1500-talet! Jag finner faktiskt ett mycket större värde i dessa gamla skrifter än i såväl ”flum”-pedagogikens företrädare som i Björklunds nostalgiska dogmer.

    Jag tror verkligen inte att ”majoriteten av befolkningen är intresserad av att verkligen studera i skolan”. Just därför ställer jag mig faktiskt frågande till vad majoriteten av befolkningen har där att göra under tolv år och tycker att man, för kreativitetens och kunskapsutvecklingens skull, borde skära ner skolundervisningen kraftigt. Då återstår förstås problemet med förvaringen av barnen, med det är en annan fråga.

    Du skriver att ”hälften av skoleleverna har inte ens ambition”. Du har säkert en poäng där, men jag kan inte inse på vilket sätt betygssättning skulle förbättra ambitionen eller förbättra lusten att lära, där tycker jag har Popper rätt.

    Du skriver vidare att ”Anna har istället kommit med en utredning som tycks visa på motsatsen”. Min genomgång ovan visar att den inte alls gör detta!

    Du påstår vidare att jag ”okritiskt sväljer åsikter som envetet har försämrat vår kunskapsnivå”. Vilka åsikter syftar du på? Poppers? Hur har dessa åsikter i så fall försämrat vår kunskapsnivå, vad jag vet har aldrig Popper varit någon auktoritet för inflytelserika skolpolitiker i Sverige, eller någon annanstans. Vilka andra åsikter har jag okritiskt svalt?

    Jan:
    Jag håller helt med dig om dina uppfattningar om utvärderingar och återkoppling. Jag har heller inte alls något emot betyg, oavsett vilka åsikter den gode Kristian tillskriver mig. Men problemet med skolan är mycket djupare än betygsfrågan, tror jag.

    Min granskning som ligger bakom detta blogg-inlägg visar ju på skrämmande brister i statistikkunskap hos doktorer i nationalekonomi.

    Jag har under mitt senare liv observerat att en majoritet av medelålders kvinnor öppet bekänner sig till flummiga idéer om healing, currylinjer, slagrutor och andra häxkonster. Dessa kvinnor har liksom jag fått betyg sedan småskolan. Till vilken nytta har man undervisat dem i naturvetenskap?

    En kollega på Chalmers blev i söndags uppringd av en journalist på aftonbladet som undrade hur många Globen som utsläppet av olja i Mexikanska golfen motsvarar. Han svarade att hon kunde fråga vem som helst som gått igenom gymnasiet och inte behövde besvära en matematikprofessor på söndagen med sådana frågor. Efter närmare eftertanke kom han emellertid på att det är busenkelt att få fram nödvändiga volymsuppgifter via intranet och sedan utföra en division – mellanstadiekunskap, alltså! Till vilken nytta ansträngde sig aftonbladets journalisters mattelärare? Kanske fick dessa journalister inte några betyg i småskolan, men det lär krävas synnerligen höga betyg för att komma in på journalisthögskolan.

  17. janlenander Says:

    Håller med om att betyg eller inte betyg bara påverkar skolan på marginalen men det ena stora problemområdet i skolans värld skyller jag på betygsmotståndarna. Det har blivit rent fult att tala om elever som är duktig och kunniga och det finns lärare som i sin iver att inte säga något negativt om en prestation kan kläcka ur sig urdumma saker som att ”det spelar ingen roll om du kan läsa eller inte”. Sådana kunskapsnegativa uttalanden är katastrofala för en bra skola finns det en tjej som har kontakter på Metro som sen skriver en hel kolumn om att jag har klarat mig så bra trots IG i det mesta så kan man förstå varför Sverige halkar efter när det gäller kunskap.

    Det andra huvudproblemet har du (Thomas) också berört. Varför ska man ha 12 år med sådana stora mängder av föreskriven kunskap och tvinga elever att försöka om och om igen med samma sak som de misslyckats med att lära sig tidigare och inte skaffat sig någon längtan efter att lära sig. Varför är det nödvändigt att stöpa alla elever i samma mall under så lång tid. Kan vi inte gruppera elever något tidigare efter förkunskaper och intressen och istället för att minska sommarloven öka elevers tid att fritt söka kunskap. Läs gärna: http://janlenander.wordpress.com/2010/06/01/det-ar-lattare-att-undervisa-elever-pa-liknande-niva/

  18. Heiti Ernits Says:

    Mycket bra och lärorikt inlägg! – och dessutom: kul diskussion!

  19. Nisse Says:

    Något som rör till det är att diskussionen om betyg tenderar att bara bli en, trots att den egentligen är två. Dels har vi den aktuella frågan om från vilken årskurs/ålder betyg bör ges som värdemätare på elevens prestation, men en separat diskussion som egentligen är mycket viktigare är hur och i vilken utsträckning betyg ska användas som instrument vid antagning till gymnasie- och högskoleutbildningar.

    Där finns mängder av problem i nuläget: personer med specialbegåvning missgynnas, a- och b-lag uppstår vid antagningen, ambitiösa elever får ägna mest tid åt de ämnen de är minst intresserade av, 20,0-inflationen gör att platser på de mest attraktiva programmen måste lottas ut. Sådant som inte alls påverkas av huruvida man delar ut bokstavsbeteckningar eller omdömen på mellanstadiet.

  20. Jan Lenander Says:

    Nisse! Till högskolan borde det kunna vara ytterst höga krav på förkunskaper och nästan inget urval baserat på allmänna betyg. Absolut att du har rätt i att nuvarande system har stora brister men än så länge är betyg bästa möjliga. Det ska inte vara någon lekstuga att gå på högskola utan vi behöver ha urval och höga krav på de som ska studera där.

  21. Jan Lenander Says:

    Viktigt att poängtera att betyg är ett utmärkt sätt att kalibrera omdömen och att deras vara eller inte vara inte hänger ihop med i vilken mån de används som urvalsinstrument till högskola.

  22. Kristian Grönqvist Says:

    Min diskussion rör just det tidiga urvalet i skolan. Redan efter klass sex kan en amatör avgöra vem som kommer att förkovra sig exeptionellt i skolan och vem som inte kommer det. Betygen skulle kunna vara en väg att närma sig detta.
    Jag håller helt med föregående bloggare om, att det har blivit något allvarligt fel i kunskapsinhämtandet om man har gått 12 år i skolan och fortfarande tror på troll och spöken. Då hade man faktiskt klarat sig med mindre.
    Vi behöver i ”den helige jämlikhetens namn” inte att alla blir studenter och inte vara värda det.
    Vi behöver ett antal studenter som är värda titeln.
    Det lömska med betygsdiskussionen i Sverige är att betyg jämställs med människovärde. Det är två helt olika saker. Min far var civilingenjör och min mor hade nödtorftigt klarat 6 år i folkskola. De var lika fina och värdefulla människor för det.
    Att en del värderar folk på ett endimensionellt sätt, är ju bara en brist hos värderaren, så det kan vi nog stå ut med….

  23. Heiti Ernits Says:

    Kristian:

    ”Redan efter klass sex kan en amatör avgöra vem som kommer att förkovra sig exeptionellt i skolan och vem som inte kommer det.”

    Vad är det du baserar detta påstående på? Det finns en oändligt massa faktorer som styr vad och hur man presterar i skolan. När kunskap dessutom skall formaliseras i ett betygxsystem, så finns det oerhört många faktorer som bestämmer huruvida kunskapen kan öht. kvantifieras eller om betygen (genom ex: prov) gör rättvisa på studentens kunskaper (ex: det finns gott om fall där elever inte kan prestera bra på prov – nervösitet, dålig studieteknik, oro, koncentrationssvårigheter etc). Du tycks ha en oerhört binär syn på kunskap, lärande, pedagogik och betyg.

  24. Jan Lenander Says:

    Kristian, drar man en parallell till sportens värld så är det inte så att man vet vilka som blir storspelare etc. redan vid 13-14 ålder. Då den intellektuella prestationens topp ligger senare i livet än den fysiska är det rimligt att dra slutsatsen att man inte kan bedöma vilka som har anlag för det ena eller det andra redan i 6:an. De äldre lärare jag diskuterat med säger att det var fler som gjorde en sen upphämtning av studieresultat i perioden innan de tidiga betygen slopades än det är numera. Du har förstås rätt i att det är tragiskt svårt att hitta exempel med sen förbättring av studieresultat men jag upplever att det borde gå för det finns många som gör en teoretisk uppryckning senare under sitt yrkesliv. Jag tror att tidigare nivåindelning skulle vara ett sätt att hjälpa just de som har potential som de inte visat.

    Heiti, verkligheten ställer ofta krav på koncentrationsförmåga och förmåga att klara pressade situationer, så det är kanske inte så fel om prov också testar dessa förmågor. När våra ungdomar någon gång i framtiden ska vinna en affär i kamp med kineser och andra så kommer det krävas att de kan koncentrera sig mycket på en kanske långrandig kund och att de inte blir nervösa när kunden försöker ställa så svåra frågor som möjligt. Jag hoppas att vi är överens om att det är bra att skolan närmar sig tillvaron som möter eleverna efteråt.

  25. Heiti Ernits Says:

    Jan:

    Visst är det så att det kan vara nyttigt att prestera i ”pressade situationer”. Man skulle eventuellt till och med ha skräddarsydda prov enkom för att testa denna ”färdighet”. Även om man inser – eller får göra det antagandet – att denna färdighet kan vara nog så svår att lära in. Denna förmåga byggs antagligen under hela vår livsstid och är summan av ens sociala interaktioner från barnspel. Så den borde egentligen skilja sig från individ till individ beroende på vilken familje-/vänssituation man är delaktig i. Man ser också att utbrändshetssymptom i vuxen ålder också inverkar negativt på denna färdighet. Men frågan är ju långt mer komplex. Det kan ex. handla om sociala effekter – struliga familjesituatione, dåligt med stöd hemifrån etc – just för stunden, i en viss given situation. Den sociokulturella pedagogiska teorin försöker ta lite hänsyn, men man inser att detta inte är nog, långt ifrån nog. Egentligen borde föräldrar etc vara mer direkt delaktiga i skolprocessen. Dvs: det moderna samhällets gränser mellan skola, fritid, hem borde kanske luckras upp lite? Ett arv från moderniteten som vi borde upplösa?

    Jag håller helt med om att pedagogiken skall närma sig den tillvaro som möter eleverna efter skolan.

  26. Thomas Svensson Says:

    Den komplexitet som ni tycks vara överens om, Heiti och Jan, är väl förklaringen till att man, trots ambitiösa ansträngningar, faktiskt inte lyckas hitta några signifikanta effekter av betygs”reformen” på sjuttiotalet.

    Om man vill veta något i framtiden så skulle man nu, när betygen skall återinföras, ta fasta på undersökningens brister och planera en analys om något decennium. Detta skulle kunna göras genom att planera införandet av betygen vid olika tillfällen i ett lämpligt urval av orter och sedan följa dessa elevers utveckling. På så sätt kunde man minska bortfallet, bestämma modellen i förväg, samt rikta in sig på någon utpekad hypotes för att undvika massignifikans.

  27. Jan Lenander Says:

    Det kan vara många yttre skäl till att en elev underpresterar och väldigt många av de som är svagast har det verkligen inte roligt hemma. När man luckrar upp gränserna skola, fritid etc. kan det dock tyvärr få en mycket dålig effekt. Det är orimligt att många lärare ska vara bra på en mängd saker utanför lärarrollen, de flesta som fokuserar kraftigt på något annat orkar då istället inte med pedagogiken.

    Mina erfarenheter från skolans värld är att ett starkt fokus på pedagogiken och inget annat är en trygghet för eleverna, tydliga omdömen riktade mot mål hjälper alla att hitta rätt och allra viktigaste är att absolut aldrig tycka synd om någon elev utan istället tro på deras möjligheter så mår de bättre.

  28. Jan Lenander Says:

    Thomas din modell för långsiktig vetenskapligt grundad skolförbättring låter väldigt bra. Tyvärr tror jag inte att några politiker kan tänka så hemskt mycket längre än nästa val och absolut inte avvakta några vetenskapliga resultat.

  29. Heiti Ernits Says:

    Jan:

    Jag förstår din farhåga. Men det jag snarare menade med uppluckringen av gränserna, var inte att läraren skall överta fler uppgifter, utan att föräldrarna involveras i högre grad i skolverksamheten. Det finns exempel på elev- och föräldrastyrelser som har givit goda resultat. Men inte minst att man tar mer ett kontextberoende grepp på eleven och kunskapsbildningen – därmed inte sagt att lärarna skall göra det. Man kan anställa annan personal: socionomer, elevpedgoger etc. (det finns bra exempel på skolor som tar ett helhetsperspektiv och jobbar tydligt ut mot föräldrarna mycket aktivt – dvs: mer än den klassiska uppföljningssamtalet). Jag tror att man är inspirerad av psykologens Urie Bronferbrenner när modellen för ”samverkansfaktorer” tas fram:

  30. Jan Lenander Says:

    Heiti, Det finns en curlingmentalitet där föräldrar känner sig så hjälplösa att de vänder sig till lärarna med frågor om hur de ska få sitt barn att gå och lägga sig, spela lagom mycket dataspel etc. Det är naturligt om många lärare är skeptiska till nyttan med mer föräldrarkontakter.

    Jag håller helt med om dina tankar kring föräldrar-skola samverkan och att det borde finnas ett bredare spektrum av olika kompetenser i skolans värld. Faran är att politikerna behöver spara pengar och samtidigt vill möta väljare/föräldrar som är oroliga inför sin egen uppfostran och därför tror politikerna att de kan vinna något på att omskola lärare till en mängd annat. Vad som drabbas är förstås kunskapstillväxten men det märks först flera mandatperioder senare.

  31. Björklund, Sjögren, Svensson och betyg « Tysta tankar Says:

    […] Länk […]

  32. Heiti Ernits Says:

    Håller absolut med Jan!

  33. Anders B Westin Says:

    Reptilhjärnan styr.

    På gymnasiet jagade jag en kvinna. Betygen rasade i botten.

    På Chalmers hade jag en kvinna. Betygen gick i höjden.

  34. Heiti Ernits Says:

    Anders:

    Frågan är om man kan dra sådana generella slutsatser utifrån din egen erfarenhet med din reptilhjärna ;-D

  35. Anders B Westin Says:

    Jag skämtade naturligtvis – men ändå bara delvis.

    Jag vill bara påpeka att en människas förmåga styrs av många besvärliga parameters som inte så enkelt förpackas i ett skolbetyg.

    Det är ju bara att studera Thomas eget cv på denna hemsida.

    Han styrdes i unga år av stränga politiska dygder.

  36. Jan Lenander Says:

    Hmm jag vill påpeka att skolbetyg inte ska handla om att förpacka en människas förmåga. De ska vara inriktade mot att bedöma hur nära man är ett tydligt mål.

  37. Anna Sjögren Says:

    Thomas,
    Jag har tagit del av dina synpunkter på min forskning. För enkelhetens skull går jag igenom den kritik du tar upp punkt för punkt. Detta kan kanske vara av intresse för övriga läsare av denna blogg. Det blir, med nödvändighet lite svårbegripligt för den som inte har läst uppsatsen, men för den intresserade hänvisar jag till den engelska rapport som Thomas har refererat till:

    Anna Sjögren, Graded children – evidence of longrun consequences of school grades from a nationwide reform. Working paper 2010:7, IFAU – Institute for labour market policy evaluation.

    Svar på Thomas kritik:

    Metodik

    1) Det finns både empiriskt och teoretiskt välgrundade skäl till att tro att betyg har olika betydelse för olika grupper. Ett av huvudargumenten bakom den studerade reformen var dessutom att betyg ansågs missgynna svagpresterande barn och barn från studieovan bakgrund. Att avstå från att undersöka effekter på olika grupper vore därför inte försvarbart.

    2) Jag har valt att i analysen undersöka reformens dynamik, dvs. skatta effekter av reformen på de kohorter som gick i skolan före, under och efter reformen för att på så sätt säkerställa att viktiga identifierande antaganden som ligger bakom en differences-in-differences analys är uppfyllda. Tillskillnad från naturvetenskapen analyserar samhällsvetare, och i detta fall en nationalekonom, sällan data som genererats i ett kontrollerat experiment. Vi är istället hänvisade till data som är genererade som en biprodukt av verkliga livet. Politiska beslut och reformer gör dock att det ibland uppstår situationer som i vissa avseenden kan liknas vid ett experiment i och med att en population som blir ”behandlad” av reformen blir det åtminstone nästan slumpvis. Om jag hade trott att det ”experiement” som uppstod till följd av betygsreformen verkligen behandlade elever slumpvis hade jag kunnat välja att endast presentera de tre första kolumnerna i tabell 4 i den engelska uppsatsen, som visar på signifikant negativa
    genomsnittseffekter av att avskaffa betyg för flickor och pojkar.

    Men, i likhet med politiska reformer i allmänhet infördes den reform som skapade den ”exogena” variation som utnyttjas för att studera effekter av betyg i denna uppsats inte helt slumpvis. Det är möjligt, och troligt att elevers studieprestationer i kommuner som valde att avskaffa betygen tidigt skilde sig i flera avseenden från andra kommuner, inte bara i nivåer utan även i hur utvecklingstrenden såg ut. Det är också möjligt att reformen i sig påverkade inte bara nivåer i ett slag utan att den kan ha fått gradvis genomslag eftersom det skulle kunna spela roll när elever får reda på att de inte ska få betyg. Dessutom kan det ske en anpassning till det nya systemet.

    Genom att kontrollera för kommunfixa effekter är det enkelt att hantera nivåskillnader. Det är knepigare med trender. Skillnader i utvecklingstrender, som egentligen inte har med reformen att göra, men som kan ha föranlett att reformen infördes just när den gjorde, kan förväxlas med eller dölja effekter av en reform om vi bara kontrollerar för dem i en före och efter analys. I de sista kolumnerna i tabell 4 framgår att trender, mycket riktigt tar bort en del av reformeffekten. Det kan vara en följd av att de signifikanta effekterna faktiskt bara handlade om skillnader i trender som inte hade med reformen att göra. Men, det kan också vara så att jag när jag kontrollerar för dessa trender också tar bort en sann reformeffekt.

    För att utreda hur det ligger till, är en lösning att skatta dynamiska effekter runt reformen samtidigt som man kontrollerar för skilda trender på kommunnivå. På så sätt låter jag den dynamik och förändring av utvecklingen som är gemensam för alla kommuner som genomför reformen plockas upp i de dynamiska effekterna, medan skillnader i utveckling mellan kommuner, som inte har med reformen att göra fångas upp av de kommunvisa trenderna. Man kan då också säkerställa att timingen av eventuella reformeffekter på ett trovärdigt sätt sammanfaller med reformen. För att göra tolkningen att de effekter jag finner faktiskt har med reformen att göra fordras att de inträffar efter reformen, för de kohorter som faktiskt påverkades av reformen. Dessutom ska, i idealfallet, ingenting hända före reformen. Att skatta effekter på kohorter som inte påverkades av reformen, dvs. prereform-kohorterna, är alltså en placeboanalys. För att dra slutsatser om reformeffekter räcker det alltså inte att hitta signifikanta estimat för någon enstaka post-reformkohort och i förekommande fall lyfts inte sådana estimat fram i texten som evidens för en effekt av reformen.
    3) Den grafiska redovisningen av resultaten redovisar 90-procentiga konfidensintervall. Jag har dock varit noggrann med att i texten tydligt redovisa när estimaten är signifikanta på 5-% nivån. Jag drar inte några slutsatser på basis av resultat som endast är marginellt signifikanta. Redovisningen av resultaten i tabellform i den engelska rapporten redovisar på gängse sätt när estimat är signifikanta på 1,5,10-procentsnivån.

    Bortfall
    Visst är det alltid önskvärt med en hög svarsfrekvens. Som framgår av Tabell 2 i den svenska rapporten avviker inte egenskaperna hos de kommuner som saknas i analysen nämnvärt från övriga. Det är också svårt att tro att arkivresurser idag skulle samvariera med betygsavskaffande och eventuella effekter av betyg för vissa elevgrupper.
    Om vi undersöker utvecklingen in genomsnittligt antal år i skolan för barn födda ett visst år i olika kommuntyper framgår att den kommuntyp som avviker är pionjärkommunerna, medan övriga följs åt, inklusive de kommuner som inte ingår i analysen. Det finns alltså inte skäl att tro att bortfallet är problematiskt, även om man naturligtvis aldrig kan vara säker.

    Massignifikans
    Som jag skriver ovan finns det en viktig poäng med att studera effekter på olika grupper och reformens dynamik. Den hypotes som prövas i analysen är inte heller om varje enskilt resultat är signifikant eller ej. För att dra slutsatsen att reformen hade någon effekt på en viss grupp fordras att dynamiken visar att effekterna inträffade för de kohorter som påverkats av reformen och att det inte finns signifikanta effekter på de kohorter som inte påverkades av reformen. Mycket riktigt kan enstaka signifikanta resultat vara en följd av slumpen. Slumpen brukar dock inte uppvisa systematik och regelbundenhet. Att slumpen skulle generera övervägande positiva estimat för de kohorter som påverkats av reformen i vissa grupper och negativa för andra och dessutom göra det på ett sätt som sammanfaller i tid med reformens genomförande är dock svårare att tro. Men, det är helt riktigt att det inte går att uttala sig om vad signifikansnivån är för hela den estimerade modellen.

    IFAU-rapporter har, när de väl publiceras, alltid granskats av en extern och en intern forskare samt av en intern redaktör – som också är forskare. Men självklart återstår att publicera uppsatsen i en vetenskaplig tidskrift. Jag har under resans gång fått mycket hjälp och synpunkter både av kolleger som är nationalekonomer, statistiker och statsvetare och på internationella vetenskapliga konferenser där uppsatsen presenterats och diskuterats. Som jag skriver i uppsatsen genomfördes den enkät som ligger till grund för informationen om när betygen avskaffades tillsammans med Johnny Zetterberg. Initialt samarbetade vi också med detta projekt. I det dataarbete, de litteraturstudier och det skrivande som resulterat i denna uppsats har vi dock inte samarbetat och för de eventuella fel och brister som finns vilar ansvaret på mig.

    Vänliga hälsningar
    Anna Sjögren

  38. Jan Lenander Says:

    Nu blev den här bloggen riktigt rolig. Högklassig diskussion. Jag är så nyfiken på ditt svar Thomas. Jag läser och lär.

    Kan inte avstå från att fundera på om det skulle gá att visa att det var generellt bättre med betyg vilket undersökningen antydde men inte kunde visa med någon signifikans. Tror själv att betygens motivaionseffekt är lág men att de kan ha bra efekter på undervisningens kvalitet och förmågan att ge omdömen.

  39. Thomas Svensson Says:

    Anna: Trevligt att du är villig att diskutera min kritik. Vi tycks ju vara överens om problemen i den statistiska analysen, men du tycks vidhålla, till skillnad mot mig, att dina resultat visar ”signifikanta långsiktiga effekter”.

    Jag menar inte att det är fel att undersöka effekter på olika grupper såsom mer eller mindre studievan familj. Men, med ambitionen att göra en sådan studie tycks det mig att man redan från början borde ha undersökt de intressanta grupperna med ”multipla jämförelsemetoder” för att ha kontroll över signifikansnivån.

    En mer besvärande gruppuppdelning är den i ”kohorter” eftersom den ”dynamiska” hypotesen tycks ha tillkommit först efter den ”signifikans”-fria testen på hela populationen. Ett sådant förfarande, med generering av hypoteser under analysens gång, leder i sin förlängning alltid till ”signifikanser” då nya hjälphypoteser kan tas fram efter hand.

    Jag lade, vid min läsning, märke till att du kunde ha tagit de tre första kolumnerna i tabell 4 och hävdat evidens mot betygsavskaffandet. Just därför förstod jag att din metodik inte är något medvetet falsarium och jag ansträngde mig för att skriva min kritik så att den inte skulle uppfattas som en sådan anklagelse.

    Du påpekar att den grafiska redovisningen av resultaten redovisar 90-procentiga konfidensintervall och att du varit noggrann med att i texten tydligt redovisa när estimaten är signifikanta på 5-% nivån. Jag finner det helt ok att använda 90 % konfidensintervall, om man bestämt sig för det på förhand. Men, om man väljer konfidensnivå efter det resultat man vill demonstrera är man ute på hal is. Dina påpekande i texten om enstaka 5 %-iga signifikanser vittnar dessutom om en omedvetenhet om massignifikansproblemet, tycker jag.

    Vad gäller bortfall är du förstås bättre än jag på att bedöma hur allvarligt det är i detta fall. Mitt exempel från vallokalsundersökningen visar emellertid att man måste vara försiktig. I det fallet hade man för en gångs skull ett facit, bara några timmar efteråt, och som sagt, vem hade kunnat förutsäga att just kristdemokrater inte hade lust att svara?

    Angående massignifikans skriver du att ”Slumpen brukar dock inte uppvisa systematik och regelbundenhet”. Det är förstås riktigt och som jag själv konstaterade gick ju de flesta signifikanser åt samma håll, inte alls slumpmässigt alltså. Jag funderar själv över hur man kan förklara sådana klumpvisa ”signifikanser” under slumpantagande. En förklaring kan vara att grupperna torde vara starkt beroende. Av dina 408 tester är ju 50 signifikanta på 10 %-nivån. Sannolikheten för att man skall få minst 50 av ren slump är, under antagande av oberoende mellan grupperna, ca 6 % enligt binomialfördelningen. Ganska otroligt, kanske. Men anta nu att närliggande kohortgrupper är helt beroende, dvs. beteendet hos två följande kohorter är precis lika. Då skulle vi om vi gjorde hälften av analyserna få 25 signifikanser av 204, vilket skulle kunna ske med 12 % chans av ren slump. Om vi tänker oss att fyra initlliggande grupper är helt beroende finge vi 12.5 signifikanser av 102 med sannolikheten 22 % för resultatet. På samma sätt skulle vi genom att dela upp i 34 grupper istället för 17 få fram att det bara var 1.5 % sannolikhet för resultatet. Vi ser alltså att grupperingar utan kontroll av beroendet kan resultera i mycket varierande signifikans *). Dessutom kan man väl förvänta sig att beroende gör att även ”slumpmässiga” signifikanser grupperar sig, även om resultaten råkar beror på annat än det vi studerar.

    Oavsett om resultatet är slumpmässigt eller ej har du genom bortfall, metodik och massignifikans förlorat den övergripande signifikansnivån. Denna är, enligt mitt sätt att se på statistisk metodik, avgörande för om man skall uttala sig om ”evidence”? Du håller ju också med mig om detta, då du skriver att ”det är helt riktigt att det inte går att uttala sig om vad signifikansnivån är för hela den estimerade modellen.”. Det är just denna slutsats som ligger till grund för min anklagelse om missbruk av statistik, ett missbruk som ger vissa politiker och murvlar oförtjänt vatten på sina kvarnar och i förlängningen misskrediterar statistiken som analysverktyg.

    Dock visar ditt gedigna modellerande, och försök att komma över samhällsvetarnas dilemman om brist på planerade försök, att inte heller motsatsen till dina slutsatser kan visas. Som jag nämnt i kommentarerna ovan: Det visar sig att frågan om betyg i trean och sexan varit ganska betydelselöst för de studerade effekterna. Andra faktorer, som döljs i ”slumpen”, har varit viktigare.

    *) Mina enkla räkneexempel är förstås idealiseringar, fullständigt beroende har vi inte och signifikansgraden beror på hur många effekter vi skattar. I det aktuella fallet har vi emellertid ett par miljoner observationer så antalet skattade effekter spelar inte så stor roll. Det slår mig nu att denna stora observationsmängd är ytterligare en anledning till att signifikansen är tveksam som beslutsunderlag. Med tillräckligt många observationer kan man nämligen alltid få signifikans, något som här yttrar sig i att den ”skattade” effekten för flickor är så liten att den knappast är relevant oavsett sin verkliga existens, vilket du ju också mycket riktigt påpekar i rapporterna.

  40. Jan Lenander Says:

    Thomas! En nyfiken fråga. I ett flertal undersökningssituationer så är det svårt att göra om ”experimentet” och inom flera mer samhällsvetenskapliga discipliner är detta mer regel än undantag. Kan det finnas ett sätt ställa upp en ny hypotes, modifierad hypotes och använda samma datauppsättning utan att det minskar den statiska trovärdigheten?

  41. Thomas Svensson Says:

    Jan:
    Jag tror det är oundvikligt att trovärdigheten minskar, men man kan ju tänka sig situationer då den inte minskar mer än att man fortfarande kan dra starka slutsatser. Det är t.ex. vanligt att man först testar om en grupp effekter har samma inverkan och att man efter att ha konstaterat motsatsen går vidare för att ta reda på vilka i gruppen som skiljer sig åt. Man måste då emellertid ta till någon multipel jämförelsemetod för att ha kontroll över signifikansnivån.

    Medvetenheten om att trovärdigheten minskar är viktig som ett incitament för att vara extra noggrann i sin första ansats.

  42. Jan Lenander Says:

    Skolverket har kommit ut med en rapport http://www.skolverket.se/sb/d/2573/a/17272 där de drar en slutsatser om att ökad segregering leder till större skillnader i skolresultat och sen går de vidare och använder detta som förklaring till en generellt försämring av skolresultat.

    Den första slutsatsen låter rimlig men jag ifrågasätter den statistiska metoden. Kan en så liten förändring av en parameter verkligen korreleras till en annan med hjälp av en rätt genomförd statistiska analys?

    Sen använder de begreppet ”sammanfattande forskning” för att dra nästa slutsats och den slutsatsen känns inte alla lika rimlig för mig. Kanske kan hela metoden dömas ut som ej tillämpbar på statistiska data. Är den inte ett exempel på det du kritiserat, den som söker den finner om den letar tillräckligt länge?

  43. Thomas Svensson Says:

    Jan: När jag ögnar igenom skolverkets sammanfattande analys så hänvisas till åtskilliga forskningsrapporter vars kvalitet jag förstås inte kan bedöma utan tidsödande granskning.

    Min kritik av Anna Sjögrens specifika rapport och hennes svar tyder emellertid på att missbruket av statistiska metoder är etablerat inom samhällskunskapens forskningsfält så min tilltro vetenskapligheten i skolverkets slutsatser är inte särskilt stor. Men, å andra sidan, utan möjlighet till vetenskapligt gedigna slutsatser måste man grunda besluten på det lilla man kan gissa, för visst måste man göra något åt kunskapsraset.

    Frågan är om man inte borde kunna anstränga sig mer vid genomförandet av reformerna för att öka möjligheterna att utvärdera dem efter en tid.

  44. Jan Lenander Says:

    Den pedagogiska forskningens största problem tror jag är begreppsglidningen. Exempelvis görs en undersökning relaterad till lärarens syn på eleverna och man visar att positiva förväntningar förbättrar resultaten men sen diskuterar man högt ställda mål för en grupp. Min erfarenhet säger mig att korrelationen mellan dessa saker inte är självklar utan hade behövts bevisas. I teknikföretag uppstår liknande problem och jag undrar om man inom statistsk vetenskap tagit fram metoder för att minimera sådana problem.

    Min erfarenhet av kvalitetsarbete är att en omogen organisation gärna vill göra många förbättringar och därför tar upp många faktorer och sen genomför både bra och dåliga saker så att resultatet blir omöjligt att bedöma. Jag håller därför klart med dig om att ”anstränga sig mer vid genomförandet av reformerna”. Skolverkets rapport är dock oroande i att den har så bråttom att få fram ett kraftfullt åtgärdsprogram att ingen förändring blir tillräckligt välgrundad. I materialet finns intressanta observationer som kan ge bra förändringar men jag söker exempel från mognare discipliner som statistisk vetenskap för en strategi där man bara bromsar ytterligare förändringar inom de flesta områden och slår om riktning för ett enda väldefinierat område. Då kan vi öka kunskapen om kunskapsproblemen. Stämmer en sådan strategi överens med dina tankegångar och finns det inom ditt område exempel på användning av en sådant arbetssätt?

  45. Thomas Svensson Says:

    Jan: Jag tror inte att man kan lösa så många av dessa problem genom statistisk teori, tyvärr. Problemet är att man inom samhällskunskapen inte kan renodla några effekter, dels för att man inte genomför planerade försök, dels för att människor är inblandade med oändligt många psykologiska effekter, återkopplingar och glidande responsbeteende. Vägen till bättre tillämpning av statistiska metoder är därför att begränsa ambitionerna; man kan nog bara få tillräckligt renodlade resultat inom ett begränsat område, inom en kort tidsrymd och hos en avgränsad population. Det är väl just en sådan väg du tänker dig när du skriver ”… där man bara bromsar ytterligare förändringar inom de flesta områden och slår om riktning för ett enda väldefinierat område.”

    Den statistiska vetenskapen innehåller oerhört mycket metoder för att ta hand om komplicerade samband, men de kräver alla att man har kontroll över de viktigaste påverkansfaktorerna eller att man vet att vissa av dem är slumpmässiga och oberoende. Man ser stora skillnader i tillämpningarna inom olika områden. Inom medicin, tex. har man förhållandevis stränga regler för att ge klartecken åt mediciner, behovet av placebo visar på problemet när människors känslor är inblandade. Inom teknisk utveckling, när bara pengar står på spel, kan man vara mer slarvig med stringensen, då man kanske låter en förutbestämd statistisk regel fälla avgörandet vilken väg man skall gå, oavsett signifikansnivå. Något måste kanske väljas i vilket fall som helst. Inom tillförlitlighet skiljer man på fall där människoliv är i fara å ena sidan och när bara reparationskostnader kan variera å den andra. Man får alltså vara pragmatisk och utnyttja metoderna så väl det går. Inom samhällsvetandet kan man kanske jämföra med den tekniska utvecklingsmetodiken med den skillnaden att människors beteenden gör det så mycket svårare inom samhällskunskapen att man där tydligen gjort det till standartd att negligera den statistiska stringensen. Kanske kan detta vara fruktbart ibland, men man borde då avstå från att använda begrepp som signifikans, tycker jag, för att inte misskreditera statistiken inom t.ex. medicin eller tillförlitlighet. Och, för att inte framställa sina resultat som en objektiv sanning, fritt användbar för politiska ideologer.

  46. janlenander Says:

    Den här diskussionen var mycket inspirerande och din tankar kring ett pragmatiskt förhållningssätt och parallellen att man i teknikvärlden tar många förändringsbeslut utan fullständigt underlag gav mig en värdefull tankegång om svensk skolpolitik. En gedignare användning av de kvalitetsmetoder som är så allmänt tillämpade inom industrin skulle kunna åstadkomma så mycket.

    http://janlenander.wordpress.com/2010/07/06/professionell-forandring-av-skolan/

  47. Friskolor tycks vara till fördel för studieresultaten « Tankspritt Says:

    […] kritisk mot samhällsvetarundersökningar och har tidigare här på bloggen sågat en och kritiserat en. Men denna gången hittar jag inga större svagheter i undersökningen, vilket överraskar och […]

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s


%d bloggare gillar detta: