de wetenschap van het dagboekschrijven

het pennebaker-effect na veertig jaar

de canonieke claim kromp toen de methoden beter werden. een eerlijke lezing van veertig jaar meta-analyses over expressief schrijven.

door Peter V.7 mei 20267 min leestijd

Veertig jaar geleden vroeg een kleine gerandomiseerde studie in het Journal of Abnormal Psychology aan zesenveertig studenten om vier avonden achter elkaar vijftien minuten te schrijven over een persoonlijk trauma. Zes maanden later hadden de studenten in de trauma-en-gevoelens-conditie het studentengezondheidscentrum ongeveer half zo vaak bezocht als de controlegroep met triviale onderwerpen. Pennebaker en Beall noemden het resultaat promising rather than definitive, F(3, 42) = 2,74, p = 0,055 volgens hun eigen rapport. [3] Die nuance overleefde de volgende vier decennia niet. Tegen de tijd dat het protocol de wellnesspers bereikte, was promising veranderd in expressief schrijven verbetert je immuunsysteem, verwerkt trauma, bedraadt depressie opnieuw. Veertig jaar en vier serieuze meta-analyses later is de zorgvuldige samenvatting smaller en interessanter dan zowel de kop als de sceptische tegenhanger.

het kerngetal dat niemand citeert

Het meest geciteerde getal in de literatuur over dagboekschrijven is de gemiddelde effectgrootte van Smyth uit 1998, d = 0,47, gepoold over dertien gerandomiseerde studies en 806 deelnemers. [6] Wellnessauteurs vatten dit samen als medium effect en stoppen daar. Het getal dat bijna niemand citeert is de tweede meta-analyse. De random-effects-pooling van Frattaroli uit 2006 over honderdzesenveertig experimentele onthullingsstudies en 10.994 deelnemers rapporteerde een algehele correlatie van r = 0,075, equivalent aan d ≈ 0,151. [1] Vier keer zoveel studies, dertien keer de steekproef, ongeveer een derde van het effect.

van een veelbelovende uitschieter naar een canonieke claim

De boog van Pennebaker 1986 naar Smyth 1998 is het standaard beginstadium van een paradigma. Een kleine eerste studie met één grensgeval-interactie opent een vraag die het veld nog niet had gesteld. Kan een korte schrijfopdracht überhaupt een gezondheidsuitkomst verschuiven? In de late jaren tachtig en negentig werd het protocol herhaald met controles op triviale onderwerpen bij gezonde studenten. Volgens de pooling van Smyth leverden dertien van die studies een ongewogen d van 0,47 op, met de grootste afzonderlijke buckets in fysiologisch functioneren (d = 0,68) en psychologisch welzijn (d = 0,66). [6] Noch het aantal sessies noch de duur van de sessies modereerde het effect, beide p > 0,10. Het getal was echt, het protocol was simpel, en de claim dat schrijven over emoties meetbare gezondheidseffecten oplevert verhardde tot de canonieke versie, een decennium voordat het veld genoeg studies had gepoold om de claim goed te toetsen.

de krimp

Daarna deed de literatuur wat literaturen doen. Methoden verbeterden. Steekproeven groeiden. De pool werd verbreed naar populaties en uitkomsten waarvoor het oorspronkelijke protocol niet was gevalideerd. Het gepoolde effect kromp.

vijf meta-analyses, in chronologische volgorde. Smyth 1998 rapporteert algehele d over alle uitkomsten bij gezonde volwassenen (k = 13). Frisina 2004 rapporteert algehele d in klinische populaties (k = 9). Frattaroli 2006 rapporteert het d-equivalent van een algehele r over 146 studies en alle uitkomsten. Travagin 2015 rapporteert algehele g over 21 studies bij adolescenten. Reinhold 2018 rapporteert de gepoolde g op lange termijn voor depressieve symptomen (k = 61); het 95%-betrouwbaarheidsinterval omsloot nul. magnitudes weergegeven als absolute waarden voor leesbaarheid; elke schatting hanteert haar eigen uitkomst- en populatiedefinitie en ze meten niet allemaal hetzelfde.

gepoolde absolute effectgroottes uit vijf meta-analyses over expressief schrijven, van Smyth 1998 tot Reinhold 2018
study	\|gepoolde d-equivalent\|
Smyth 1998	0.47
Frattaroli 2006	0.15
Frisina 2004	0.19
Travagin 2015	0.13
Reinhold 2018	0.03

De zuiverste appel-met-appel-vergelijking zit in de grafiek. De depressie-specifieke bucket van Frattaroli uit 2006 rapporteerde r = 0,073, equivalent aan d ≈ 0,15. Reinhold en collega's voerden twaalf jaar later een meerlaagse meta-analyse uit op negenendertig RCT's over expressief schrijven bij depressieve symptomen in fysiek gezonde volwassenen. Het langetermijneffect bij een gemiddelde follow-up van zes maanden was g = −0,03, vijfennegentig procent betrouwbaarheidsinterval [−0,16, 0,09]. [5] Een klein significant effect bij directe nameting (g = −0,09 in de richting die schrijven gunstig acht) verdween bij de eerste follow-up. Trim-and-fill schatte nul ontbrekende studies. Er is geen publicatiebias-artefact dat de vroege getallen opblaast; het depressie-effect bij gezonde volwassenen overleefde simpelweg geen langetermijn-follow-up onder strengere pooling.

de heterogeniteit die het kopgetal verbergt

De algehele r van 0,075 van Frattaroli is een slechte beschrijving van welke afzonderlijke uitkomst dan ook. Subjectieve impactbeoordelingen, het eigen retrospectieve oordeel van de deelnemer over de schrijfervaring, scoorden r = 0,159. Gerapporteerde gezondheidssymptomen scoorden r = 0,072. Fysiologisch functioneren scoorde r = 0,060. Psychologische gezondheid scoorde r = 0,056. Gezondheidsgedrag, de enige uitkomstbucket waarin iemand kon nagaan of je minder rookte of meer bewoog, scoorde r = 0,007 en haalde geen significantie over tien studies. [1] Het protocol verschuift hoe deelnemers zich voelen over de schrijfoefening meer dan het hun meetbare gezondheid verschuift.

Spending 20 min a day for 3 days on an independent writing activity producing an effect halfway between small and medium is, in this author's opinion, quite impressive.

Frattaroli, 2006

De auteur van de grootste meta-analyse die ooit op het protocol is uitgevoerd, omschrijft het effect als halverwege tussen klein en gemiddeld onder optimale omstandigheden op de grootste van haar uitkomstbuckets. Op die schaal gelezen is de literatuur noch de wellness-slogan noch de afwijzing.

de populatie die de recente meta-analyses uitsloten

Het null-langetermijnresultaat van Reinhold over depressie ziet er op het eerste gezicht uit als een schone weerlegging. De voetnoot maakt het ingewikkelder. De steekproef van 2018 sloot expliciet deelnemers met PTSS en studies over fysieke ziekte uit, op de principiële grond dat die subgroepen op zichzelf interventies zijn en slecht poolen met zelfhulp-achtige opzetten. [5] Die subgroepen zijn toevallig precies waar Smyth en Frattaroli hun grootste effecten rapporteerden. Traumapopulaties en steekproeven met somatische ziekte. Een deel van de krimp is echte methodologische vooruitgang, en een deel is de bewuste uitsluiting van de subgroepen waar het oorspronkelijke signaal het luidst klonk.

De krimp, zorgvuldig gelezen, is geen enkel verhaal. Het is een verheldering van de vraag. Smyth en Frattaroli pooldden over het corpus dat het veld sinds 1986 had bestudeerd. Gezonde studenten die over trauma schrijven. Kankerpatiënten die over hun diagnose schrijven. Mantelzorgers, mensen met slaapademhalingsstoornissen, fibromyalgie-steekproeven. De gepoolde d beschrijft wat er gemiddeld gebeurt over dat gemengde corpus, waarbij de zware klinische subgroepen het rekenwerk doen. Reinhold beperkte de steekproef tot fysiek gezonde volwassenen, behandelde PTSS als een klinische-interventievraag op zichzelf, en stelde de smallere hedendaagse versie. Helpt kort zelfgeleid schrijven niet-klinische volwassenen met depressie bij een follow-up van zes maanden? Het antwoord was null. Het eerdere antwoord was klein tot gemiddeld. De twee zijn niet in tegenspraak. Het zijn antwoorden op verschillende vragen over verschillende steekproeven, en de eerlijke lezing van de literatuur moet beide vragen in beeld houden.

De adolescentenliteratuur wijst dezelfde kant op. Travagin en collega's pooldden eenentwintig studies over expressief schrijven bij jongeren van tien tot achttien en vonden een algehele g van 0,127, met het grootste signaal waar de dosering het hoogst en het schrijfonderwerp het meest specifiek was. [7] De eerdere meta-analyse van Frisina over klinische populaties rapporteerde d = 0,19, met een geplande contrasttoets die liet zien dat fysieke-gezondheidsuitkomsten (d = 0,21) de psychologische uitkomsten (d = 0,07, niet significant) voorbijstreefden. [2] Het gepoolde effect is klein over de populaties die het veld heeft bestudeerd, en wat het meest betrouwbaar overleeft is het somatische signaal in plaats van het stemmingssignaal.

wat veertig jaar overleefde

De cognitieve-mechanisme-kant van de literatuur hield beter stand dan de effectgroottes. Pennebakers review uit 1997 in Psychological Science rapporteerde een meetbare verschuiving in taal tijdens het schrijven, een toenemend gebruik van causale woorden zoals omdat en inzichtwoorden zoals begrijpen, gevolgd door onafhankelijke beoordelaars die zagen hoe slecht georganiseerde beschrijvingen samenhangende verhalen werden tegen de laatste dag. [4] Wat het effect droeg, in Pennebakers eigen lezing, was de vertaling van ervaring naar gestructureerde taal in plaats van de catharsis waaromheen het oorspronkelijke protocol was gebouwd. Dat mechanisme vereist geen trauma-protocol van dertig minuten. Het vereist een poging om een specifiek concreet ding in specifieke concrete woorden te vatten.

Wat de pijler van de wetenschap van dagboekschrijven verliest met de krimp, is de slogan. Wat ze behoudt is de ondergrens-bevinding van het twee-minuten-wonder van Burton en King, de vergeten immuun-tak met zijn kleine maar volhardende signaal op het lichaam, en de cognitieve vertaling die Pennebaker in 1997 beschreef. Hetzelfde krimppatroon duikt op in de dankbaarheidsliteratuur, waar de twaalf RCT's gerangschikt naar controlestrengheid laten zien hoe het effect instort naarmate de controles strakker worden. Geen daarvan hangt af van d = 0,47. Ze hangen af van de daad om één specifieke zin op een pagina te zetten. De boog van veertig jaar literatuur is de langzame correctie van een vroege schatting die hoe dan ook zou krimpen onder serieuze meta-analyse. Op de werkelijke schaal gelezen is expressief schrijven een van de eigenaardigere kleine effecten in de psychologie die niet zijn verdwenen.

bronnen.

1.Frattaroli, J. (2006). Experimental disclosure and its moderators: A meta-analysis. Psychological Bulletin 132(6), 823–865.doi:10.1037/0033-2909.132.6.823
2.Frisina, P.G. et al. (2004). A meta-analysis of the effects of written emotional disclosure on the health outcomes of clinical populations. Journal of Nervous and Mental Disease 192(9), 629–634.doi:10.1097/01.nmd.0000138317.30764.63
3.Pennebaker, J.W. & Beall, S.K. (1986). Confronting a traumatic event: Toward an understanding of inhibition and disease. Journal of Abnormal Psychology 95(3), 274–281.doi:10.1037/0021-843X.95.3.274
4.Pennebaker, J.W. (1997). Writing About Emotional Experiences as a Therapeutic Process. Psychological Science 8(3), 162-166.doi:10.1111/j.1467-9280.1997.tb00403.x
5.Reinhold, M. et al. (2018). Effects of expressive writing on depressive symptoms — A meta-analysis. Clinical Psychology: Science and Practice 25(1), e12224.doi:10.1111/cpsp.12224
6.Smyth, J.M. (1998). Written emotional expression: Effect sizes, outcome types, and moderating variables. Journal of Consulting and Clinical Psychology 66(1), 174–184.doi:10.1037/0022-006X.66.1.174
7.Travagin, G. et al. (2015). How effective are expressive writing interventions for adolescents? A meta-analytic review. Clinical Psychology Review 36, 42–55.doi:10.1016/j.cpr.2015.01.003

verwant.