die Wissenschaft des Tagebuchschreibens

der pennebaker effect mit vierzig

die kanonische Tagebuch-Aussage schrumpfte, als die Methoden besser wurden. ein ehrlicher Blick auf vierzig Jahre Meta-Analysen zum expressiven Schreiben.

von Peter V.7. Mai 20266 Min. Lesezeit

Vor vierzig Jahren bat eine kleine randomisierte Studie im Journal of Abnormal Psychology sechsundvierzig Studierende, an vier aufeinanderfolgenden Abenden fünfzehn Minuten lang über ein persönliches Trauma zu schreiben. Sechs Monate später hatten die Studierenden in der Trauma-und-Gefühle-Bedingung das Gesundheitszentrum des Campus etwa halb so oft aufgesucht wie die Kontrollgruppe mit trivialen Themen. Pennebaker und Beall nannten das Ergebnis promising rather than definitive, F(3, 42) = 2,74, p = ,055 nach ihrem eigenen Bericht. [3] Diese Einschränkung überlebte die nächsten vier Jahrzehnte nicht. Bis das Protokoll in der Wellness-Presse ankam, war aus promising geworden: expressives Schreiben stärkt dein Immunsystem, verarbeitet Traumata, verdrahtet Depression neu. Vierzig Jahre und vier ernsthafte Meta-Analysen später ist die sorgfältige Zusammenfassung enger und interessanter als die Schlagzeile oder ihr skeptisches Spiegelbild.

die Zahl, die niemand zitiert

Die meistzitierte einzelne Zahl in der Tagebuch-Literatur ist Smyths durchschnittliche Effektgröße von 1998, d = 0,47, gepoolt über dreizehn randomisierte Studien und 806 Teilnehmende. [6] Wellness-Autoren kürzen das ab als mittlerer Effekt und hören dort auf. Die Zahl, die fast niemand zitiert, ist die zweite Meta-Analyse. Frattarolis Random-Effects-Pooling von 2006 mit einhundertsechsundvierzig experimentellen Disclosure-Studien und 10.994 Teilnehmenden berichtete eine Gesamtkorrelation von r = ,075, das entspricht d ≈ 0,151. [1] Viermal so viele Studien, dreizehnmal so viele Teilnehmende, ungefähr ein Drittel des Effekts.

von einem vielversprechenden Zufall zu einer kanonischen Behauptung

Der Bogen von Pennebaker 1986 zu Smyth 1998 ist die übliche Frühphasen-Bahn eines Paradigmas. Eine kleine erste Studie mit einer grenzwertigen Interaktion öffnet eine Frage, die das Feld noch nicht gestellt hatte. Kann eine kurze Schreibaufgabe ein Gesundheitsergebnis überhaupt bewegen? In den späten Achtzigern und Neunzigern wurde das Protokoll bei gesunden Studierenden gegen Kontrollgruppen mit trivialen Themen wiederholt. Nach Smyths Pooling ergaben dreizehn dieser Versuche ein ungewichtetes d von 0,47, mit den größten Einzelbuckets in der physiologischen Funktionsfähigkeit (d = 0,68) und im psychologischen Wohlbefinden (d = 0,66). [6] Weder die Anzahl der Sitzungen noch deren Länge moderierten den Effekt, beide p > ,10. Die Zahl war real, das Protokoll war einfach, und die Behauptung, dass Schreiben über Emotionen messbare gesundheitliche Effekte erzeugt, verhärtete sich zur kanonischen Version, ein Jahrzehnt bevor das Feld genug Studien gepoolt hatte, um sie ordentlich zu prüfen.

die Schrumpfung

Dann tat die Literatur, was Literaturen tun. Die Methoden wurden besser. Die Stichprobengrößen wuchsen. Der Pool wurde breiter und schloss Populationen und Outcomes ein, für die das ursprüngliche Protokoll nicht validiert war. Der gepoolte Effekt komprimierte sich.

fünf Meta-Analysen, in chronologischer Reihenfolge. Smyth 1998 berichtet das Gesamt-d über alle Outcomes bei gesunden Erwachsenen (k = 13). Frisina 2004 berichtet das Gesamt-d in klinischen Populationen (k = 9). Frattaroli 2006 berichtet das d-Äquivalent eines Gesamt-r über 146 Studien und alle Outcomes. Travagin 2015 berichtet das Gesamt-g über 21 Studien bei Jugendlichen. Reinhold 2018 berichtet das langfristig gepoolte g zu depressiven Symptomen (k = 61); das 95%-Konfidenzintervall umfasste die Null. Magnituden zur besseren Lesbarkeit als Absolutwerte; jede Schätzung verwendet ihre eigene Outcome- und Populationsdefinition, sie messen also nicht alle dasselbe.

gepoolte absolute Effektgrößen aus fünf Meta-Analysen zum expressiven Schreiben, Smyth 1998 bis Reinhold 2018
study	\|gepooltes d-Äquivalent\|
Smyth 1998	0.47
Frattaroli 2006	0.15
Frisina 2004	0.19
Travagin 2015	0.13
Reinhold 2018	0.03

Der sauberste direkte Vergleich sitzt im Diagramm selbst. Frattarolis depressionsspezifischer Bucket von 2006 berichtete r = ,073, das entspricht d ≈ 0,15. Reinhold und Kolleginnen führten zwölf Jahre später eine Mehrebenen-Meta-Analyse zu neununddreißig RCTs zum expressiven Schreiben bei depressiven Symptomen körperlich gesunder Erwachsener durch. Der langfristige Effekt nach einer mittleren Nachbeobachtung von sechs Monaten lag bei g = −0,03, 95-Prozent-Konfidenzintervall [−0,16, 0,09]. [5] Ein kleiner signifikanter Effekt unmittelbar nach dem Test (g = −0,09 in Richtung des Schreibens) verblasste bis zur ersten Nachbeobachtung. Trim-and-Fill schätzte null fehlende Studien. Es gibt kein Artefakt durch Publikationsbias, das die frühen Zahlen aufbläht; der Depressionseffekt bei gesunden Erwachsenen überlebte unter strengerem Pooling schlicht keine langfristige Nachbeobachtung.

die Heterogenität, die die Schlagzeilenzahl verbirgt

Frattarolis Gesamt-r von ,075 ist eine schlechte Beschreibung jedes einzelnen Outcomes. Subjektive Wirkungsbewertungen, also das eigene rückblickende Urteil der Teilnehmenden über die Schreiberfahrung, lagen bei r = ,159. Berichtete Gesundheitssymptome lagen bei r = ,072. Physiologische Funktionsfähigkeit lag bei r = ,060. Psychologische Gesundheit lag bei r = ,056. Gesundheitsverhalten, der einzige Outcome-Bucket, in dem jemand prüfen könnte, ob du weniger geraucht oder mehr Sport getrieben hast, lag bei r = ,007 und erreichte über zehn Studien hinweg keine Signifikanz. [1] Das Protokoll bewegt das, was Teilnehmende über die Schreibübung empfinden, stärker als ihre messbare Gesundheit.

Spending 20 min a day for 3 days on an independent writing activity producing an effect halfway between small and medium is, in this author's opinion, quite impressive.

Frattaroli, 2006

Die Autorin der größten je zu diesem Protokoll durchgeführten Meta-Analyse beschreibt den Effekt als halfway between small and medium unter optimalen Bedingungen im größten ihrer Outcome-Buckets. In dieser Größe gelesen ist die Literatur weder der Wellness-Slogan noch dessen Abwertung.

die Population, die die jüngeren Meta-Analysen ausgeschlossen haben

Reinholds Null-Langzeitergebnis bei Depression sieht zunächst aus wie eine saubere Widerlegung. Die Fußnote macht es komplizierter. Die Stichprobe von 2018 schloss Teilnehmende mit PTBS ausdrücklich aus und schloss auch Studien zu körperlichen Erkrankungen aus, mit der prinzipiellen Begründung, dass diese Untergruppen eigenständige Interventionen darstellen und sich schlecht mit Selbsthilfe-Designs poolen lassen. [5] Genau diese Untergruppen sind die, in denen Smyth und Frattaroli ihre größten Effekte berichteten. Trauma-Populationen und somatische Krankheitsproben. Ein Teil der Schrumpfung ist echter methodischer Fortschritt, ein anderer Teil ist der bewusste Ausschluss der Untergruppen, in denen das ursprüngliche Signal am lautesten war.

Die Schrumpfung ist, sorgfältig gelesen, keine einzige Geschichte. Sie ist eine Klärung der Frage. Smyth und Frattaroli poolten über das Korpus, das das Feld seit 1986 untersucht hatte. Gesunde Studierende, die über Trauma schreiben. Krebspatienten, die über die Diagnose schreiben. Pflegende Angehörige, Menschen mit Schlafapnoe, Fibromyalgie-Stichproben. Das gepoolte d beschreibt, was im Durchschnitt über dieses gemischte Korpus passiert, wobei die schwergewichtigen klinischen Untergruppen die arithmetische Arbeit leisten. Reinhold beschränkte die Stichprobe auf körperlich gesunde Erwachsene, behandelte PTBS als eigene klinisch-interventionelle Frage und stellte die engere zeitgenössische Version. Hilft kurzes selbstgesteuertes Schreiben nicht-klinischen Erwachsenen mit Depression bei einer Nachbeobachtung von sechs Monaten? Die Antwort war null. Die frühere Antwort war klein bis mittel. Die beiden stehen nicht im Widerspruch zueinander. Sie sind Antworten auf unterschiedliche Fragen über unterschiedliche Stichproben, und die ehrliche Lesart der Literatur muss beide Fragen im Blick behalten.

Die Jugendliteratur weist in dieselbe Richtung. Travagin und Kolleginnen poolten einundzwanzig Studien zum expressiven Schreiben bei Jugendlichen zwischen zehn und achtzehn Jahren und fanden ein Gesamt-g von 0,127, mit dem stärksten Signal dort, wo die Dosis am höchsten und das Schreibthema am spezifischsten war. [7] Frisinas frühere Meta-Analyse klinischer Populationen berichtete d = 0,19, mit einem geplanten Kontrast, der zeigte, dass Outcomes der körperlichen Gesundheit (d = 0,21) die psychologischen (d = 0,07, nicht signifikant) übertrafen. [2] Der gepoolte Effekt ist klein über die Populationen hinweg, die das Feld untersucht hat, und was am verlässlichsten überlebt, ist das somatische Signal, nicht das der Stimmung.

was vierzig Jahre überlebt hat

Die kognitive Seite der Literatur, die Frage nach dem Mechanismus, hielt sich besser als die Effektgrößen. Pennebakers Übersicht in Psychological Science von 1997 berichtete eine messbare Verschiebung der Sprache während des Schreibens, einen steigenden Gebrauch kausaler Wörter wie because und Einsicht-Wörter wie understand, nachverfolgt von unabhängigen Bewertenden, die sahen, wie schlecht organisierte Beschreibungen bis zum letzten Tag zu kohärenten Erzählungen wurden. [4] Was den Effekt trug, nach Pennebakers eigener Lesart, war die Übersetzung von Erfahrung in strukturierte Sprache, nicht die Katharsis, um die das ursprüngliche Protokoll herum gebaut worden war. Dieser Mechanismus benötigt kein dreißigminütiges Trauma-Protokoll. Er benötigt den Versuch, eine spezifische konkrete Sache in spezifische konkrete Worte zu fassen.

Was die Säule der Wissenschaft des Tagebuchschreibens mit der Schrumpfung verliert, ist der Slogan. Was sie behält, ist der Mindestbefund aus Burton und Kings Zwei-Minuten-Wunder, dem immunologischen Zweig mit seinem kleinen, aber beständigen Signal am Körper, und die kognitive Übersetzung, die Pennebaker 1997 beschrieb. Dasselbe Schrumpfungsmuster zeigt sich in der Dankbarkeitsliteratur, wo die zwölf RCTs nach Kontrollstrenge geordnet den Effekt zusammenfallen lassen, sobald die Kontrollen schärfer werden. Keine davon hängt von d = 0,47 ab. Sie hängen vom Akt ab, einen spezifischen Satz auf eine Seite zu setzen. Der vierzigjährige Bogen der Literatur ist die langsame Korrektur einer frühen Schätzung, die unter ernsthafter Meta-Analyse ohnehin komprimieren musste. In der Größe gelesen, die er tatsächlich hat, ist expressives Schreiben einer der eigenartigeren kleinen Effekte in der Psychologie, der nicht verschwunden ist.

Quellen.

1.Frattaroli, J. (2006). Experimental disclosure and its moderators: A meta-analysis. Psychological Bulletin 132(6), 823–865.doi:10.1037/0033-2909.132.6.823
2.Frisina, P.G. et al. (2004). A meta-analysis of the effects of written emotional disclosure on the health outcomes of clinical populations. Journal of Nervous and Mental Disease 192(9), 629–634.doi:10.1097/01.nmd.0000138317.30764.63
3.Pennebaker, J.W. & Beall, S.K. (1986). Confronting a traumatic event: Toward an understanding of inhibition and disease. Journal of Abnormal Psychology 95(3), 274–281.doi:10.1037/0021-843X.95.3.274
4.Pennebaker, J.W. (1997). Writing About Emotional Experiences as a Therapeutic Process. Psychological Science 8(3), 162-166.doi:10.1111/j.1467-9280.1997.tb00403.x
5.Reinhold, M. et al. (2018). Effects of expressive writing on depressive symptoms — A meta-analysis. Clinical Psychology: Science and Practice 25(1), e12224.doi:10.1111/cpsp.12224
6.Smyth, J.M. (1998). Written emotional expression: Effect sizes, outcome types, and moderating variables. Journal of Consulting and Clinical Psychology 66(1), 174–184.doi:10.1037/0022-006X.66.1.174
7.Travagin, G. et al. (2015). How effective are expressive writing interventions for adolescents? A meta-analytic review. Clinical Psychology Review 36, 42–55.doi:10.1016/j.cpr.2015.01.003

verwandt.