Statistical Methods in Epidemiology

Epidemiologische Modelle in der Öffentlichkeit – mit Statistik durch die Pandemie
Lars Koppers
Science Media Center Germany; Department für Wissenschaftskommunikation, Karlsruher Institut für Technologie, Germany

Die Corona-Pandemie hat gezeigt, wie wichtig mathematisches und statistisches Grundwissen auch im Alltag ist. Seit Anfang 2020 werden auch in der Öffentlichkeit statistische Maßzahlen und Modelle diskutiert. Die Bandbreite reicht dabei von einfachen Meldezahlen über Mittelwerte bis zu SIR-Modellen und Simulationen von aktiven Teilchen. Aber welche Modelle und Maßzahlen helfen in welchen Situationen? Welche Schlüsse können aus einer Simulation gezogen werden und welche nicht? Und wie können komplexe Zusammenhänge so vermittelt werden, dass diese auch in der Öffentlichkeit ankommen?

Das gemeinnützige Science Media Center Germany (SMC) wurde 2015 als Intermediär zwischen Wissenschaft und Wissenschaftsjournalismus gegründet. Es stellt dazu zeitnah Einschätzungen und Zitate zu tagesaktuellen Geschehnissen aus der Wissenschaft zur Verfügung und bieten zu unübersichtlichen oder vielschichtigen Themen Expertise und Hintergrundwissen. Das SMC Lab entwickelt als Datenlabor des SMC Software und Services für die eigene Redaktion und für die journalistische Community.

Im Zuge der Corona-Pandemie wuchs der Bedarf an statistischer Expertise im Jounalismus exponentiell. Maßzahlen wie die Verdopplungszeit, der Reproduktionsfaktor R oder die Eigenschaften eines exponentiellen Wachstums müssen so erklärt werden, dass Journalist*innen dazu befähigt werden kompetent über die Pandemie zu berichten. Ein wichtiger Schwerpunkt dabei sind auch die Limitationen eines jeden Modells, schließlich mag ein exponentielles Wachstum für einen kurzen Zeitraum eine treffende Beschreibung einer Zeitreihe sein, in einer endlichen Population kommt dieses Modell aber schnell an seine Grenzen.

Mit zuerst täglichen, inzwischen wöchentlichen Corona-Reports hilft das SMC die aktuelle Datenlage, wie zum Beispiel die Meldezahlen des Robert Koch-Instituts (RKI) und des DIVI-Intensivregisters einzuordnen und zu erklären. Insbesondere die Meldedaten des RKI erzeugen dabei einen hohen Erklärungsbedarf, da Meldeverzug und die Tatsache, dass es sich hier nicht um eine Zufallsstichprobe handelt, dazu verleiten, falsche Schlüsse zu ziehen.

Im Bereich der epidemiologischen Modelle wurden im vergangenen Jahr von vielen Gruppen Preprints und Paper veröffentlicht, oft begleitet von online zugänglichen Dashboards und der Pressemitteilung der zugehörigen Einrichtung. Nicht jedes neue Modell trägt allerdings zum Erkenntnisstand bei, zuweilen fehlt es an fachlicher Expertise in der Modellierung einer Pandemie, die Validierung von Prognosen ist oft unzureichend. Eine Auseinandersetzung mit der Öffentlichkeitswirkung der publizierten Arbeit ist hier notwendig, erst recht wenn dies außerhalb der üblichen Peer Review Verfahren geschieht.


Correcting for bias due to misclassification in dietary patterns using 24 hour dietary recall data
Timm Intemann1, Iris Pigeot1,2
1Leibniz Institute for Prevention Research and Epidemiology – BIPS, Germany; 2Institute of Statistics, Faculty of Mathematics and Computer Science, University of Bremen, Germany

The development of statistical methods for nutritional epidemiology is a challenge, as nutritional data are usually multidimensional and error-prone. Analysing dietary data requires an appropriate method taking into account both multidimensionality and measurement error, but measurement error is often ignored when such data is analysed (1). For example, associations between dietary patterns and health outcomes are commonly investigated by first applying cluster analysis algorithms to derive dietary patterns and then fitting a regression model to estimate the associations. In such a naïve approach, errors in the underlying continuous dietary variables lead to misclassified dietary patterns and to biased effect estimates. To reduce this bias, we developed three correction algorithms for data assessed with a 24 hour dietary recall (24HDR), which has become the preferred dietary assessment tool in large epidemiological studies.

The newly developed correction algorithms combine the measurement error correction methods regression calibration (RC), simulation extrapolation (SIMEX) and multiple imputation (MI) with the cluster methods k-means cluster algorithm and the Gaussian mixture model. These new algorithms are based on univariate correction methods for Box-Cox transformed data (2) and consider the measurement error structure of 24HDR data. They consist mainly of the following three stages: (i) estimation of usual intakes, (ii) deriving patterns based on usual intakes and (iii) estimation of the association between these patterns and an outcome.

We apply the correction algorithms to real data from the IDEFICS/I.Family cohort to estimate the association between meal timing patterns and a marker for the long-term blood sugar level (HbA1c) in European children. Furthermore, we use the fitted parameters from this analysis to mimic the real cohort data in a simulation study. In this simulation study, we consider continuous and binary outcomes in different scenarios and compare the performance of the proposed correction algorithms and the naïve approach with respect to absolute, maximum and relative bias.

Simulation results show that the correction algorithms based on RC and MI perform better than the naïve and the SIMEX-based algorithms. Furthermore, the MI-based approach, which can use outcome information in the error model, is superior to the RC-based approach in most scenarios.

References

1. Shaw, P. et al. (2018). Epidemiologic analyses with error-prone exposures: Review of current practice and recommendations. Ann Epidemiol 28, 821-828.

2. Intemann, T. et al. (2019). SIMEX for correction of dietary exposure effects with Box-Cox transformed data. Biom J 62, 221-237


Statistical analysis of Covid-19 data in Rhineland-Palatinate
Markus Schepers1, Konstantin Strauch1, Klaus Jahn3, Philipp Zanger2, Emilio Gianicolo1
1IMBEI Unimedizin Mainz, Germany; 2Institut für Hygiene und Infektionsschutz Abteilung Humanmedizin, Landesuntersuchungsamt; 3Gesundheitsministerium (MSAGD)

In this ongoing project we study the infection dynamics and settings of Covid-19 in Rhineland-Palatinate: what are the most common infection pathways? How does the virus typically spread?

Our analysis is based on data of all reported cases (positively tested individuals) in Rhineland-Palatinate during a specific time period, including at least 17 August – 10 November 2020. Around 20% of the reported cases have been traced to an infection cluster. This leads to a second data set of infection clusters, whose observation variables include size of the infection cluster and infection setting (such as `private household‘ or `restaurant‘). In line with previous studies, we found that the majority of infection clusters occurs in `private households‘ (including gatherings where multiple households are involved). Therefore, we are collecting additional information for a stratified sample of infection clusters with infection setting `private household‘. Here, the stratification is according to counties (Landkreise) with separate public health departments (Gesundheitsämter) and size of the infection cluster. We developed a questionnaire whose responses will provide the additional information. The questionnaire contains questions on contact persons, specific occasions and activities promoting the spread of the virus. We calculate descriptive statistics such as mean, median, standard deviation, min and max of the quantities of interest.

Results and observations so far include: Cities have a higher prevalence of Covid-19 cases than the countryside. Most of the infection clusters are local rather than over-regional. We also observe a phenomenon often called over-dispersion or super-spreading, meaning that a relatively small number of individuals and clusters is responsible for the majority of all infection transmissions.


Simultanes regionales Monitorieren von SARS-CoV-2 Infektionen und COVID-19 Sterblichkeit in Bayern durch die standardisierte Infektionsmortalitätsrate (sIFR)
Kirsi Manz, Ulrich Mansmann
Ludwig-Maximilians-Universität München, Deutschland

Hintergrund

Regionale Karten erlauben einen schnellen Überblick über die räumliche Verteilung des SARS-CoV-2 Infektionsgeschehens und erlauben regionale Unterschiede zu identifizieren. Zur Vermeidung falsch-positiver Signale werden Gesundheitskarten geglättet. Dies macht eine sachgerechte Interpretation der geographischen Informationen möglich.

Ziel des Beitrags

Wir stellen die standardisierte Infektionsmortalitätsrate (sIFR) als Maßzahl vor, mit der sich simultan das Divergieren von standardisierten COVID-19 spezifischen Infektions- und Sterberaten regional monitorieren lässt. Regionale Abweichungen beider Prozesse von einem globalen Standard erlauben eine Priorisierung regionaler Maßnahmen zwischen Infektionsschutz und Patientenversorgung.

Materialien und Methoden

Die regionale sIFR ist der Quotient zwischen standardisierter Mortalitäts- und Infektionsrate. Sie beschreibt um wieviel mehr die regionale Abweichung im Sterbeprozess sich von der regionalen Abweichung im Infektionsprozess unterscheidet. Die sIFR-Werte werden mittels eines bayesianischen Konvolutionsmodells geschätzt und in Karten dargestellt. Unsere Analysen verwenden die Meldedaten zum SARS-CoV-2 Geschehen in Bayern im Jahr 2020 und betrachten 4 Zeitperioden zu je drei Monaten.

Ergebnisse und Diskussion

Die empirische Infektionssterblichkeit in Bayern zeigt einen abfallenden Trend über die Zeitperioden. Regionen mit höheren Abweichungen im Sterben vom bayerischen Standard verglichen zum Infektionsgeschehen (sIFR > 2) sind in den ersten drei Monaten nur in der Oberpfalz zu beobachten. Im Sommer befinden sie sich im gesamten Osten, im Spätsommer/Herbst dann im Norden Bayerns. Wir zeigen regionale Veränderungen der sIFR-Werte für Bayerns Regionen über die Zeit. Damit werden Regionen identifiziert, die zusätzlich zum Management der Infektionsausbreitung Maßnahmen zur Kontrolle der Sterblichkeit benötigen.