Kapitel 1 Einführung

Dieses Dokument soll einen Überblick zum Umgang mit Zähldaten (count data) liefern.
Zähldaten können im Allgemeinen mittels Poissonverteilung im Rahmen des GLM modelliert werden, allerdings sind in der Praxis einige Komplikationen zu erwarten:

Over-/underdispersion (siehe Abschnitt 2.2): Die Poissonverteilung besitzt nur einen Parameter für sowohl Erwartungswert als auch Varianz und nimmt somit Gleichheit zwischen den beiden an (equidispersion) – diese Annahme ist meist in Form von overdispersion verletzt

Zero-Inflation (siehe Abschnitt 4.2): Aus einem Modell lässt sich die erwartete Anzahl an Beobachtungen mit Anzahl \(0\) bestimmen – wenn die beobachtete Anzahl (bzw. der Anteil) an Nullen deutlich größer ist, spricht man von zero-inflation. Verwandte Probleme sind die (seltenere) zero-deflation, oder das strukturelle Fehlen von Nullen

Diese Umstände benötigen in der Regel Generalisierungen der einfach Poisson-Regression, entweder durch Erweiterung der Verteilung um zusätzliche Parameter (siehe z.B. Negative Binomialverteilung für overdispersion in Abschnitt 3.1, Generalized Poisson für underdispersion in Abschnitt 3.3) oder die Konstruktion von mixture models oder hurdle models für zero-inflation (Abschnitte 3.6 und B.3).