Kapitel 4 Anwendung

Als Beispiel verwenden wir hier rwm1984, ein Subset des Datensatz rwm5yr (vgl. Abschnitt 1.1, ?COUNT::rwm1984), der Angaben zur Anzahl der Arztbesuche pro Person mit zusätzlichen demographischen Merkmalen enthält. Für unser Beispielmodell verwenden wir folgende Variablen:

  • docvis: Abhängige Variable, Anzahl der Arztbesuche im Jahr (0-121)
  • outwork: Arbeitslos (1), arbeitend (0)
  • age: Alter (25 - 64)
  Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.03352 0.03918 -0.8554 0.3923
outwork 0.4079 0.01884 21.65 6.481e-104
age 0.02208 0.0008377 26.36 3.73e-153

(Dispersion parameter for poisson family taken to be 1 )

Null deviance: 25791 on 3873 degrees of freedom
Residual deviance: 24190 on 3871 degrees of freedom

Das erste was wir zur Evaluation unseres Modells tun können, ohne direkt andere Modelle zum vergleich heranzuziehen, ist die beobachteten Counts und die auf Basis des Modells erwarteten Counts zu vergleichen, um ein grobes Gefühl für die Situation zu erhalten (Code frei adaptiert nach Hilbe (2014), p. 88f):

Observed and expected counts
docvis observed expected difference
0 1611 264.8 1346
1 448 627.1 -179.1
2 440 796 -356
3 353 731.6 -378.6
4 213 554.6 -341.6
Mean & variance of observed and expected counts
Counts Mean Variance
observed 3.163 39.39
expected 5.401 5.401

Anhand der ersten Tabelle können wir recht schnell erkennen, dass wir hier deutlich mehr Nullen beobachten als das Modell vorhersagt – mehr dazu in Abschnitt 4.2.
Der Plot veranschaulicht den eher suboptimalen model fit unter diesen Umständen (overdispersion und (bzw. bedingt durch) zero-inflation).

Literatur

Hilbe, Joseph M. 2014. Modeling Count Data. Cambridge: Cambridge University Press. https://doi.org/10.1017/CBO9781139236065.