B.3 Hurdle models
Die nachfolgende Beschreibung dient daher eher der Vollständigkeit, da hurdle models in bestimmten Anwendungsgebieten scheinbar recht populär sind – allerdings ist es vermutlich eher schwierig sie auf binäre outcomes anzuwenden.
Im Allgemeinen kann man zwei Arten von hurdle models unterscheiden, die jeweils aus zwei Modellkomponenten bestehen:
- Nested hurdle models: Beide Komponenten nested (e.g. beide Poisson).
- Non-nested hurdle models: Hurdle-Komponente als vollständig anderer Prozess betrachtet und via e.g. logit modelliert.
Zwei gängige Komponenten für unnested hurdle models:
- Binary 0,1 response, (logit oder probit)
- Modellierung der Wahrscheinlichkeit für die non-zero counts
- Zero-truncated count model
- Erlauben sowohl under- als auch overdispersion
- (Unnested models) erlauben systematischen Unterschied im Prozess, der zu e.g. Outcomes = 0 vs. Outcomes > 0 führt, was durch die Wahl unterschiedlicher Modelle für beide Komponenten abgebildet wird
In diesem Fall entspricht das Resultat eines hurdle models zwei separat gefitteten Modellen (e.g. Pois + Logit), die getrennt interpretierbar sind (im Gegensatz zu zero-inflated models!).
Definition B.1 (Hurdle Model) Nach Winkelmann (2010), p. 179f:
Sei \(g_1(0)\) die Wahrscheinlichkeit des Outcomes \(0\) und \(g_1(k), k = 1, 2, 3, \ldots\) die Wahrscheinlichkeitsfunktion für natürliche Zahlen, dann ist die Wahrscheinlichkeitsfunktion eines hurdle-at-zero Modells:
Bzw. nach Mullahy (1986) mit \(f_1\) und \(f_2\) als PMFs für natürliche Zahlen
Wobei
- \(f_2\) als parent process bezeichnet wird
- \(1 - f_1(0)\) die Wahrscheinlichkeit angibt, die Hürde (\(y = 0\)) zu “überqueren” (“crossing the hurdle”).
- \(1 - f_2(0)\) zur Normalisierung von \(f_2\) dient, um deren truncation zu berücksichtigen.
Der Erwartungswert des hurdle models ist
\[ \mathbb{E}_h(y) = \Theta \sum_{k=1}^\infty k f_2(k) = \Theta \mathbb{E}_2(y) \]
Mit \(\mathbb{E}_2\) als Erwartunsgwert von \(f_2\).
Mit \(f_2 = \mathrm{Poisson}\):
- \(0 < \Theta < 1\): Overdispersion
- \(1 < \Theta < \frac{\lambda_2 + 1}{\lambda_2}\): Underdispersion
“By far the most popular hurdle model in practice is the hurdle-at-zero negative bonomial model” (Winkelmann 2010, p. 183)
mit \(f_1 \sim NB(\beta_1, \alpha_1)\) und \(f_2 \sim NB(\beta_2, \alpha_2)\)
Literatur
Mullahy, John. 1986. „Specification and Testing of Some Modified Count Data Models“. Journal of Econometrics 33 (3): 341–65. https://doi.org/10.1016/0304-4076(86)90002-3.
Winkelmann, Rainer. 2010. Econometric Analysis of Count Data. 5th ed. Berlin: Springer Berlin.