Regularization approaches for generalized linear models and single index models
Authors
More about the book
Die Grundlage dieser Arbeit sind generalisierte lineare Modelle (GLMs). Die Schätzung der über das Modell festgelegten Parameter, stellt hinsichtlich einer möglichst guten Prognose in vielen Datensituationen eine Herausforderung dar. Als Strategien zur Bewältigung dieser Herausforderung haben sich Variablen-Selektion (lediglich eine Teilmenge von Parametern wird ungleich Null geschätzt) und Variablen-Grouping (die Parameter verschiedener Kovariablen werden gleich geschätzt) etabliert. Bei GLMs haben sich in den letzten Jahren neben anderen Methoden Shrinkage-Verfahren für Variablen-Selektion und -Grouping bewährt. Skrinkage-Verfahren zeichnen sich durch ihre jeweiligen Penalisierungsregionen aus. Eine Klasse von Penalisierungsregionen, die diese Eigenschaften auf den Schätzer induziert, sind spezielle Polytope. Es werden theoretische Ergebnisse zu Polytopen, die die beiden Effekte ermöglichen, präsentiert und hierauf basierend neue Penalisierungsregionen entwickelt. In Simulationsstudien und realen Datensituationen zeigt sich, dass die vorgestellten Methoden die etablierten Konkurrenzverfahren in vielen Situationen dominieren. Eine Verallgemeinerung der GLMs sind (generalisierte) Single-Index Modelle (SIMs). Hierbei handelt es sich um GLMs mit unbekannter Linkfunktion. Neben dem Parametervektor des linearen Prädiktors ist zusätzlich die Linkfunktion innerhalb des Lösungsalgorithmus zu schätzen. Es werden Algorithmen zur Schätzung von SIMs mit linearem und additiven Prädiktor entwickelt. Hierbei werden vor dem Hingrund der Variablen-Selektion sowohl Boosting als auch Penalisierungsansätze verfolgt. Neben den Algorithmen steht die Auswirkung von fehlspezifierten Linkfunktionen auf Variablen-Selektion im Fokus. Es zeigt sich in Simulationstudien und Echtdatenbeispielen, dass das simultane Schätzen von Linkfunktion und linearen beziehungsweise nicht parametrischen Einflusstermen sowohl die Vorhersage als auch die Schätzung der Einflussterme und die Variablenselektion verbessert.