Theses in the Chair of "Statistical Methods for Big Data"
Theses to be assigned
Double descent in boosting
The phenomenon of double descent in the loss function has been studied and undercovered in a variety of models. However, not sufficient studies have been performed about
- double descent in L2 boosting with linear learners
- double descent in L2 boosting / xgboost flooding
Such a thesis is apt for both Bachelor and Master students (depending on the workload). You can program in Python, but preferably R. Datasets will be provided. Some literature you can have a look at is attached:
https://www.pnas.org/doi/10.1073/pnas.1903070116 - https://arxiv.org/pdf/2002.08709.pdf
Selective confidence intervals for tree-based models via parametric bootstrap
An exposé for this master thesis topic, which will be mainly supervised by PD Dr. Moritz Berger (IMBIE, University of Bonn), can be found here.
Current Theses
- Jannes Rick (2024): Modeling and predicton of maximal physical performance based on submaximal exercise features (MA)
- Stella Mathilda Ebbrecht (2024): Vergleich von Startwertstrategien für LASSO-penalisierte generalisierte lineare gemischte Modelle (MA)
- Hannah Bartmann (2024): Ranking tennis players on basis of their current strenght via a maximum likelihood approach (BA)
- Maria Angeles Garcia Flores (2024): Improving Production Planning in the Semiconductor Industry by Enhancing Customer Forecast Information Using Machine Learning
- Joshua Oehmen (2024): GAMLSS zur Modellierung von Fußballergebnissen
Completed Theses
- Thorben Kiel (2024): Erholungstage im Fußball - Eine statistische Analyse mittels ordinaler Regressionsmodelle (BA)
- Jonas Sternemann (2024): Modellierung und Vorhersage der UEFA EURO 2024 mittels Kombinations-Verfahren des statistischen Lernens (BA)
- Akshat Khanna (2024): Machine learning based anomaly detection framework in life insurance contracts (MA)
- Lutz Weiland (2024): Statistische Modellierung und Vorhersage des Potenzials von NBA-Spielern anhand ihrer Rookie-Leistungen (BA)
- Muhammad Moaz Khan (2023): Predicting Invoice Default with Statistical Learning: A Comparative Analysis of Baseline vs. Aggregated Transactional Data Approach (MA)
- Sarrah Awad Abdalla Alawad (2023): Modelling Techniques for Predicting Claim Amount in Vehicle Insurance Data: A Comparative Analysis of Supervised Learning Models and Clustering Techniques for Car Vehicle Groups (MA)
- Ina-Marie Berendes (2023): A Comparison of Machine Learning Algorithms for Injury Prediction in Soccer (MA)
- Alexander Bloch (2023): Statistische Analyse von Dribblings im Profifußball mit Fokus auf deren Innovation (BA)
- Moana Emde (2023): Statistische Modellierung und Vorhersage von Bundesligadaten im Fußball mittels generalisierten additiven Modellen (BA)
- Aishwarya Ganta (2023): Learning from Implications - A comparison of different classification strategies (MA)
- Jacob Grytzka (2023): Statistical modeling of UEFA EURO matches with focus on player market value and other hybrid variables (MA)
- Tim Schmale (2023): An Introduction to Mixed Models and a Longitudinal Application on Cognitive Decline during Parkinson's Disease (BA)
- Neele Malin Hormann (2023): Statistische Modellierung und Vorhersage der FIFA WM 2022 mittels Random Forest (BA)
- Rik Amann (2022): Statistische Modellierung und Vorhersage von Mehrkampf-Leistungsdaten in der Leichtathletik auf Basis von generalisierten additiven Modellen (BA)
- Jordi Walder (2022): Customer Churn Prediction in ERP Software Provider (BA)
- Max Ullmann (2022): Pech oder Konsequenz? Statistische Modellierung der Verletzungsfehltage des BVB im Bundesligavergleich (BA)
- Jan Lennartz (2022): Road Slope Estimation: A Machine Learning Aided Signal Correction Approach (MA)
- Dominik Niedziela (2022): Evaluierung verschiedener Methoden zur Überwachung von chemischen Batchprozessen (BA)
- Leon-Patrick Heuer (2022): Ist Startup-Erfolg modellier- und vorhersagbar? - Ein Vergleich von Logistischer Regression und Random Forest (BA)
- Tim Westphal (2022): Eine statistische Analyse von Einflussfaktoren für den Ausgang des Eurovision Song Contests auf Grundlage des Zeitraums 2014 bis 2019 (BA)
- Susanne Stock (2022): Zeitvariierende Effekte in generalisierten additiven Modellen am Beispiel von Vornamen in den USA zwischen 1880 und 2020 (BA)
- Marie Punsmann (2022): Kundenschreiben in der Lebensversicherung - eine Analyse mit Methoden aus der Textdatenanalyse und Klassifikation (MA)
- Stella Mathilda Ebbrecht (2022): Ein Plädoyer für Post- und Relaxed-LASSO Regularisierungen anhand einer Simulationsstudie (BA)
- Jonas Glowinski (2022): Explainable Anomaly Detection in Property Insurance Claims Data (MA)
- Franziska Popp (2021): Modellierung und Vorhersage der UEFA EURO 2020 mittels Verfahren des statistischen Lernens (MA)
- Philipp Hülk (2021): Modellierung nicht-linearer Einflüsse mittels additiver Regression: Eine Analyse realer E-Scooter-Mobilitätsdaten (BA)
- Jonas Heiner (2021): A statistical analysis of Bundesliga match event data (MA)
- Jannes Rick (2021): Eine statistische Analyse der Auswirkungen der Covid19-Pandemie auf die sportliche Aktivität von Studierenden (BA)
- Joshua Oehmen (2021): Anwendung statistischer Modelle zur Prognose von Headisergebnissen (BA)
- Philip Buczak (2021): Einsatz sequentieller Verfahren im Hyperparameter-Tuning (MA)
- Tim Grabo (2021): Modellselektion für die nicht-lineare Modellierung des Einflusses von Luftschadstoffen, Temperatur und deren Interaktion auf Lungenfunktionsparameter in der SALIA-Studie (BA)
- Faysal Ntafh (2021): Erkennung von Anomalien in den Daten aus dem Beherbergungsgewerbe mit Hilfe von KI Methoden (MA)
- Patrick Lorenz (2020): Modellierung von Strafyards im American Football im Rahmen von generalisierten linearen gemischten Modellen (BA)
- Cartsen Wasserfuhr (2021): Analyse des Stornoverhaltens von Lebensversicherungsverträgen mit Hilfe verschiedener statistischer Modelle und Lernverfahren (MA)
- Lars Lobers (2021): Modellierung von 100 Meter Sprintzeiten mithilfe von Generalisierten Additiven Gemischten Modellen (MA)
- Tom Pflugbeil (2021): Regularisierungsverfahren zur Modellierung der deutschen Baseball-Bundesliga (BA)
- Lionel Fotie (2020): Kategorisierung von Domänen mittels Clusterverfahren (BA)
- Sven Teschke (2020): A Statistical Analysis of the Klopp-Effect (MA)
- Ilona Maske (2020): Ein Vergleich herkömmlicher Regressionsverfahren mit modernen Machine Learning Techniken für binäre Zielvariablen in komplexen Datensituationen (MA)
- Philip Buczak (2020): Einsatz sequenzieller Verfahren im Hyperparameter-Tuning (MA)
- Eugene Edmond Nantchouang Tefong (2020): Eine Analyse der Post-LASSO Technik im Linearen Modell (BA)
- Niklas Dombrink (2020): Untersuchung der Einflussfaktoren auf die Passgenauigkeit im professionellen Fußball mittels eines Generalisierten Additiven Gemischten Modells (MA)
- Marc Schmieder (2020): Multilabel-Klassifizierung von Nachrichten Schlagzeilen. Vergleich zwischen neurolanen Netzen und baumbasierten Algorithmen auf verschiedenen Repräsentationen von Wörtern (MA)
- Thi Ngoc Tien Tran (2020): Untersuchung von Random Forests bzgl. Overfitting (MA)
- Jan Lennartz (2019): Ein Vergleich von verschiedenen Vorhersagemodellen im internationalen Tischtennis (BA)
- Philipp Steinhauer (2019): Vergleich von Clusterverfahren auf Basis von Handball-Bundesliga Daten (BA)
- Sujin Park (2019): Implementierung eines Kreuzvalidierungsverfahrens für die Funktion glmmLasso aus dem gleichnamigen R-Paket (BA)
- Jonas Heiner (2019): Prediction of Handball World Cup results (BA)
- Jacob Grytzka (2019): Vergleich verschiedener Optimierungsverfahren in generalisierten linearen Modellen (BA)
- Philip Buczak (2019): Modellierung und Vorhersage von Fußballbundesligaspielen mittels Random Forest (BA)
- Susanne Brunner (2019): Modellierung und Vorhersage von Tennisspielen bei Grand Slam Turnieren (BA)
- Sheila Görz (2018): Vergleich verschiedener Verfahren zur Bestimmung des Glättungsparameters in Generalisierten Additiven Modellen (BA)
- Maxime Faymonville (2018): Statistische Modellierung des Elfmeterschießens anhand des DFB-Pokals (BA)
- Steffen Maletz (2018): Wahl von Knoten und Basisfunktionen in Generalisierten Additiven Modellen (BA)