Kostenloser Versand für Rucksäcke

Was ist das Besondere an HYROX?

Von Vlad Matei

Wenn Sie auf diesem Artikel gelandet sind, haben Sie wahrscheinlich schon von HYROX gehört, das in letzter Zeit immer beliebter wird. Vielleicht haben Sie es irgendwo in den sozialen Medien gesehen, in Ihrem örtlichen Fitnessstudio davon gehört oder vielleicht sogar an einem Wettbewerb teilgenommen.

Für diejenigen, die mit der Veranstaltung nicht vertraut sind: HYROX ist ein Fitnessrennen, das sich selbst als "globales Fitnessrennen für alle" bezeichnet.

Der 2017 ins Leben gerufene Lauf kombiniert Laufen mit funktionellen Übungen. Die Teilnehmer laufen insgesamt 8 Kilometer, aufgeteilt in 1-Kilometer-Intervalle mit einer funktionellen Übung zwischen jedem Lauf. Für Hyrox kann sich jeder anmelden, und die meisten Menschen mit einem angemessenen Fitnessniveau werden in der Lage sein, jede Bewegung zu absolvieren. Es versteht sich von selbst, dass die Zeit umso schneller wird, je fitter und leistungsfähiger der Athlet ist. Ähnlich wie bei einem Marathon oder anderen Laufwettbewerben können beim Hyrox auch ganz normale Teilnehmer, die nur aus Spaß an der Sache und wegen der persönlichen Herausforderung dabei sind, gegen einige der fittesten Athleten der Welt antreten.

Wie kam es zu dieser Analyse?

Nachdem ich mich für den Hyrox Rotterdam 2024 angemeldet hatte, war ich neugierig auf die Zeiten, die ich bei den einzelnen Läufen und Stationen anstreben sollte. Ich wusste, was meine 5 km-Zeit sein würde, ich hatte eine Vorstellung davon, wie ein schneller 1 km-Lauf für mich aussehen würde, aber ich hatte keine Ahnung, welche Zeiten ich an den Stationen erwarten konnte oder sogar, wie meine Laufzeiten mit müden Beinen nach den Funktionsstationen aussehen würden.

Als jemand, der beruflich mit Daten arbeitet, fing ich an zu googeln, um zu sehen, ob es irgendwelche Daten gibt, und stieß auf dieses Kaggle-Notizbuch, um Daten von der offiziellen Hyrox-Ergebnis-Webseite zu scrapen.

Datenabruf und -aufbereitung

Nachdem ich über das Notebook gestolpert war, verwendete ich den Code, nahm leichte Anpassungen vor, um die jüngsten Ereignisse abzudecken, und zog die Daten für die Rennen 2023-2024 wie unten dargestellt ein:

In die Analyse einbezogene Ethnien

Da ich an einem offenen Rennen der Männer teilnehmen wollte, beschloss ich, die Ergebnisse der Nordamerikanischen Meisterschaften und der Weltmeisterschaften nicht in meine Analyse einzubeziehen.

Nachdem ich alle Rennen in einem großen Datensatz zusammengefasst hatte, beschloss ich, nur die offenen Ergebnisse der Männer einzubeziehen und andere Kategorien (alle Profiergebnisse oder offene Doppel/Damen/Staffeln) auszulassen.

Da der Scraper die Daten direkt von der HYROX-Website abruft, mussten die Daten nicht wirklich bereinigt werden, abgesehen von einer kleinen Vorverarbeitung, bei der alle Zeiten aus ihrem String-Format in Gesamtsekunden umgewandelt wurden. Danach konnte ich direkt mit der Analyse beginnen.

Zu beantwortende Fragen

Gibt es in dem Rennen Stationen, die den Unterschied ausmachen?

Wenn man die Zeit, die die Teilnehmer an den einzelnen Stationen verbringen, mit den durchschnittlichen Laufzeiten vergleicht, kann man sich ein Bild davon machen, was bei den einzelnen Trainingseinheiten zu erwarten ist. Dies würde mir einen Hinweis darauf geben, wo ich im Vergleich zu meiner Zielzeit stehe, und ich könnte sehen, ob es Stationen gibt, denen ich mehr Aufmerksamkeit schenken sollte als anderen.

Durchschnittliche Zeiten auf Läufen / Stationen und Roxzones über alle Rennen im Datensatz

Das Diagramm zeigt, wie die Durchschnittszeiten mit jedem Durchlauf ansteigen, was angesichts der Ermüdung an den einzelnen Stationen zu erwarten ist. Ein weiterer interessanter Aspekt ist das Verhältnis von Schlittenschieben zu Schlittenziehen. Angesichts des höheren Gewichts beim Drücken (152 kg gegenüber 102 kg beim Ziehen) hätte ich erwartet, dass die Stationen zeitlich näher beieinander liegen. Es überrascht vielleicht nicht, dass die Teilnehmer dazu neigen, recht schnell anzufangen, wobei die Durchschnittszeit für den letzten Durchgang fast 2 Minuten länger ist als für den ersten Durchgang. Die Roxzone (gelbe Linie in der Grafik) ist der "Übergangsteil" des Rennens, in dem die Athleten zwischen den Läufen und Stationen wechseln.

Ein Blick auf die Durchschnittswerte vermittelt eine gute Vorstellung davon, wo man im Vergleich zu seiner Zielzeit stehen könnte. Ich wollte jedoch ein tieferes Verständnis dafür gewinnen, wie alle Athleten an den einzelnen Stationen und Läufen abschneiden. Ein Blick auf die Verteilung der Zeiten war der nächste logische Schritt:

Zeitverteilungen der funktionalen Stationen für alle Ethnien im Datensatz

Hier können wir einige interessante Punkte erkennen.

  1. Geringste Varianz: Die ERGs, sowohl SkiErg als auch RowErg, weisen die geringste Varianz aller Übungen auf. Dies beweist, was die meisten Leute mit Hyrox-Erfahrung sagen: "Man kann auf den ERGs kein Rennen gewinnen, aber man kann es verlieren". Das bedeutet, dass es sich möglicherweise nicht lohnt, an diesen Stationen eine etwas bessere Zeit zu erzielen, wenn sich dies auf die anderen Stationen auswirkt, insbesondere wenn man bedenkt, dass der SkiErg die erste Station des Rennens ist.
  2. Größte Varianz: Wall Balls, Burpee Broad Jumps und Lunges weisen von allen Stationen die größte Varianz auf. Dies zeigt, dass dies einige der Stationen sind, die selbst für "schnelle" Athleten den Unterschied ausmachen können. Die Einsparung von Minuten an diesen Stationen kann den Unterschied zwischen einem 70-Minuten-Rennen und einem Rennen nahe der Stundenmarke ausmachen.
  3. Schlittenziehen vs. Schlittenschieben: Neben der längeren Durchschnittszeit weist das Schlittenziehen auch eine größere Variabilität im Vergleich zum Schlittenschieben auf. Dies ist sinnvoll, da beim Ziehen mehr Technik im Spiel ist als beim Schlittenziehen. Einige Athleten halten die Arme gestreckt und benutzen hauptsächlich die Beine, andere kombinieren Beine und Arme, während andere den Schlitten hauptsächlich mit Armkraft ziehen. Die unterschiedlichen Stile können als Grund für die großen Unterschiede angesehen werden. Ein weiterer Aspekt könnte einfach die Ermüdung sein, die sich beim Schieben des Schlittens einstellt, sobald man den Zug erreicht hat.
Analyse für alle offenen Männerrennen im Datensatz durchführen

Die Verteilung der Laufzeiten bietet weniger Anlass zur Analyse, da die Durchschnittszeiten im Laufe des Rennens leicht ansteigen und auch die Variabilität zunimmt, jedoch ohne große Sprünge ziemlich konstant bleibt. Einige der Ausreißer bei den Läufen 2 und 3 lassen sich dadurch erklären, dass die Athleten eine Extrarunde laufen, was ein häufiger Fehler der Teilnehmer ist. Interessant ist, dass die Durchschnittszeit bei Lauf 6 im Vergleich zum vorherigen Lauf leicht sinkt. Station 5 ist das Ruder-Erg, das in der Mitte des Rennens liegt und von den Athleten eher zur Erholung als zur Anstrengung genutzt wird.

Wie gehen die Spitzenathleten ein Rennen an und wie unterscheidet sich ihre Herangehensweise vom Rest des Feldes?

Eine weitere interessante Frage, die mir in den Sinn kam, war, wie die Athleten mit den besten Endzeiten im Vergleich zu den durchschnittlichen HYROX-Teilnehmern oder sogar zu den Athleten, die während des Rennens am meisten zu kämpfen haben, abschneiden würden. Es ist verlockend, die besseren Zeiten ausschließlich auf die "bessere Kondition" zurückzuführen, aber diese Erklärung ist zwar teilweise richtig, sagt aber nicht alles aus. In Anbetracht der Komplexität der Veranstaltung muss mehr dahinterstecken als nur härteres Training.

Um dies zu untersuchen, habe ich die Daten eines bestimmten Rennens (London 2023, willkürlich gewählt) analysiert. Ich untersuchte die Durchschnittszeiten der 20 besten Athleten, die Durchschnittswerte aller Wettkämpfer und die Durchschnittszeiten der 20 schlechtesten Athleten sowohl für Läufe als auch für Stationen. Die Erkenntnisse aus dieser Analyse:

Top 20 / Bottom 20 und Durchschnitt aller Athleten in London 2023
  1. Konstantes Tempo: Die besten Läuferinnen und Läufer zeigen eine bemerkenswerte Konstanz in ihren Laufzeiten und halten vom ersten bis zum letzten Lauf ein gleichmäßiges Tempo. Dies steht im Gegensatz zu den untersten 20 Athleten, deren Laufzeiten im Laufe des Rennens deutlich ansteigen. Würden diese Athleten ihren ersten Lauf mit einer Geschwindigkeit von etwa 8 Minuten beginnen (2 Minuten langsamer als ihr Anfangstempo) und diese Konstanz während des gesamten Rennens beibehalten, würden sie eine niedrigere Durchschnittszeit erreichen, wie in der Grafik auf der linken Seite zu sehen ist.
  2. Verhältnis von Schlittenzug zu Burpees: Die Stationsgrafik (rechts) zeigt, dass es den Spitzensportlern gelingt, ihre Burpee-Weitsprungzeiten mit ihren Schlittenzugzeiten in Einklang zu bringen. Im Gegensatz dazu haben die schwächsten Athleten Mühe, dieses Verhältnis beizubehalten. Diese Diskrepanz deutet darauf hin, dass diese Athleten sich möglicherweise zu früh zu sehr anstrengen, was sich letztlich negativ auf ihre Gesamtleistung im Rennen auswirkt.
  3. Ähnliche ERG-Verhältnisse: Interessanterweise kommen alle Teilnehmer relativ gut mit den ERGs zurecht. Bei der unteren Hälfte der Athleten gibt es einen leichten Anstieg der Zeiten vom Ski-Erg zum Ruder-Erg, aber dieser Unterschied ist minimal und wahrscheinlich auf die angesammelte Ermüdung zurückzuführen.
  4. Mentale Ermüdung? Bei den untersten 20 Wettkämpfern ist ein signifikanter Anstieg der Zeiten für Lunges und Wall Balls zu beobachten, sowohl im Vergleich zum Durchschnitt aller Wettkämpfer als auch zu den Spitzenreitern. Diese Übungen sind anspruchsvoll, und es ist zu erwarten, dass die kumulierte Ermüdung während des Rennens die Athleten verlangsamt. Der erhebliche Zeitsprung wirft jedoch die Frage nach der mentalen Ermüdung auf. Es scheint, dass diese Athleten ihre physischen und mentalen Reserven erschöpft haben, was zu längeren Pausen und langsameren Wiederanläufen während dieser letzten Übungen führte. Dies deutet darauf hin, dass ein mentales Ausdauertraining für die Verbesserung der Leistung bei diesen Stationen ebenso wichtig sein könnte wie ein körperliches Training.

Können Techniken des maschinellen Lernens die Hauptfaktoren, die zur Ethnie einer Person beitragen, weiter erklären?

Als Nächstes wollte ich sehen, ob wir ein Modell trainieren können, das anhand der Start- und Laufzeiten eines Athleten genau vorhersagen kann, innerhalb welcher Perzentile der Athlet ins Ziel kommen wird. Die Perzentile wurden zu je 20 % aufgeteilt, so dass das Modell 5 mögliche Klassifizierungen für die Endposition eines Athleten hatte.

Ein HYROX-Rennen weist aufgrund mehrerer Aspekte nichtlineare Eigenschaften auf.

  1. Tempostrategien und individuelle Stärken: Die Athleten wenden unterschiedliche Tempostrategien an, und die Art und Weise, wie sie die Läufe angehen, variiert je nach ihren individuellen Stärken. Ein starker Läufer kann zum Beispiel versuchen, seine Geschwindigkeit während der Laufabschnitte zu maximieren, während ein anderer Athlet mit einer ähnlichen Zielzeit sich auf die Erholung während der Läufe konzentrieren und die Stationen härter angehen kann. Diese unterschiedlichen Strategien führen zu einer Nichtlinearität in den Leistungsdaten.
  2. Erholung der Athleten: Athleten unterscheiden sich in ihrer Fähigkeit, sich während der "leichteren" Stationen zu erholen. Einige können ihre Leistung über verschiedene Abschnitte hinweg hervorragend halten, während andere bestimmte Stationen zur Erholung nutzen, was zu nicht linearen Mustern in der Gesamtleistung führt.
  3. Kursaufbau: HYROX-Veranstaltungen finden an verschiedenen Orten statt, einige davon auch im Freien. Die Streckenlayouts sind immer unterschiedlich und beeinflussen die Leistungen der Athleten auf nichtlineare Weise. Faktoren wie Temperatur, Luftfeuchtigkeit und Streckendesign können die Leistung der Athleten in jedem Abschnitt des Rennens beeinflussen.
  4. Psychologische Faktoren: Auch die psychologischen Bedingungen spielen eine entscheidende Rolle. Athleten reagieren unterschiedlich auf den Wettbewerbsdruck und andere Faktoren, die während des Rennens auftreten können. Diese psychologischen Reaktionen können zu nichtlinearen Leistungsschwankungen führen.

In Anbetracht all dieser Überlegungen bin ich zu dem Schluss gekommen, dass ein Random Forest diese Art von Problem gut bewältigen kann und eine schnelle Lösung bietet (im Vergleich zu Modellen wie neuronalen Netzen), die sich an die komplexe Natur der Beziehung zwischen Ereignissen in einem solchen Rennen anpassen kann.

Was den Aufbau betrifft, so wurde eine Girlandensuche verwendet, bei der verschiedene Tiefen, Mindeststichprobenblätter und Gesamtschätzer im Wald getestet wurden, zusammen mit einer 3-fachen Kreuzvalidierung.

    X = df[RUN_LABELS + WORK_LABELS]
y = df['Top Percentage']
random_state = 42
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=random_state)
rf = RandomForestClassifier(random_state=random_state)
params = {
'max_depth': [2, 5,12],
'min_samples_leaf': [5, 20, 100],
'n_estimators': [10,25,50]
}
grid_search = GridSearchCV(estimator=rf, param_grid=params, cv=3, verbose=1, scoring="accuracy")
grid_search.fit(X_train, y_train)

Ergebnisse

Nach dem Training des Modells zeigten die Ergebnisse eine 74,11%ige Genauigkeit bei der Vorhersage einer der Perzentilgruppen. Wann immer die richtige Gruppe nicht vorhergesagt wurde, lag sie entweder eine Gruppe darunter oder darüber. Dies ist sinnvoll, wenn man bedenkt, dass wir bereits auf die Unterschiede zwischen den Rennen an verschiedenen Orten hingewiesen haben. Eine Zeit, die auf einer Strecke für einen Spitzenplatz ausreicht, kann auf einer schnelleren Strecke nur im Mittelfeld liegen. Auch wenn der Datensatz in Bezug auf die Beobachtungen in jeder Gruppe ausgewogen ist, sollte man beachten, dass die Variabilität innerhalb der Perzentilgruppe die Leistung des Modells ebenfalls negativ beeinflussen kann. Die Aufteilung in nur 5 Perzentilgruppen ist anfangs eine gute Lösung, um einen Teil der Varianz zwischen den Standorten zu berücksichtigen. Allerdings überschneiden sich die Laufzeiten der Athleten in den mittleren Gruppen stark, was in Kombination mit den Diskrepanzen bei den durchschnittlichen Zielzeiten an den verschiedenen Standorten zu fehlerhaften Vorhersagen führen kann.

Die Genauigkeit wurde aufgrund der Ausgewogenheit des Datensatzes und seiner Anwendbarkeit als Bewertungsmaßstab gewählt. Außerdem war die Gesamtleistung des Modells von Interesse und nicht seine Fähigkeit, eine bestimmte Klasse vorherzusagen.

Nachdem das Modell trainiert worden war, musste als Nächstes die Frage beantwortet werden, auf welche Hauptmerkmale das Modell bei der Vorhersage der prozentualen Platzierung einer Person abstellt.

Mit Hilfe des Standardattributs feature_importances_ von SciKit, das die Wichtigkeit jedes Attributs im Modell auf der Grundlage seiner Gini-Unreinheit berechnet, konnten wir die Ergebnisse unseres Modells weiter analysieren.

Bedeutung der Merkmale des trainierten RF-Klassifikators
    feature_names = RUN_LABELS + STATIONS
importances = pd.Series(rf_classifier.feature_importances_, index=feature_names)
importances_sorted = importances.sort_values(ascending=False)
plt.figure(figsize=(6, 6))
sns.barplot(x=importances_sorted.values, y=importances_sorted.index, palette='viridis')
plt.xlabel("Importance")
plt.ylabel("Feature")
plt.title("Feature Importance")
plt.show()

Die Ergebnisse zeigen, dass Burpees, Lunges und Wall Balls die wichtigsten funktionellen Stationen in einem HYROX-Rennen sind. Auch dies bestätigt unsere anfängliche Analyse, da dies die Übungen mit den größten Unterschieden sind, sogar zwischen den Leistungssportlern, was zeigt, dass dies die Stationen sind, die in einem HYROX-Rennen wirklich den Unterschied ausmachen könnten.

Außerdem ist es sinnvoll, den letzten Lauf als den wichtigsten der Läufe zu betrachten. Viele Athleten können sehr schnell starten, aber der Unterschied liegt in der Art und Weise, wie sie das Anfangstempo halten können, und der Abschluss eines schnellen Laufs signalisiert eindeutig einen fitten Athleten mit einem guten Finish.

Lauf 5 schließlich ist der zweitwichtigste Lauf, was auf die vorangegangenen Stationen zurückzuführen ist. Er besteht aus einer Mischung aus Schlittenschieben, Ziehen und Burpees, die zu den anstrengendsten Trainingseinheiten für die Beine gehören. Daher ist die Fähigkeit eines Athleten, sich zu erholen und nach diesen Stationen ein schnelles Tempo beizubehalten, ein klarer Indikator für ein hohes Fitnessniveau und eine potenzielle Top-Percentile-Platzierung.

Künftige Schritte

Die Menge der verfügbaren Daten, die ausgewertet werden können, ist spannend und lässt Raum für weitere Entwicklungen. Es wäre interessant zu prüfen, ob ein Modell mit weniger Merkmalen besser abschneiden kann. Sind einige der Läufe tatsächlich als Rauschen zu betrachten. So könnten beispielsweise nur die Läufe 1, 5 und 8 eine allgemeine Vorstellung davon vermitteln, wie ein Athlet im Laufteil des Rennens abschneidet. Würde das Weglassen des SkiErg die Leistung des Modells ebenfalls verbessern? Würde vielleicht eine kombinierte Variable für das Schieben und Ziehen des Schlittens die Vorhersagegenauigkeit verbessern? Sollten wir anstelle einer kombinierten Variable das Verhältnis zwischen Schub und Zug des Schlittens eines Athleten betrachten? Oder das Verhältnis zwischen dem ersten und dem letzten Lauf? Sollten wir ein Referenzrennen auswählen und alle anderen Zeiten nach diesem einen Rennen skalieren, um Verwirrung im Modell zu vermeiden? Alles spannende Fragen, die es zu erforschen gilt.

Aus softwaretechnischer Sicht könnten die Daten in einer Datenbank gespeichert und für Diagramm- und Analysezwecke leicht abgerufen werden. Über eine Web-UI könnten die Benutzer ihre Namen suchen und schnell sehen, wo sie stehen - und sich mit den Durchschnittszeiten vergleichen, entweder für die spezifische Hyrox-Saison, für Hyrox insgesamt oder in dem spezifischen Rennen, an dem sie teilgenommen haben.

Diese Bereiche möchte ich in einem zukünftigen Beitrag näher beleuchten!

Schlussfolgerung

Mit dem weiteren Wachstum von HYROX erwarte ich, dass mehr Data-Science-Tools und Projekte die große Menge an verfügbaren Daten nutzen werden. Auf der Jagd nach immer schnelleren Zeiten können die Athleten wirklich von einem datengestützten Verständnis dafür profitieren, wo ihre Zeiten im Gesamtbild aller Rennsportler stehen.

Die Analyse hat gezeigt, dass Burpees, Lunges und Wall Balls entscheidende Stationen in einem Rennen sind, wobei die Leistung in der zweiten Hälfte der Läufe für die Vorhersage einer Spitzenplatzierung wichtiger ist.

Egal, ob es sich um einen Spitzensportler oder um einen Wettkämpfer handelt, der sich einer persönlichen Herausforderung stellt - die Anwendung eines datengestützten Trainingsansatzes und die Identifizierung von Schlüsselbereichen, in denen Sie Ihr Training verbessern und spezifizieren können, sind von großem Nutzen.

Neueste Geschichten

Alle anzeigen

Fragen und Antworten mit Sam Warburton, dem Kapitän der Lions

Mehr lesen

#WOTW: Jake Dearden HYROX Master Trainer Serie

Mehr lesen

Wie man sich für ein HYROX-Rennen entlädt, mit Jake Dearden

Wie man sich für ein HYROX-Rennen entlädt, mit Jake Dearden

Im Vorfeld von Wettkämpfen ist es sehr wichtig, dass wir uns am großen Tag in bester Verfassung befinden. Ich persönlich mache das gerne, indem ich in der Woche vor dem Wettkampf eine Entlastungswoche einbaue. Dadurch fühlen wir uns mehr...

Mehr lesen