Quel est l'engouement pour HYROX ?

Par Vlad Matei

Si vous avez atterri sur cet article, c'est que vous avez probablement déjà entendu parler de l'HYROX, dont la popularité a récemment augmenté. Vous l'avez peut-être vu quelque part sur les médias sociaux, vous en avez entendu parler dans votre salle de sport locale ou vous avez peut-être même participé à une compétition.

Cependant, pour ceux qui ne sont pas familiers avec l'événement, HYROX est une course de fitness, se présentant comme la "course de fitness mondiale pour tout le monde".

Fondée en 2017, la course combine la course à pied avec des exercices fonctionnels. Les participants courent un total de 8 kilomètres, divisés en intervalles d'un kilomètre avec un exercice fonctionnel entre chaque course. Hyrox est ouverte à l'inscription de tous, et la plupart des personnes ayant un niveau de forme physique décent seront en mesure d'effectuer chaque mouvement. Il va sans dire que plus l'athlète est en forme et compétitif, plus le temps est rapide. À l'instar d'un marathon ou d'autres courses à pied, Hyrox permet aux compétiteurs ordinaires, qui sont là uniquement pour le plaisir de l'événement et pour le défi personnel, de se mesurer à certains des athlètes les plus en forme du monde.

Comment cette analyse a-t-elle vu le jour ?

Après m'être inscrit à Hyrox Rotterdam 2024, j'ai commencé à m'interroger sur les temps que je devais viser pour chacune des courses et des stations. Je savais quel serait mon temps au 5 km, j'avais une idée de ce que serait pour moi une course rapide de 1 km, mais je n'avais aucune idée des temps à attendre sur les stations, ou même de ce que seraient mes temps de course sur des jambes fatiguées après les stations fonctionnelles.

En tant que personne qui travaille avec des données dans son travail quotidien, j'ai commencé à chercher sur Google pour voir s'il y avait des données disponibles et je suis tombé sur cecarnet Kaggle , pour récupérer les données de la page web officielle des résultats de Hyrox.

Récupération et préparation des données

Après être tombé sur le carnet, j'ai utilisé le code, j'ai fait de légers ajustements pour couvrir les événements récents, et j'ai récupéré les données pour les courses de 2023-2024 comme ci-dessous :

Comme j'allais participer à une course ouverte masculine, j'ai décidé d'exclure de mon analyse les résultats des Championnats d'Amérique du Nord et des Championnats du monde.

Après avoir combiné toutes les courses en un seul grand ensemble de données, j'ai décidé de n'inclure que les résultats ouverts masculins, en laissant de côté les autres catégories (tous les résultats Pro, ou Open Doubles/Women's/Relay).

Comme le scraper récupère les données directement depuis le site web de HYROX, il n'y avait pas vraiment besoin de nettoyer les données, à l'exception d'un petit pré-traitement, convertissant tous les temps de leur format chaîne de caractères en secondes totales. Ensuite, j'ai pu passer directement à l'analyse.

Questions à résoudre

Y a-t-il des stations qui font la différence dans la course ?

L'analyse du temps passé par les participants à chaque station, par rapport aux temps de course moyens, permet de dresser un tableau de ce à quoi il faut s'attendre pour chaque séance d'entraînement. Cela me donnerait une indication de ma position par rapport à mon objectif de temps, et me permettrait de voir si certaines stations méritent plus d'attention que d'autres.

Temps moyens sur les courses / stations et Roxzones pour toutes les courses de l'ensemble des données

Le graphique montre que les temps moyens augmentent avec chaque course, ce qui est prévisible, étant donné la fatigue de chacune des stations. Un autre aspect intéressant est le rapport entre la poussée et la traction de la luge. Étant donné le poids plus élevé de la poussée (152 kg contre 102 kg pour la traction), je me serais attendu à ce que les stations soient plus rapprochées dans le temps, mais les données montrent que la traction est un exercice sur lequel les gens ont tendance à passer plus de temps. Il n'est peut-être pas surprenant de constater que les participants ont tendance à démarrer assez rapidement, le temps moyen de la dernière descente étant supérieur de près de 2 minutes à celui de la première descente. La roxzone (ligne jaune sur le graphique) correspond à la partie "transition" de la course, lorsque les athlètes passent d'une course à l'autre et d'un poste à l'autre.

L'examen des valeurs moyennes donne une bonne idée de votre position par rapport à votre objectif de temps, mais je voulais mieux comprendre les performances de tous les athlètes à chaque station et à chaque course. L'étude de la distribution des temps était la prochaine étape logique :

Distribution des temps aux stations fonctionnelles pour toutes les courses de l'ensemble de données

Ici, nous pouvons voir quelques points intéressants.

Variance la plus faible : Les ERG, SkiErg et RowErg, présentent la variance la plus faible de tous les exercices. Cela prouve un point commun que la plupart des personnes ayant une expérience Hyrox diront : " vous ne pouvez pas gagner une course sur l'ERG, mais vous pouvez la perdre ". Cela signifie qu'il n'est peut-être pas utile de s'efforcer d'obtenir un temps légèrement meilleur sur ces stations si cela se répercute sur les autres stations, surtout si l'on considère que le SkiErg est la première station de la course.
Variance la plus importante : Wall Balls, Burpee Broad Jumps et Lunges présentent la plus grande variance de toutes les stations. Cela montre qu'il s'agit de stations qui peuvent être considérées comme des facteurs de différence, même pour les athlètes "rapides". Gagner des minutes sur ces stations peut faire la différence entre une course de 70 minutes et une course plus proche de l'heure.
Sled Pull vs Sled Push : En plus d'un temps moyen plus élevé, le Sled Pull présente également une plus grande variabilité par rapport au Sled Push. C'est logique, étant donné que l'exercice de traction implique davantage de technique que celui de la poussée sur luge. Certains athlètes choisissent de garder les bras tendus, en utilisant principalement les jambes, d'autres combinent les jambes et les bras, tandis que d'autres ont tendance à tirer la luge en utilisant principalement la force des bras. La différence de style peut être considérée comme la raison de la plus grande variation. Un autre aspect pourrait simplement être la fatigue accumulée par la poussée de la luge une fois que vous avez atteint la traction.

Analyse des temps de course pour toutes les courses ouvertes aux hommes de l'ensemble des données

La distribution des temps de course offre moins de possibilités d'analyse, les temps moyens augmentant légèrement au fur et à mesure que la course avance, et la variabilité augmentant également, tout en restant relativement cohérente, sans grands sauts. Certaines des valeurs aberrantes des manches 2 et 3 peuvent s'expliquer par le fait que les athlètes effectuent un tour supplémentaire, ce qui est une erreur courante chez les compétiteurs. Il est intéressant de noter que le temps moyen diminue légèrement lors de la course 6, par rapport à la précédente. La station 5 est le Row-Erg, qui est considéré comme le point médian de la course, et une station que les athlètes utilisent pour récupérer, plutôt que pour pousser.

Comment les meilleurs athlètes attaquent-ils une course et en quoi leur approche diffère-t-elle du reste du peloton ?

Une autre question intéressante qui m'est venue à l'esprit est de savoir comment les athlètes ayant les meilleurs temps d'arrivée se comparent au concurrent moyen de l'HYROX, ou même aux athlètes qui ont le plus de mal pendant la course. Il est tentant d'attribuer les meilleurs temps uniquement au fait d'être plus en forme, mais cette explication, bien que partiellement vraie, ne dit pas tout. Compte tenu de la complexité de l'épreuve, il ne suffit pas de s'entraîner davantage.

Pour explorer cette question, j'ai analysé les données d'une course spécifique (Londres 2023, choisie arbitrairement). J'ai examiné les temps moyens des 20 meilleurs athlètes, les valeurs moyennes de tous les concurrents et les temps moyens des 20 derniers athlètes pour les courses et les stations. Les résultats de cette analyse :

Top 20 / Bottom 20 et moyenne de tous les athlètes à Londres 2023

Un rythme régulier : Les athlètes les plus performants font preuve d'une remarquable régularité dans leurs temps de course, en maintenant un rythme régulier de la première à la dernière course. Cela contraste avec les 20 derniers athlètes, dont les temps de course augmentent de manière significative au fur et à mesure que la course progresse. Notamment, si ces athlètes moins bien classés commençaient leur première course à environ 8 minutes (un rythme 2 minutes plus lent que leur rythme initial) et maintenaient cette régularité tout au long de la course, ils obtiendraient un temps de course moyen plus faible, comme le montre le graphique de gauche.
Rapport entre la traction sur luge et le burpee : Le graphique de la station (à droite) révèle que les athlètes d'élite parviennent à aligner leur temps de burpee sur le saut en longueur avec leur temps de traction sur luge. En revanche, les athlètes les moins performants peinent à maintenir ce rapport. Cette disparité suggère que ces athlètes pourraient fournir trop d'efforts trop tôt, ce qui, en fin de compte, a un impact négatif sur leur performance globale en course.
Ratios ERG similaires : Il est intéressant de noter que tous les concurrents gèrent relativement bien les ERG. Il y a une légère augmentation des temps entre le Ski-Erg et le Row-Erg parmi la moitié inférieure des athlètes, mais cette différence est minime et probablement due à la fatigue accumulée.
Fatigue mentale ? Une augmentation significative des temps pour les fentes et les wall balls est observée parmi les 20 derniers compétiteurs, par rapport à la moyenne de tous les compétiteurs et aux meilleurs. Ces exercices sont difficiles et la fatigue accumulée tout au long de la course devrait ralentir les athlètes. Cependant, l'augmentation substantielle des temps soulève la question de la fatigue mentale. Il semble que ces athlètes aient épuisé leurs réserves physiques et mentales, ce qui a entraîné des pauses plus longues et des départs plus lents lors de ces derniers exercices. Cela suggère que l'entraînement à l'endurance mentale pourrait être aussi crucial que l'entraînement physique pour améliorer les performances dans ces stations.

Les techniques d'apprentissage automatique peuvent-elles expliquer davantage les principaux facteurs contribuant à la course d'un individu ?

Ensuite, j'ai voulu voir si nous pouvions entraîner un modèle qui, étant donné les temps de station et de course d'un athlète, pourrait prédire avec précision le percentile dans lequel l'athlète finira. Les percentiles ont été divisés par 20 % - le modèle avait donc 5 classifications possibles pour la position d'arrivée d'un athlète.

Une course HYROX présente des caractéristiques non linéaires, en raison de plusieurs aspects.

Stratégies d'allure et forces individuelles : Les athlètes utilisent différentes stratégies d'allure et la manière dont ils abordent les courses varie en fonction de leurs forces individuelles. Par exemple, un coureur fort peut chercher à maximiser sa vitesse pendant les segments de course, tandis qu'un autre athlète avec un temps d'arrivée similaire peut se concentrer sur la récupération pendant les courses et pousser les stations plus fort. Cette variation dans les stratégies introduit une non-linéarité dans les données de performance.
Récupération de l'athlète : Les athlètes n'ont pas tous la même capacité à récupérer pendant les stations "plus faciles". Certains peuvent exceller dans le maintien de leur performance sur différents segments, tandis que d'autres peuvent utiliser certaines stations pour récupérer, ce qui conduit à des modèles non linéaires dans la performance globale.
Configuration du parcours : Les épreuves HYROX se déroulent dans différents lieux, dont certains en plein air. Les parcours sont toujours différents, ce qui affecte les performances des athlètes de manière non linéaire. Des facteurs tels que la température, l'humidité et la conception du parcours peuvent influencer les performances des athlètes dans chaque section de la course.
Facteurs psychologiques : Les conditions psychologiques jouent également un rôle crucial. Les athlètes réagissent différemment à la pression de la compétition et à d'autres facteurs qui peuvent survenir pendant la course. Ces réactions psychologiques peuvent entraîner des variations non linéaires des performances.

Compte tenu de tout ce qui précède, j'ai décidé qu'une forêt aléatoire pouvait bien gérer ce type de problème, en fournissant une solution rapide (par rapport à des modèles tels que les réseaux neuronaux) qui peut s'adapter à la nature complexe de la relation entre les événements d'une telle course.

Pour ce qui est de la configuration, une recherche en étoile testant différentes profondeurs, feuilles mini-échantillons et estimateurs totaux dans la forêt a été utilisée, ainsi qu'une validation croisée trois fois.

    X = df[RUN_LABELS + WORK_LABELS]
 y = df['Top Percentage']
 random_state = 42
 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=random_state)
 rf = RandomForestClassifier(random_state=random_state)
 params = {
 'max_depth':[2, 5,12],
 'min_samples_leaf':[5, 20, 100],
 'n_estimators':[10,25,50]
 }
 grid_search = GridSearchCV(estimator=rf, param_grid=params, cv=3, verbose=1, scoring="accuracy")
 grid_search.fit(X_train, y_train)

Résultats

Après avoir entraîné le modèle, les résultats ont montré une précision de 74,11 % dans la prédiction d'un des groupes de percentiles. Chaque fois que le bon groupe n'a pas été prédit, il s'agissait soit d'un groupe inférieur, soit d'un groupe supérieur. Cela est logique, compte tenu des points que nous avons soulevés précédemment concernant les différences entre les courses dans différents lieux. Un temps suffisamment bon pour une première place sur un parcours peut n'être que moyennement classé sur un parcours plus rapide. En outre, bien que l'ensemble de données soit équilibré en termes d'observations dans chaque groupe, il convient de noter que la variabilité au sein du groupe de percentiles peut également avoir un impact négatif sur les performances du modèle. La répartition en 5 groupes de percentiles seulement permet de rendre compte d'une partie de la variance entre les sites. Cependant, les athlètes des groupes intermédiaires ont beaucoup de chevauchement dans leurs temps de course et, en combinant cela avec les écarts dans les temps d'arrivée moyens entre les différents sites, cela peut conduire à des prédictions erronées.

La précision a été choisie comme mesure d'évaluation en raison de la nature équilibrée de l'ensemble de données et de son applicabilité. En outre, c'est la performance globale du modèle qui a été retenue, plutôt que sa capacité à prédire une certaine classe.

Une fois le modèle entraîné, la question suivante était de savoir quels étaient les principaux attributs pris en compte par le modèle pour prédire le classement par centile d'une personne.

En utilisant l'attribut par défaut de SciKit feature_importances_ , qui calcule l'importance de chaque attribut dans le modèle sur la base de sonimpureté Gini, nous avons pu analyser plus en détail les résultats de notre modèle.

Importance des caractéristiques du classificateur RF entraîné

    feature_names = RUN_LABELS + STATIONS
 importances = pd.Series(rf_classifier.feature_importances_, index=feature_names)
 importances_sorted = importances.sort_values(ascending=False)
 plt.figure(figsize=(6, 6))
 sns.barplot(x=importances_sorted.values, y=importances_sorted.index, palette='viridis')
 plt.xlabel("Importance")
 plt.ylabel("Caractéristique")
 plt.title("Importance de la caractéristique") 
 plt.show()

Les résultats montrent que les burpees, les fentes et les wall balls sont les stations fonctionnelles les plus importantes dans une course HYROX. Une fois de plus, cela confirme notre analyse initiale, puisqu'il s'agit des exercices qui présentent la plus grande variation, même entre les athlètes compétitifs, ce qui montre que ce sont les stations qui pourraient vraiment faire la différence lors d'une course HYROX.

De plus, le fait de considérer la dernière course comme la plus importante des courses est également logique. De nombreux athlètes peuvent partir très vite, mais la différence réside dans la manière dont ils peuvent maintenir le rythme initial, et le fait de terminer sur une course rapide indique clairement que l'athlète est en bonne forme physique et qu'il a une bonne fin de course.

Enfin, la course 5, qui est la deuxième course la plus importante, peut être attribuée à toutes les stations qui l'ont précédée. La capacité d'un athlète à récupérer et à maintenir un rythme rapide après ces stations est donc un indicateur clair d'un niveau de condition physique élevé et d'une arrivée potentielle dans le premier percentile.

Prochaines étapes

La quantité de données disponibles est passionnante et laisse place à d'autres développements. Il serait intéressant d'évaluer si un modèle avec moins de caractéristiques peut être plus performant. Certaines des séries sont-elles en fait du bruit ? Par exemple, seules les descentes 1, 5 et 8 pourraient donner une idée générale des performances d'un athlète dans la partie course à pied. De même, le fait de ne pas tenir compte du SkiErg améliorerait-il les performances du modèle ? La création d'une variable combinant la poussée et la traction de la luge améliorerait-elle la précision de la prédiction ? Plutôt qu'une variable combinée, devrions-nous considérer le ratio poussée-tirage de la luge d'un athlète ? Ou le rapport entre la première et la dernière course ? Devrions-nous choisir une course de référence et calculer tous les autres temps en fonction de cette course afin d'éliminer toute confusion dans le modèle ? Autant de questions passionnantes à explorer.

Du point de vue de l'ingénierie logicielle, les données pourraient être stockées dans une base de données et facilement récupérées à des fins de traçage et d'analyse. Par le biais d'une interface Web, les utilisateurs pourraient rechercher leur nom et voir rapidement où ils se classent - et se comparer aux temps moyens, soit pour la saison spécifique de Hyrox, soit pour Hyrox en général, soit pour la course spécifique à laquelle ils ont participé.

J'ai l'intention d'explorer ces domaines dans un prochain article !

Conclusion

Alors que HYROX continue de se développer, je m'attends à ce que de plus en plus d'outils et de projets de science des données tirent parti de la grande quantité de données disponibles. Dans la course aux temps de plus en plus rapides, les athlètes peuvent vraiment bénéficier d'une compréhension basée sur les données de la place de leurs temps dans le tableau plus large de tous les athlètes de course.

L'analyse a mis en évidence que les burpees, les fentes et les wall balls sont des stations cruciales dans une course, la performance sur la deuxième moitié des courses étant plus importante pour prédire un meilleur résultat.

Qu'il s'agisse d'un athlète d'élite ou d'une personne qui relève un défi personnel, l'application d'une approche de l'entraînement basée sur les données et l'identification des domaines clés pour améliorer et spécifier votre entraînement peuvent s'avérer très utiles.