Quel est l'engouement pour HYROX ?
Par Vlad Matei
Si vous avez atterri sur cet article, c'est que vous avez probablement déjà entendu parler de HYROX, dont la popularité s'est récemment accrue. Vous l'avez peut-être vu quelque part sur les médias sociaux, vous en avez entendu parler dans votre salle de sport locale ou vous avez peut-être même participé à une compétition.
Toutefois, pour ceux qui ne connaissent pas l'événement, HYROX est une course de remise en forme, qui se présente comme la "course mondiale de remise en forme pour tous".
Créée en 2017, cette course combine la course à pied et les exercices fonctionnels. Les participants courent un total de 8 kilomètres, répartis en intervalles d'un kilomètre avec un exercice fonctionnel entre chaque course. Hyrox est ouverte à l'inscription de tous, et la plupart des personnes ayant un niveau de forme physique décent seront en mesure d'effectuer chaque mouvement. Il va sans dire que plus l'athlète est en forme et compétitif, plus le temps est rapide. Semblable à un marathon ou à d'autres courses à pied, Hyrox permet aux compétiteurs ordinaires qui sont là uniquement pour le plaisir de l'événement et pour le défi personnel de se mesurer à certains des athlètes les plus en forme du monde.
Comment cette analyse a-t-elle été réalisée ?
Après m'être inscrite à Hyrox Rotterdam 2024, j'ai commencé à m'interroger sur les temps que je devais viser pour chacune des courses et des stations. Je savais quel serait mon temps sur 5 km, j'avais une idée de ce à quoi ressemblerait une course rapide de 1 km, mais je n'avais aucune idée des temps à attendre sur les stations, ou même de ce à quoi ressembleraient mes temps de course sur des jambes fatiguées à la suite des stations fonctionnelles.
En tant que personne travaillant avec des données dans son travail quotidien, j'ai commencé à chercher sur Google pour voir s'il y avait des données disponibles et je suis tombé sur cecarnet Kaggle , pour récupérer les données de la page web officielle des résultats Hyrox.
Récupération et préparation des données
Après être tombé sur le carnet, j'ai utilisé le code, j'ai fait de légers ajustements pour couvrir les événements récents, et j'ai extrait les données pour les courses de 2023-2024 comme ci-dessous :
Comme j'allais participer à une course ouverte masculine, j'ai décidé d'exclure de mon analyse les résultats des championnats d'Amérique du Nord et des championnats du monde.
Après avoir combiné toutes les courses en un seul grand ensemble de données, j'ai décidé de n'inclure que les résultats ouverts masculins, en laissant de côté les autres catégories (tous les résultats Pro, ou Open Doubles/Women's/Relay).
Comme le scraper récupère les données directement à partir du site web de HYROX, il n'était pas vraiment nécessaire de procéder à un nettoyage des données, à l'exception d'un petit prétraitement consistant à convertir tous les temps de leur format chaîne en secondes totales. Ensuite, j'ai pu passer directement à l'analyse.
Questions auxquelles il faut répondre
Y a-t-il des stations qui font la différence dans la course ?
Regarder le temps que les gens passent sur chaque station, par rapport aux temps de course moyens, aiderait à dresser le tableau de ce à quoi il faut s'attendre sur chaque séance d'entraînement. Cela me donnerait une indication de ma position par rapport à mon objectif de temps, et me permettrait de voir si certaines stations méritent plus d'attention que d'autres.
Le graphique montre que les temps moyens augmentent à chaque course, ce qui est prévisible, compte tenu de la fatigue de chaque station. Un autre aspect intéressant est le rapport entre la poussée et la traction de la luge. Compte tenu du poids plus élevé de la poussée (152 kg contre 102 kg pour la traction), je me serais attendu à ce que les stations soient plus rapprochées dans le temps, mais les données montrent que la traction est un exercice sur lequel les participants ont tendance à passer plus de temps. Il n'est peut-être pas surprenant de constater que les participants ont tendance à démarrer assez rapidement, le temps moyen de la dernière descente étant supérieur de près de 2 minutes à celui de la première descente. La roxzone (ligne jaune sur le graphique) est la partie "transition" de la course, lorsque les athlètes passent d'une course à l'autre et d'un poste à l'autre.
L'examen des valeurs moyennes donne une bonne idée de votre position par rapport à votre objectif de temps, mais je voulais mieux comprendre les performances de tous les athlètes à chaque station et à chaque course. L'examen de la distribution des temps était l'étape logique suivante :
Ici, nous voyons apparaître quelques points intéressants.
- Variance la plus faible : Les ERG, SkiErg et RowErg, présentent la variance la plus faible de tous les exercices. Cela prouve un point commun que la plupart des personnes ayant une expérience Hyrox diront : " vous ne pouvez pas gagner une course sur les ERG, mais vous pouvez la perdre ". Cela signifie qu'il n'est peut-être pas utile d'essayer d'obtenir un meilleur temps sur ces stations si cela se répercute sur les autres stations, d'autant plus que le SkiErg est la première station de la course.
- Variance la plus importante : Wall Balls, Burpee Broad Jumps et Lunges présentent la plus grande variance de toutes les stations. Cela montre qu'il s'agit de stations qui peuvent être considérées comme des facteurs de différence, même pour les athlètes "rapides". Gagner des minutes sur ces stations peut faire la différence entre une course de 70 minutes et une course plus proche de l'heure.
- Sled Pull vs Sled Push : Outre le temps moyen plus élevé, la traction sur luge présente également une plus grande variabilité par rapport à la poussée sur luge. C'est logique, étant donné que l'exercice de traction implique davantage de technique que celui de la poussée sur luge. Certains athlètes choisissent de garder les bras tendus, en utilisant principalement les jambes, d'autres combinent les jambes et les bras, tandis que d'autres ont tendance à tirer la luge en utilisant principalement la force des bras. La différence de style peut être considérée comme la raison de la plus grande variation. Un autre aspect pourrait simplement être la fatigue accumulée par la poussée de la luge une fois que l'on a atteint la traction.
La distribution des temps de course offre moins de possibilités d'analyse, les temps moyens augmentant légèrement au fur et à mesure de la course, et la variabilité augmentant également, tout en restant relativement cohérente, sans grands sauts. Certaines des valeurs aberrantes des manches 2 et 3 peuvent s'expliquer par le fait que les athlètes effectuent un tour supplémentaire, ce qui est une erreur courante chez les compétiteurs. Il est intéressant de noter que le temps moyen diminue légèrement lors de la course 6, par rapport à la précédente. La station 5 est le Row-Erg, qui est considéré comme le point médian de la course, et une station que les athlètes utilisent pour récupérer, plutôt que pour pousser.
Comment les meilleurs athlètes attaquent-ils une course et en quoi leur approche diffère-t-elle du reste du peloton ?
Une autre question intéressante qui m'est venue à l'esprit est de savoir comment les athlètes ayant réalisé les meilleurs temps à l'arrivée se comparent au concurrent moyen de l'épreuve HYROX, ou même aux athlètes qui ont le plus de mal pendant la course. Il est tentant d'attribuer les meilleurs temps uniquement au fait d'être plus en forme, mais cette explication, bien que partiellement vraie, ne dit pas tout. Compte tenu de la complexité de l'épreuve, il ne suffit pas de s'entraîner davantage.
Pour étudier cette question, j'ai analysé les données d'une course spécifique (Londres 2023, choisie arbitrairement). J'ai examiné les temps moyens des 20 meilleurs athlètes, les valeurs moyennes de tous les concurrents et les temps moyens des 20 derniers athlètes pour les courses et les stations. Les résultats de cette analyse :
- Un rythme régulier : Les meilleurs coureurs font preuve d'une remarquable régularité dans leurs temps de course, en maintenant un rythme régulier de la première à la dernière course. Cela contraste avec les 20 athlètes les moins performants, dont les temps de course augmentent de manière significative au fur et à mesure que la course progresse. Notamment, si ces athlètes moins bien classés commençaient leur première course à environ 8 minutes (un rythme 2 minutes plus lent que leur rythme initial) et maintenaient cette régularité tout au long de la course, ils obtiendraient un temps de course moyen plus faible, comme le montre le graphique de gauche.
- Rapport entre la traction sur luge et le burpee : Le graphique de la station (à droite) révèle que les athlètes d'élite parviennent à aligner leurs temps de burpee en saut large sur leurs temps de traction sur luge. En revanche, les athlètes les moins performants ont du mal à maintenir ce rapport. Cette disparité suggère que ces athlètes pourraient fournir trop d'efforts trop tôt, ce qui, en fin de compte, a un impact négatif sur leur performance globale en course.
- Ratios ERG similaires : Il est intéressant de noter que tous les concurrents gèrent relativement bien les ERG. Il y a une légère augmentation des temps entre le Ski-Erg et le Row-Erg parmi la moitié inférieure des athlètes, mais cette différence est minime et probablement due à la fatigue accumulée.
- Fatigue mentale ? Une augmentation significative des temps pour les fentes et les wall balls est observée parmi les 20 derniers compétiteurs, par rapport à la moyenne de tous les compétiteurs et aux meilleurs. Ces exercices sont difficiles et la fatigue accumulée tout au long de la course devrait ralentir les athlètes. Cependant, l'augmentation substantielle des temps soulève la question de la fatigue mentale. Il semble que ces athlètes aient épuisé leurs réserves physiques et mentales, ce qui a entraîné des pauses plus longues et des départs plus lents lors de ces derniers exercices. Cela suggère que l'entraînement à l'endurance mentale pourrait être aussi crucial que l'entraînement physique pour améliorer les performances dans ces stations.
Les techniques d'apprentissage automatique permettent-elles d'expliquer davantage les principaux facteurs contribuant à la race d'une personne ?
Ensuite, j'ai voulu voir si nous pouvions entraîner un modèle qui, étant donné les temps de station et de course d'un athlète, pouvait prédire avec précision le percentile dans lequel l'athlète finira. Les percentiles ont été divisés par 20 % - le modèle avait donc 5 classifications possibles pour la position d'arrivée d'un athlète.
Une course HYROX présente des caractéristiques non linéaires, en raison de plusieurs aspects.
- Stratégies d'allure et forces individuelles : Les athlètes utilisent différentes stratégies d'allure et la façon dont ils abordent les courses varie en fonction de leurs forces individuelles. Par exemple, un coureur fort peut chercher à maximiser sa vitesse pendant les segments de course, tandis qu'un autre athlète avec un temps d'arrivée similaire peut se concentrer sur la récupération pendant les courses et pousser les stations plus fort. Cette variation dans les stratégies introduit une non-linéarité dans les données de performance.
- Récupération de l'athlète : Les athlètes n'ont pas tous la même capacité à récupérer pendant les stations "plus faciles". Certains peuvent exceller dans le maintien de leurs performances sur différents segments, tandis que d'autres peuvent utiliser certaines stations pour récupérer, ce qui conduit à des schémas non linéaires dans les performances globales.
- Configuration du parcours : Les épreuves HYROX se déroulent sur différents sites, dont certains en plein air. Les parcours sont toujours différents et influencent les performances des athlètes de manière non linéaire. Des facteurs tels que la température, l'humidité et la conception du parcours peuvent influencer les performances des athlètes dans chaque section de la course.
- Facteurs psychologiques : Les conditions psychologiques jouent également un rôle crucial. Les athlètes réagissent différemment à la pression de la compétition et à d'autres facteurs qui peuvent survenir pendant la course. Ces réactions psychologiques peuvent entraîner des variations non linéaires de la performance.
Compte tenu de tout ce qui précède, j'ai décidé qu'une forêt aléatoire pouvait bien gérer ce type de problème, en fournissant une solution rapide (par rapport à des modèles tels que les réseaux neuronaux) qui peut s'adapter à la nature complexe de la relation entre les événements dans une telle course.
Pour ce qui est de la configuration, une recherche en anneau testant différentes profondeurs, feuilles mini-échantillons et estimateurs totaux dans la forêt a été utilisée, ainsi qu'une validation croisée trois fois.
X = df[RUN_LABELS + WORK_LABELS]
y = df['Top Percentage']
random_state = 42
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=random_state)
rf = RandomForestClassifier(random_state=random_state)
params = {
'max_depth': [2, 5,12],
'min_samples_leaf': [5, 20, 100],
'n_estimators': [10,25,50]
}
grid_search = GridSearchCV(estimator=rf, param_grid=params, cv=3, verbose=1, scoring="accuracy")
grid_search.fit(X_train, y_train)
Résultats
Après avoir entraîné le modèle, les résultats ont montré une précision de 74,11 % dans la prédiction d'un des groupes de percentiles. Chaque fois que le bon groupe n'a pas été prédit, il s'agissait soit d'un groupe inférieur, soit d'un groupe supérieur. Cela est logique, compte tenu des points que nous avons soulevés précédemment concernant les différences entre les courses dans différents lieux. Un temps suffisamment bon pour une première place sur un parcours peut n'être que moyennement classé sur un parcours plus rapide. En outre, bien que l'ensemble de données soit équilibré en termes d'observations dans chaque groupe, il convient de noter que la variabilité au sein du groupe de percentiles peut également avoir un impact négatif sur les performances du modèle. La répartition en 5 groupes de percentiles seulement permet de rendre compte d'une partie de la variance entre les sites. Cependant, les athlètes des groupes intermédiaires ont beaucoup de chevauchement dans leurs temps de course et, en combinant cela avec les écarts dans les temps d'arrivée moyens entre les différents lieux, cela peut conduire à des prédictions erronées.
La précision a été choisie comme mesure d'évaluation en raison de la nature équilibrée de l'ensemble de données et de son applicabilité. En outre, c'est la performance globale du modèle qui a été retenue, plutôt que sa capacité à prédire une certaine classe.
Une fois le modèle formé, la question suivante était de savoir quels sont les principaux attributs pris en compte par le modèle pour prédire le rang de percentile d'un individu.
En utilisant l'attribut par défaut de SciKit feature_importances_ , qui calcule l'importance de chaque attribut dans le modèle sur la base de sonimpureté de Gini , nous avons pu analyser plus en détail les résultats de notre modèle.
feature_names = RUN_LABELS + STATIONS
importances = pd.Series(rf_classifier.feature_importances_, index=feature_names)
importances_sorted = importances.sort_values(ascending=False)
plt.figure(figsize=(6, 6))
sns.barplot(x=importances_sorted.values, y=importances_sorted.index, palette='viridis')
plt.xlabel("Importance")
plt.ylabel("Caractéristique")
plt.title("Importance de la caractéristique")
plt.show()
Les résultats montrent que les burpees, les fentes et les wall balls sont les stations fonctionnelles les plus importantes dans une course HYROX. Une fois de plus, cela confirme notre analyse initiale, car ce sont les exercices qui présentent la plus grande variation, même entre les athlètes de compétition, ce qui montre que ce sont les stations qui pourraient vraiment faire la différence lors d'une course HYROX.
En outre, il est logique de considérer la dernière course comme la plus importante des courses. De nombreux athlètes peuvent démarrer très vite, mais la différence réside dans la manière dont ils peuvent maintenir le rythme initial, et le fait de terminer sur une course rapide indique clairement que l'athlète est en bonne forme physique et qu'il a une bonne finition.
Enfin, la course 5, qui est la deuxième course la plus importante, peut être attribuée à toutes les stations qui l'ont précédée. Il s'agit d'un mélange de poussées, de tractions et de burpees en luge, qui font partie des exercices les plus éprouvants pour les jambes. La capacité d'un athlète à récupérer et à maintenir un rythme rapide après ces stations est donc un indicateur clair d'une bonne condition physique et d'une possibilité de terminer dans le premier percentile.
Prochaines étapes
La quantité de données disponibles pour l'extraction est passionnante et laisse de la place pour d'autres développements. Il serait intéressant d'évaluer si un modèle comportant moins de caractéristiques peut être plus performant. Certaines des séries sont-elles en fait du bruit ? Par exemple, seules les descentes 1, 5 et 8 pourraient donner une idée générale des performances d'un athlète dans la partie course à pied. De même, le fait de ne pas tenir compte du SkiErg améliorerait-il les performances du modèle ? La création d'une variable combinant la poussée et la traction de la luge améliorerait-elle la précision de la prédiction ? Plutôt qu'une variable combinée, devrions-nous considérer le ratio poussée-tirage de la luge d'un athlète ? Ou le rapport entre la première et la dernière course ? Devrions-nous choisir une course de référence et calculer tous les autres temps en fonction de cette course afin d'éliminer toute confusion dans le modèle ? Autant de questions passionnantes à explorer.
Du point de vue de l'ingénierie logicielle, les données pourraient être stockées dans une base de données et facilement récupérées à des fins de traçage et d'analyse. Par le biais d'une interface Web, les utilisateurs pourraient rechercher leur nom et voir rapidement où ils se classent - et se comparer aux temps moyens, soit pour la saison Hyrox spécifique, soit pour Hyrox dans son ensemble, soit pour la course spécifique à laquelle ils ont participé.
J'ai l'intention d'explorer ces domaines dans un prochain article !
Conclusion
Au fur et à mesure que HYROX se développe, je m'attends à ce que davantage d'outils et de projets de science des données tirent parti de la grande quantité de données disponibles. Dans la course aux temps de plus en plus rapides, les athlètes peuvent vraiment bénéficier d'une compréhension fondée sur les données de la place de leurs temps dans l'ensemble du tableau de tous les athlètes de course.
L'analyse a mis en évidence que les burpees, les fentes et les wall balls sont des stations cruciales dans une course, la performance dans la seconde moitié des courses étant plus importante pour prédire une première place.
Qu'il s'agisse d'un athlète d'élite ou d'une personne qui relève un défi personnel, l'application d'une approche de l'entraînement basée sur les données et l'identification des domaines clés pour améliorer et préciser votre entraînement peuvent être très bénéfiques.
Partager :
#WOTW : Jake Dearden HYROX Master Trainer Series
#WOTW : Zara Piergianni Série HYROX