Le marathon le plus roulant ? Et autres statistiques...

La compétition, les résultats, les performances, le haut niveau et son actualité, records.
Suivi des courses du point de vue de la tête de course pour les courses sans de nombreux kikous.
Analyse des courses, statistiques, pronostiques, cotations, classements.

Messagepar Mathias » sa fiche K
» 25 Jan 2017, 16:24

Salut,

La question est classique : "quel est le marathon le plus roulant ?".
Avec ses variantes, comme par exemple : "Quel est le kilomètre vertical le plus propice à la perf ?".

On est nombreux à se poser ce genre de questions...
Par exemple ici, ici et encore ici.

J'ai créé une page de stats sur les résultats de quelques catégories de courses (marathon, semi, 10km, 100km, KMV, 100 miles).

Bon, on manque encore un peu de matière (les résultats des grands marathons sont délicats à récupérer et à enregistrer sur Kikouroù), et les stats révèlent pas mal de bugs dans les résultats (exemple des KMV ultra rapides en 20 minutes ;-) ).

Mon idée c'était d'aller un peu plus loin que de simples calculs de min, max, moyenne, etc., notamment en approfondissant la comparaison de 2 courses, pour mieux comprendre ce qui se cache derrière les moyennes.

La principale difficulté pour pouvoir avancer ce travail, c'est de disposer de plus de résultats.
Et pour pouvoir enregistrer plus de résultats, on a besoin :
- de mettre en place des outils de correction des erreurs,
- (peut être) d'améliorer la procédure d'enregistrement des résultats,
- et surtout, d'un coup de main pour gérer l'enregistrement des résultats, WE après WE.

Si vous êtes intéressé, et si vous êtes familier d'Excel (ou encore mieux : un langage de programmation, des expressions régulières...), n'hésitez pas à proposer un coup de main ici !

à+
Mathias

Messagepar cloclo » sa fiche K
» 25 Jan 2017, 16:52

Faudrait embaucher Rodio :roll: :arrow:

Messagepar Robineto33 » sa fiche K
» 26 Jan 2017, 21:32

regarde du côté de Francfort, tu ne devrais pas être loin de la première place...

Messagepar neofoxy » sa fiche K
» 21 Avr 2017, 16:20

En semi, il manque des couses ou bien je ne les trouve pas : le semi de Boulogne par exemple qui est normalement dans l'un des plus rapide.
Pour baser sur les résultats de courses il y a d'autres paramètres selon moi:
-le nombre de coureurs, car ils se gênent et plus il y en a plus la moyenne est basse normalement car plus elle est populaire plus les gens tentent des one shot.
Exemple: Il y a plus de coureurs au semi de Paris (35000) qu'au semi de Rueil (1600) qui sont à 1 semaine d'écart en général. Le premier à paris met 9 min de moins qu'à Rueil (pas de plateaux international à Rueil) mais la moyenne et la médiane sont plus basses à Rueil.
Un prorata sur le nombre de coureurs me parait nécessaire pour comparer.
Reste à savoir comment faire? Prendre les même coureurs dans les courses ou par recoupement ?
-Le temps/méteo du jour de la prise en compte, mais là c'est moins gérable.

Messagepar ilgigrad » sa fiche K
» 22 Avr 2017, 09:45

neofoxy a écrit:En semi, il manque des couses ou bien je ne les trouve pas : le semi de Boulogne par exemple qui est normalement dans l'un des plus rapide.
Pour baser sur les résultats de courses il y a d'autres paramètres selon moi:
-le nombre de coureurs, car ils se gênent et plus il y en a plus la moyenne est basse normalement car plus elle est populaire plus les gens tentent des one shot.
Exemple: Il y a plus de coureurs au semi de Paris (35000) qu'au semi de Rueil (1600) qui sont à 1 semaine d'écart en général. Le premier à paris met 9 min de moins qu'à Rueil (pas de plateaux international à Rueil) mais la moyenne et la médiane sont plus basses à Rueil.
Un prorata sur le nombre de coureurs me parait nécessaire pour comparer.
Reste à savoir comment faire? Prendre les même coureurs dans les courses ou par recoupement ?
-Le temps/méteo du jour de la prise en compte, mais là c'est moins gérable.

Prendre les mêmes coureurs induit des biais importants. Si on exclue l'homonymie (quand on selectionne mon nom par exemple, les resultats de trois coureurs differents apparaissent), il arrive que des dossards soient portés par d'autres que ceux qui se sont inscits, qu'un coureur accompagne un ami ou tout simplement qu'il realise une contre-perf.
Disposer de données "bruitées" n'est pas un problème puisqu'on peut légitimement supposer que la majorité des coureurs courent avec leur dossard en tentant d'optimiser ses performances. Cela est sans doute d'autant plus vrai qu'on restreint l'echantillon à ceux qui terminent un marathon en moins de trois heures par exemple. On peut ensuite vérifier dans quelle mesure les données associées à une queue de peloton collent avec celle de l'échantillon "moins de trois heures".
Bref on peut s'amuser avec ces données; j'ai sous la main quelques algorithmes de machine learning (regression, Knn et surtout de reseaux de neurones multi-couches) qui devraient permettre de trouver quelques correlations pertinentes et surtout de pouvoir s'essayer à quelques predictions de temps...

Messagepar Mathias » sa fiche K
» 03 Juil 2017, 17:59

neofoxy a écrit:En semi, il manque des couses ou bien je ne les trouve pas : le semi de Boulogne par exemple qui est normalement dans l'un des plus rapide.


Oui oui, c'est bien notre problème n°1 pour l'instant : augmenter la base de données de résultats.
Et pour cela, trouver des volontaires pour donner un coup de main, et surtout, améliorer le process !

Messagepar Mathias » sa fiche K
» 03 Juil 2017, 18:02

ilgigrad a écrit:Prendre les mêmes coureurs induit des biais importants. Si on exclue l'homonymie (quand on selectionne mon nom par exemple, les resultats de trois coureurs differents apparaissent), il arrive que des dossards soient portés par d'autres que ceux qui se sont inscits, qu'un coureur accompagne un ami ou tout simplement qu'il realise une contre-perf.
Disposer de données "bruitées" n'est pas un problème puisqu'on peut légitimement supposer que la majorité des coureurs courent avec leur dossard en tentant d'optimiser ses performances. Cela est sans doute d'autant plus vrai qu'on restreint l'echantillon à ceux qui terminent un marathon en moins de trois heures par exemple. On peut ensuite vérifier dans quelle mesure les données associées à une queue de peloton collent avec celle de l'échantillon "moins de trois heures".
Bref on peut s'amuser avec ces données; j'ai sous la main quelques algorithmes de machine learning (regression, Knn et surtout de reseaux de neurones multi-couches) qui devraient permettre de trouver quelques correlations pertinentes et surtout de pouvoir s'essayer à quelques predictions de temps...


Oui on va forcément avoir un (gros) pb de bruit...
Mais ça se gère.

ça m'intéresse si tu as envie de te pencher sur la question (quels algos et pour quoi faire), ceci dit comme je viens de l'écrire, on a d'abord un pb de quantité de résultats !
Pour les réseaux de neurones multi-couches, je n'y crois pas trop, il faudrait une quantité de données phénoménale, non ? Il y a sans doute des choses plus simples à faire, avant...

Messagepar neofoxy » sa fiche K
» 03 Juil 2017, 21:04

Mathias a écrit:
neofoxy a écrit:En semi, il manque des couses ou bien je ne les trouve pas : le semi de Boulogne par exemple qui est normalement dans l'un des plus rapide.


Oui oui, c'est bien notre problème n°1 pour l'instant : augmenter la base de données de résultats.
Et pour cela, trouver des volontaires pour donner un coup de main, et surtout, améliorer le process !


On peut déja rapidement récupèrer des résultats du passé sur quelques sites d'organisateurs qui ont géneralement les résultats classés par années dans une certaine limite.
Si on a un pdf je ne sais pas ce qu'on peut facilement en faire.
Mais souvent ce sont des pages et des pages de classement en html et là c'est coton pour des grandes courses.

Messagepar Mathias » sa fiche K
» 03 Juil 2017, 22:41

neofoxy a écrit:On peut déja rapidement récupèrer des résultats du passé sur quelques sites d'organisateurs qui ont géneralement les résultats classés par années dans une certaine limite.
Si on a un pdf je ne sais pas ce qu'on peut facilement en faire.
Mais souvent ce sont des pages et des pages de classement en html et là c'est coton pour des grandes courses.


C'est bien là le soucis !

Pour l'instant, notre problème c'est plus le traitement des fichiers PDF (et même excel), mais pas trop l'approvisionnement en résultats... à ce jour nous avons 520 fichiers résultats en attente de traitement... !

Messagepar neofoxy » sa fiche K
» 03 Juil 2017, 22:48

Mathias a écrit:
neofoxy a écrit:On peut déja rapidement récupèrer des résultats du passé sur quelques sites d'organisateurs qui ont géneralement les résultats classés par années dans une certaine limite.
Si on a un pdf je ne sais pas ce qu'on peut facilement en faire.
Mais souvent ce sont des pages et des pages de classement en html et là c'est coton pour des grandes courses.


C'est bien là le soucis !

Pour l'instant, notre problème c'est plus le traitement des fichiers PDF (et même excel), mais pas trop l'approvisionnement en résultats... à ce jour nous avons 520 fichiers résultats en attente de traitement... !


Il faut une forme particulière?

Messagepar Mathias » sa fiche K
» 03 Juil 2017, 22:51

neofoxy a écrit:Il faut une forme particulière?


Les explications sont ici (résultats) et ici (enregistrement des résultats).

Messagepar petit franck » sa fiche K
» 04 Juil 2017, 07:09

Le marathon le moins roulant mais ke plus beau de France ca doit être la montagn hard avec 42 kms a faire en moins de 10 heures juste la ca paraitfacile par contre il y a 4000 metres de dénivelé :D


Bonne journée

Franck derrien

Messagepar Kirikih95 » sa fiche K
» 04 Juil 2017, 15:53

coucou, je suis nouvelle :) j'adorerais en savoir plus sur ce forum et j'aimerais bien me faire de nouvelles amies :) merci déjà de votre aimable accueil :)

Retour vers [Compét] Actualité, résultats, performances, pronos, stats

Accueil - Haut de page - Version grand écran