Le marathon le plus roulant ? Et autres statistiques...

par **Mathias** » sa fiche K » 25 Jan 2017, 16:24

Salut,

La question est classique : "quel est le marathon le plus roulant ?".
Avec ses variantes, comme par exemple : "Quel est le kilomÃ¨tre vertical le plus propice Ã la perf ?".

On est nombreux Ã se poser ce genre de questions...
Par exemple ici, ici et encore ici.

J'ai crÃ©Ã© une page de stats sur les rÃ©sultats de quelques catÃ©gories de courses (marathon, semi, 10km, 100km, KMV, 100 miles).

Bon, on manque encore un peu de matiÃ¨re (les rÃ©sultats des grands marathons sont dÃ©licats Ã rÃ©cupÃ©rer et Ã enregistrer sur KikouroÃ¹), et les stats rÃ©vÃ¨lent pas mal de bugs dans les rÃ©sultats (exemple des KMV ultra rapides en 20 minutes ;-)

).

Mon idÃ©e c'Ã©tait d'aller un peu plus loin que de simples calculs de min, max, moyenne, etc., notamment en approfondissant la comparaison de 2 courses, pour mieux comprendre ce qui se cache derriÃ¨re les moyennes.

La principale difficultÃ© pour pouvoir avancer ce travail, c'est de disposer de plus de rÃ©sultats.
Et pour pouvoir enregistrer plus de rÃ©sultats, on a besoin :
- de mettre en place des outils de correction des erreurs,
- (peut Ãªtre) d'amÃ©liorer la procÃ©dure d'enregistrement des rÃ©sultats,
- et surtout, d'un coup de main pour gÃ©rer l'enregistrement des rÃ©sultats, WE aprÃ¨s WE.

Si vous Ãªtes intÃ©ressÃ©, et si vous Ãªtes familier d'Excel (ou encore mieux : un langage de programmation, des expressions rÃ©guliÃ¨res...), n'hÃ©sitez pas Ã proposer un coup de main ici !

Ã +
Mathias

par **cloclo** » sa fiche K » 25 Jan 2017, 16:52

Faudrait embaucher Rodio :roll:

par **Robineto33** » sa fiche K » 26 Jan 2017, 21:32

regarde du cÃ´tÃ© de Francfort, tu ne devrais pas Ãªtre loin de la premiÃ¨re place...

par **neofoxy** » sa fiche K » 21 Avr 2017, 16:20

En semi, il manque des couses ou bien je ne les trouve pas : le semi de Boulogne par exemple qui est normalement dans l'un des plus rapide.
Pour baser sur les rÃ©sultats de courses il y a d'autres paramÃ¨tres selon moi:
-le nombre de coureurs, car ils se gÃªnent et plus il y en a plus la moyenne est basse normalement car plus elle est populaire plus les gens tentent des one shot.
Exemple: Il y a plus de coureurs au semi de Paris (35000) qu'au semi de Rueil (1600) qui sont Ã 1 semaine d'Ã©cart en gÃ©nÃ©ral. Le premier Ã paris met 9 min de moins qu'Ã Rueil (pas de plateaux international Ã Rueil) mais la moyenne et la mÃ©diane sont plus basses Ã Rueil.
Un prorata sur le nombre de coureurs me parait nÃ©cessaire pour comparer.
Reste Ã savoir comment faire? Prendre les mÃªme coureurs dans les courses ou par recoupement ?
-Le temps/mÃ©teo du jour de la prise en compte, mais lÃ c'est moins gÃ©rable.

par **ilgigrad** » sa fiche K » 22 Avr 2017, 09:45

neofoxy a Ã©crit:En semi, il manque des couses ou bien je ne les trouve pas : le semi de Boulogne par exemple qui est normalement dans l'un des plus rapide.
Pour baser sur les rÃ©sultats de courses il y a d'autres paramÃ¨tres selon moi:
-le nombre de coureurs, car ils se gÃªnent et plus il y en a plus la moyenne est basse normalement car plus elle est populaire plus les gens tentent des one shot.
Exemple: Il y a plus de coureurs au semi de Paris (35000) qu'au semi de Rueil (1600) qui sont Ã 1 semaine d'Ã©cart en gÃ©nÃ©ral. Le premier Ã paris met 9 min de moins qu'Ã Rueil (pas de plateaux international Ã Rueil) mais la moyenne et la mÃ©diane sont plus basses Ã Rueil.
Un prorata sur le nombre de coureurs me parait nÃ©cessaire pour comparer.
Reste Ã savoir comment faire? Prendre les mÃªme coureurs dans les courses ou par recoupement ?
-Le temps/mÃ©teo du jour de la prise en compte, mais lÃ c'est moins gÃ©rable.

Prendre les mÃªmes coureurs induit des biais importants. Si on exclue l'homonymie (quand on selectionne mon nom par exemple, les resultats de trois coureurs differents apparaissent), il arrive que des dossards soient portÃ©s par d'autres que ceux qui se sont inscits, qu'un coureur accompagne un ami ou tout simplement qu'il realise une contre-perf.
Disposer de donnÃ©es "bruitÃ©es" n'est pas un problÃ¨me puisqu'on peut lÃ©gitimement supposer que la majoritÃ© des coureurs courent avec leur dossard en tentant d'optimiser ses performances. Cela est sans doute d'autant plus vrai qu'on restreint l'echantillon Ã ceux qui terminent un marathon en moins de trois heures par exemple. On peut ensuite vÃ©rifier dans quelle mesure les donnÃ©es associÃ©es Ã une queue de peloton collent avec celle de l'Ã©chantillon "moins de trois heures".
Bref on peut s'amuser avec ces donnÃ©es; j'ai sous la main quelques algorithmes de machine learning (regression, Knn et surtout de reseaux de neurones multi-couches) qui devraient permettre de trouver quelques correlations pertinentes et surtout de pouvoir s'essayer Ã quelques predictions de temps...

par **Mathias** » sa fiche K » 03 Juil 2017, 17:59

neofoxy a Ã©crit:En semi, il manque des couses ou bien je ne les trouve pas : le semi de Boulogne par exemple qui est normalement dans l'un des plus rapide.

Oui oui, c'est bien notre problÃ¨me nÂ°1 pour l'instant : augmenter la base de donnÃ©es de rÃ©sultats.
Et pour cela, trouver des volontaires pour donner un coup de main, et surtout, amÃ©liorer le process !

par **Mathias** » sa fiche K » 03 Juil 2017, 18:02

ilgigrad a Ã©crit:Prendre les mÃªmes coureurs induit des biais importants. Si on exclue l'homonymie (quand on selectionne mon nom par exemple, les resultats de trois coureurs differents apparaissent), il arrive que des dossards soient portÃ©s par d'autres que ceux qui se sont inscits, qu'un coureur accompagne un ami ou tout simplement qu'il realise une contre-perf.
Disposer de donnÃ©es "bruitÃ©es" n'est pas un problÃ¨me puisqu'on peut lÃ©gitimement supposer que la majoritÃ© des coureurs courent avec leur dossard en tentant d'optimiser ses performances. Cela est sans doute d'autant plus vrai qu'on restreint l'echantillon Ã ceux qui terminent un marathon en moins de trois heures par exemple. On peut ensuite vÃ©rifier dans quelle mesure les donnÃ©es associÃ©es Ã une queue de peloton collent avec celle de l'Ã©chantillon "moins de trois heures".
Bref on peut s'amuser avec ces donnÃ©es; j'ai sous la main quelques algorithmes de machine learning (regression, Knn et surtout de reseaux de neurones multi-couches) qui devraient permettre de trouver quelques correlations pertinentes et surtout de pouvoir s'essayer Ã quelques predictions de temps...

Oui on va forcÃ©ment avoir un (gros) pb de bruit...
Mais Ã§a se gÃ¨re.

Ã§a m'intÃ©resse si tu as envie de te pencher sur la question (quels algos et pour quoi faire), ceci dit comme je viens de l'Ã©crire, on a d'abord un pb de quantitÃ© de rÃ©sultats !
Pour les rÃ©seaux de neurones multi-couches, je n'y crois pas trop, il faudrait une quantitÃ© de donnÃ©es phÃ©nomÃ©nale, non ? Il y a sans doute des choses plus simples Ã faire, avant...

par **neofoxy** » sa fiche K » 03 Juil 2017, 21:04

Mathias a Ã©crit:
neofoxy a Ã©crit:En semi, il manque des couses ou bien je ne les trouve pas : le semi de Boulogne par exemple qui est normalement dans l'un des plus rapide.

Oui oui, c'est bien notre problÃ¨me nÂ°1 pour l'instant : augmenter la base de donnÃ©es de rÃ©sultats.
Et pour cela, trouver des volontaires pour donner un coup de main, et surtout, amÃ©liorer le process !

On peut dÃ©ja rapidement rÃ©cupÃ¨rer des rÃ©sultats du passÃ© sur quelques sites d'organisateurs qui ont gÃ©neralement les rÃ©sultats classÃ©s par annÃ©es dans une certaine limite.
Si on a un pdf je ne sais pas ce qu'on peut facilement en faire.
Mais souvent ce sont des pages et des pages de classement en html et lÃ c'est coton pour des grandes courses.

par **Mathias** » sa fiche K » 03 Juil 2017, 22:41

neofoxy a Ã©crit:On peut dÃ©ja rapidement rÃ©cupÃ¨rer des rÃ©sultats du passÃ© sur quelques sites d'organisateurs qui ont gÃ©neralement les rÃ©sultats classÃ©s par annÃ©es dans une certaine limite.
Si on a un pdf je ne sais pas ce qu'on peut facilement en faire.
Mais souvent ce sont des pages et des pages de classement en html et lÃ c'est coton pour des grandes courses.

C'est bien lÃ le soucis !

Pour l'instant, notre problÃ¨me c'est plus le traitement des fichiers PDF (et mÃªme excel), mais pas trop l'approvisionnement en rÃ©sultats... Ã ce jour nous avons 520 fichiers rÃ©sultats en attente de traitement... !

par **neofoxy** » sa fiche K » 03 Juil 2017, 22:48

Mathias a Ã©crit:
neofoxy a Ã©crit:On peut dÃ©ja rapidement rÃ©cupÃ¨rer des rÃ©sultats du passÃ© sur quelques sites d'organisateurs qui ont gÃ©neralement les rÃ©sultats classÃ©s par annÃ©es dans une certaine limite.
Si on a un pdf je ne sais pas ce qu'on peut facilement en faire.
Mais souvent ce sont des pages et des pages de classement en html et lÃ c'est coton pour des grandes courses.

C'est bien lÃ le soucis !

Pour l'instant, notre problÃ¨me c'est plus le traitement des fichiers PDF (et mÃªme excel), mais pas trop l'approvisionnement en rÃ©sultats... Ã ce jour nous avons 520 fichiers rÃ©sultats en attente de traitement... !

Il faut une forme particuliÃ¨re?

par **Mathias** » sa fiche K » 03 Juil 2017, 22:51

neofoxy a Ã©crit:Il faut une forme particuliÃ¨re?

par **petit franck** » sa fiche K » 04 Juil 2017, 07:09

Le marathon le moins roulant mais ke plus beau de France ca doit Ãªtre la montagn hard avec 42 kms a faire en moins de 10 heures juste la ca paraitfacile par contre il y a 4000 metres de dÃ©nivelÃ©

par **Kirikih95** » sa fiche K » 04 Juil 2017, 15:53

coucou, je suis nouvelle

j'adorerais en savoir plus sur ce forum et j'aimerais bien me faire de nouvelles amies