Trouver un proxy à partir de données ouvertes (INSEE, etc..) permettant d'expliquer la distribution alimentaire #33

martindaniel4 · 2015-05-26T19:02:48Z

No description provided.

martindaniel4 · 2015-05-26T19:09:56Z

@dataforgoodfr/datagooders tout l'enjeu est de parvenir à une liste priorisée des zones / centres pour lesquels il advient de mobiliser des bénévoles.

E.g :

Liste priorisée pour le mois de Juin 2015:

centre U2A	indice de priorité
U901	0.98
U452	0.75
U634	0.6
...	....

L'indice de priorité est un indice synthétique indiquant la demande réelle en besoin de distribution alimentaire.

Etant donné que nous ne disposons que de ce qui a été effectivement distribué, l'enjeu est de déterminer le meilleur proxy pouvant expliquer le besoin en aide alimentaire.

Cette liste peut s'affiner ensuite par mois, par types de produits (en fonction des stocks Croix Rouge etc..)

A plus long terme, cela peut s'intégrer avec des données issues de la grande distribution.

martindaniel4 · 2015-05-27T09:31:37Z

@RomainWarlop @c-o @samronsin @d4gvince @lefko2000 @ssoulier preneur de vos inputs là dessus. C'est le nerf du projet.

d4gvince · 2015-05-27T09:51:01Z

Une première approche ne consisterait-elle pas simplement à étudier les corrélations entre l'indice de priorité du centre et la vingtaine de variables explicatives des données carroyées de l'INSEE sur les carreaux environnant ?
http://www.insee.fr/fr/themes/detail.asp?reg_id=0&ref_id=donnees-carroyees&page=donnees-detaillees/donnees-carroyees/donnees-carroyees-200m.htm

martindaniel4 · 2015-05-27T09:52:49Z

@d4gvince si carrément faut faire quelque chose comme ça - http://ants.builders/blog/18-02-2014/predicting-abstention-rate-using-open-data.html

On a récupéré déjà pas mal de données ici - https://github.com/dataforgoodfr/croixrouge/blob/master/data/INSEE/data.md

@dataforgoodfr/datagooders vous en pensez quoi ?

c-o · 2015-05-27T13:13:19Z

tout à fait @d4gvince, reste à déterminer l'indice de prio à "corréler".
Soit on décide d'un indice à priori, Ex nb repas servis / population à moins de 25km
Soit on fait un modèle pour prédire le nombre de repas distribués (ou plutot nombre unique de personnes venant dans le centre), et l'indice de priorisation provient alors de la déviance par rapport à la prédiction. Plus instable (faudra surtout pas overfitter) mais plus généralisable y compris à des zones non couvertes par CRF aujourd'hui.

c-o · 2015-05-27T21:16:50Z

ce que j'ai dit juste avant ne marchera pas directement: le modèle apprendrait uniquement la relation nombre_repas = f(population) : plus il y a du monde plus il y a de repas... et ne prendra pas de signal à partir des données sur les revenus & co
il faudra bien normaliser pour empêcher le modèle de capturer le mauvais signal... avec 2 soucis : la normalisation rajoute toujours de la variance, et la taille fait bien partit des critères de priorisation !
mais bon je pense que ça s'investigue tout de même.

martindaniel4 · 2015-05-29T12:19:18Z

@c-o @d4gvince @lefko2000 @RomainWarlop @samronsin et si on commençait simple avec la variable à prédire qui est la présence / absence d'un centre de distribution (en prenant CRF, Restos du coeur etc..)

On pourrait introduire les volumes distribués dans un second temps ?

c-o · 2015-05-29T12:32:54Z

pourquoi pas oui, je voyais plutôt un modèle basé uniquement sur les lieux où il y a un centre, mais ça peut marcher aussi comme ça. par contre ça fait un jeu de donnée bien asymétrique (36K zones INSEE au total, ~1K avec des centres CRF ou RC), faudrait gérer ça. @d4gvince @lefko2000 @RomainWarlop @samronsin vous en pensez quoi vous?

d4gvince · 2015-05-29T12:37:42Z

On pourrait regarder la distance au centre le plus proche, plutôt qu'un simple booléen présence/absence de centre dans la commune.
Mais dans un cas comme dans l'autre, on risque de constater qu'il y a d'abord et avant tout des centres de distributions... la où il y a des habitants...

martindaniel4 · 2015-05-29T12:52:12Z

@d4gvince essayons !

Si tu compares l'implantation entre Paris et Marseille y a une grande différence, alors que ce sont les deux premières villes en nombre d'habitants

samronsin · 2015-06-04T11:51:49Z

@d4gvince très cool les données carroyées! 2010 ça date un peu, non? @martindaniel4 @c-o on aurait un moyen de choper quelque chose d'à la fois fin géographiquement (commune / carreaux) et récent?

comme premier proxy, je propose de prendre la distance totale (aspect géographique) que tous les chômeurs (aspect demande) d'une commune doivent parcourir pour arriver à un centre.
on peut le faire par étapes:

si centre dans commune distance = 0, sinon distance = 1 (~ variable dichotomique proposée par @martindaniel4, pondérée par le chômage)
faire le calcul sous l'hypothèse d'une répartition homogène de la population sur la commune
affiner la répartition géographique des chômeurs (typiquement avec des données carroyées)

un truc qui va nous manquer c'est l'implantation d'associations "indépendantes". @martindaniel4 moyen de choper des données là-dessus?

martindaniel4 · 2015-06-08T18:25:55Z

@samronsin j'ai regardé je crois que le plus récent est de 2010. Ca doit coûter tellement cher à collecter, m'étonnerait qu'ils le fassent tous les ans.

Très cool cette première approche.

Je suis en contact avec le réseau FSE waste. Ils doivent sûrement avoir une idée des assoces locales je vais regarder.

@samronsin t'es chaud pour qu'on présente ça au prochain meetup, histoire qu'on se mette une deadline ? Je suis à Paris à partir de jeudi, on peut avancer dessus.

@dataforgoodfr/datagooders vous en pensez quoi ? D'autres idées ?

samronsin · 2015-06-09T19:07:42Z

@martindaniel4 OK, donc on se base sur les données 2010 pour cette première approche! Cool pour FSE waste et yes pour avancer là-dessus -- je ne serai probablement pas à Paris le 30 juin, mais quelqu'un d'autre pourra présenter...

martindaniel4 added help wanted Méthodologie labels May 26, 2015

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Trouver un proxy à partir de données ouvertes (INSEE, etc..) permettant d'expliquer la distribution alimentaire #33

Trouver un proxy à partir de données ouvertes (INSEE, etc..) permettant d'expliquer la distribution alimentaire #33

martindaniel4 commented May 26, 2015

martindaniel4 commented May 26, 2015

martindaniel4 commented May 27, 2015

d4gvince commented May 27, 2015

martindaniel4 commented May 27, 2015

c-o commented May 27, 2015

c-o commented May 27, 2015

martindaniel4 commented May 29, 2015

c-o commented May 29, 2015

d4gvince commented May 29, 2015

martindaniel4 commented May 29, 2015

samronsin commented Jun 4, 2015

martindaniel4 commented Jun 8, 2015

samronsin commented Jun 9, 2015

Trouver un proxy à partir de données ouvertes (INSEE, etc..) permettant d'expliquer la distribution alimentaire #33

Trouver un proxy à partir de données ouvertes (INSEE, etc..) permettant d'expliquer la distribution alimentaire #33

Comments

martindaniel4 commented May 26, 2015

martindaniel4 commented May 26, 2015

martindaniel4 commented May 27, 2015

d4gvince commented May 27, 2015

martindaniel4 commented May 27, 2015

c-o commented May 27, 2015

c-o commented May 27, 2015

martindaniel4 commented May 29, 2015

c-o commented May 29, 2015

d4gvince commented May 29, 2015

martindaniel4 commented May 29, 2015

samronsin commented Jun 4, 2015

martindaniel4 commented Jun 8, 2015

samronsin commented Jun 9, 2015