Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Trouver un proxy à partir de données ouvertes (INSEE, etc..) permettant d'expliquer la distribution alimentaire #33

Open
martindaniel4 opened this issue May 26, 2015 · 13 comments

Comments

@martindaniel4
Copy link
Contributor

No description provided.

@martindaniel4
Copy link
Contributor Author

@dataforgoodfr/datagooders tout l'enjeu est de parvenir à une liste priorisée des zones / centres pour lesquels il advient de mobiliser des bénévoles.

E.g :

Liste priorisée pour le mois de Juin 2015:

centre U2A indice de priorité
U901 0.98
U452 0.75
U634 0.6
... ....

L'indice de priorité est un indice synthétique indiquant la demande réelle en besoin de distribution alimentaire.

Etant donné que nous ne disposons que de ce qui a été effectivement distribué, l'enjeu est de déterminer le meilleur proxy pouvant expliquer le besoin en aide alimentaire.

Cette liste peut s'affiner ensuite par mois, par types de produits (en fonction des stocks Croix Rouge etc..)

A plus long terme, cela peut s'intégrer avec des données issues de la grande distribution.

@martindaniel4
Copy link
Contributor Author

@RomainWarlop @c-o @samronsin @d4gvince @lefko2000 @ssoulier preneur de vos inputs là dessus. C'est le nerf du projet.

@d4gvince
Copy link
Contributor

Une première approche ne consisterait-elle pas simplement à étudier les corrélations entre l'indice de priorité du centre et la vingtaine de variables explicatives des données carroyées de l'INSEE sur les carreaux environnant ?
http://www.insee.fr/fr/themes/detail.asp?reg_id=0&ref_id=donnees-carroyees&page=donnees-detaillees/donnees-carroyees/donnees-carroyees-200m.htm

@martindaniel4
Copy link
Contributor Author

@d4gvince si carrément faut faire quelque chose comme ça - http://ants.builders/blog/18-02-2014/predicting-abstention-rate-using-open-data.html

On a récupéré déjà pas mal de données ici - https://github.com/dataforgoodfr/croixrouge/blob/master/data/INSEE/data.md

@dataforgoodfr/datagooders vous en pensez quoi ?

@c-o
Copy link
Contributor

c-o commented May 27, 2015

tout à fait @d4gvince, reste à déterminer l'indice de prio à "corréler".
Soit on décide d'un indice à priori, Ex nb repas servis / population à moins de 25km
Soit on fait un modèle pour prédire le nombre de repas distribués (ou plutot nombre unique de personnes venant dans le centre), et l'indice de priorisation provient alors de la déviance par rapport à la prédiction. Plus instable (faudra surtout pas overfitter) mais plus généralisable y compris à des zones non couvertes par CRF aujourd'hui.

@c-o
Copy link
Contributor

c-o commented May 27, 2015

ce que j'ai dit juste avant ne marchera pas directement: le modèle apprendrait uniquement la relation nombre_repas = f(population) : plus il y a du monde plus il y a de repas... et ne prendra pas de signal à partir des données sur les revenus & co
il faudra bien normaliser pour empêcher le modèle de capturer le mauvais signal... avec 2 soucis : la normalisation rajoute toujours de la variance, et la taille fait bien partit des critères de priorisation !
mais bon je pense que ça s'investigue tout de même.

@martindaniel4
Copy link
Contributor Author

@c-o @d4gvince @lefko2000 @RomainWarlop @samronsin et si on commençait simple avec la variable à prédire qui est la présence / absence d'un centre de distribution (en prenant CRF, Restos du coeur etc..)

On pourrait introduire les volumes distribués dans un second temps ?

@c-o
Copy link
Contributor

c-o commented May 29, 2015

pourquoi pas oui, je voyais plutôt un modèle basé uniquement sur les lieux où il y a un centre, mais ça peut marcher aussi comme ça. par contre ça fait un jeu de donnée bien asymétrique (36K zones INSEE au total, ~1K avec des centres CRF ou RC), faudrait gérer ça. @d4gvince @lefko2000 @RomainWarlop @samronsin vous en pensez quoi vous?

@d4gvince
Copy link
Contributor

On pourrait regarder la distance au centre le plus proche, plutôt qu'un simple booléen présence/absence de centre dans la commune.
Mais dans un cas comme dans l'autre, on risque de constater qu'il y a d'abord et avant tout des centres de distributions... la où il y a des habitants...

@martindaniel4
Copy link
Contributor Author

@d4gvince essayons !

Si tu compares l'implantation entre Paris et Marseille y a une grande différence, alors que ce sont les deux premières villes en nombre d'habitants

capture d ecran 2015-05-29 a 14 50 10

capture d ecran 2015-05-29 a 14 50 33

@samronsin
Copy link

@d4gvince très cool les données carroyées! 2010 ça date un peu, non? @martindaniel4 @c-o on aurait un moyen de choper quelque chose d'à la fois fin géographiquement (commune / carreaux) et récent?

comme premier proxy, je propose de prendre la distance totale (aspect géographique) que tous les chômeurs (aspect demande) d'une commune doivent parcourir pour arriver à un centre.
on peut le faire par étapes:

  • si centre dans commune distance = 0, sinon distance = 1 (~ variable dichotomique proposée par @martindaniel4, pondérée par le chômage)
  • faire le calcul sous l'hypothèse d'une répartition homogène de la population sur la commune
  • affiner la répartition géographique des chômeurs (typiquement avec des données carroyées)

un truc qui va nous manquer c'est l'implantation d'associations "indépendantes". @martindaniel4 moyen de choper des données là-dessus?

@martindaniel4
Copy link
Contributor Author

@samronsin j'ai regardé je crois que le plus récent est de 2010. Ca doit coûter tellement cher à collecter, m'étonnerait qu'ils le fassent tous les ans.

Très cool cette première approche.

Je suis en contact avec le réseau FSE waste. Ils doivent sûrement avoir une idée des assoces locales je vais regarder.

@samronsin t'es chaud pour qu'on présente ça au prochain meetup, histoire qu'on se mette une deadline ? Je suis à Paris à partir de jeudi, on peut avancer dessus.

@dataforgoodfr/datagooders vous en pensez quoi ? D'autres idées ?

@samronsin
Copy link

@martindaniel4 OK, donc on se base sur les données 2010 pour cette première approche! Cool pour FSE waste et yes pour avancer là-dessus -- je ne serai probablement pas à Paris le 30 juin, mais quelqu'un d'autre pourra présenter...

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

4 participants