Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Täydellinen puoluelista, vaikka ilmoituksia ei olisi tullutkaan #3

Open
apoikola opened this issue Apr 16, 2011 · 4 comments
Open

Comments

@apoikola
Copy link

Datan jatkokäsittelyä ja yhdistelyä muihin datoihin helpottaisi, jos vaalirahoitusilmoitukset ehdokkaittain ja puolueittain ilmoitettaisiin Oikeusministeriön julkaisemien täydellisten ehdokas- ja puoluelistausten mukaisesti. Ne, jotka eivät ole ilmoittaneet näkyisivät datassa tyhjinä riveinä.

Ehdokkaita 2315 kpl
Puolueita (valitsijayhdistyksen mukana) 32 kpl

Datat löytyy muunmuassa täältä: http://www.ehdolla.org/2011/04/oikeusministerio-hesari-scraping/

@jlehtoma
Copy link
Member

Kiitos ehdotuksesta, mainitsemasi virallinen puolu- ja ehdokaslista löytyy Vaaliraapijan aineisto-kansiosta nimellä e2011ehd.xls ja e2011ehd.csv. Tämä toimii viitteenä kun ohjelma laskee kokonaisehdokasmäärillä jotain. Nyt aineistokansiosta löytyy myös tiedosto "data_yhdistelmä.csv", jossa on kuvailemasi ehdokaslistan ja ennakkoilmoitusdata yhdistelmä. Valitettavasti VTV:n ennakkoilmoitussivuilla ehdokkaat käyttävät koko nimeään kun taas ehdokaslistassa on vain kutsumanimi. Käytin yhdistämisessä vain 1. nimeä, koska en tiedä kunkin ehdokkaan kutsumanimeä. Ongelman voisi kiertää vertailemalla useampien kenttien tietoja, mutta tämän toteutus joutuu nyt odottamaan. Näin ollen yhdistelmässä on nyt 2405 tietuetta 2315 sijaan.

@jlehtoma
Copy link
Member

Etunimen pudottaminen pois yhdistämistiedoista karsi duplikaatteja pois aika paljon, nyt data_yhdistelmä.csv-tiedostossa on enää 9 ylimääräistä tietuetta syystä tai toisesta,

@apoikola
Copy link
Author

Ilmeisesti VTV:llä ei ole ehdokasnumeroita missään päin sivujaan esillä?

Itse tein vaalikonedatoihin ehdokasnumero+vaalipiirinnumero
yhdistelmästä uniikin id:n. Muistan, että sama etunimi + sukunimi
yhdistelmiä oli ehdokkaiden joukossa kyllä useampiakin, jopa samojen
puolueiden sisällä (ainakin vasemmistoliitolla). Jos ottaa vaalipiirin
mukaan, niin luulisi jo riittävän.

Mun blogissa jo tuttu kokoomuslainen kävi hermostumassa ;)

http://www.ehdolla.org/2011/04/vaalirahailmoitukset-ladattavana-datana/#comments

-Jogi

On 04/16/2011 01:05 PM, jlehtoma wrote:

Etunimen pudottaminen pois yhdistämistiedoista karsi duplikaatteja pois aika paljon, nyt data_yhdistelmä.csv-tiedostossa on enää 9 ylimääräistä tietuetta syystä tai toisesta,

@jlehtoma
Copy link
Member

Jep, ehdokasnumerot tosiaan puttuvat VTV:n sivuilta. Oma koodini yhdistää aineistot vaalipiirin, sukunimen, kunnan ja puoluelyhenteen avulla. Ammatti näyttäisi toimivan kanssa ihan ok.

Oho! Ehkä kannattaisi käydä EsaT:kin ihmettelemässä tosiaan siellä omassa puoluetoimistossaan!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants