EV100 presidendi vastuvõtu vaatamisega tekkis mõte analüüsida peol tehtud pildigaleriisid. See on hea võimalus viia ennast pisut kurssi piltidelt info kogumisega. Esimene eesmärk on leida trende külaliste peoriiete värvitoonides läbi aastate. Samuti võimaldab Kairos näotuvastus API tuvastada piltidelt teisi analüüsiväärilisi tunnuseid (inimese vanus, sugu, prillide olemasolu jne). Pisut täpsemalt kirjeldan metoodikat postituse lõpus.
Kokku õnnestus mul ERR-i ja Õhtulehe presidendi vastuvõtu galeriidest (2013-2018) kraapida ~2500 pilti. Kuigi huvitav oleks uurida pikemat perioodi, tunuds varasemate aastate galeriide leidmine ja kraapimine keerulisem.
Populaarsed värvitoonid riietuses
Igalt pildilt tuvastasin kõigi inimeste kohta 2 kõige domineerivamat värvitooni. Järgnevatel graafikutel ongi kujutatud nende värvide esinemissagedust aastate lõikes.
Milline on domineeriv riietuse värvitoon kõigi külaliste peale kokku? Ettearvatult on kõige populaarsem värv must, mis domineerib umbes 60% külaliste riietuses. Erisusena paistab välja 2015. a, kus osa musta populaarsusest on üle võtnud hallid toonid. Seda fenomeni uurin allpool pisut detailsemalt.
Milline on meeste riietuse domineeriv värvitoon? 80% meestest on selleks must ülikond ning kõigile teistele värvitoonidele jääb selle kõrvalt üsna vähe ruumi. Erandina paistab välja halli värvi suhteline populaarsus 2015. aastal. Kui pisteliselt galeriist pilt vaadata, siis tundub, et see on osaliselt seletatav fotoseina valgustusega - osad mustad ülikonnad paistavad pildilt halli tooni. Teine tähelepanek on tumesiniste ülikondade populaarsuse kasv läbi aastate.
Kui kõige domineerivam on meeste riietuses must värvitoon, siis järgmisena paistavad silma valge ja hallid toonid (triiksärk).
Milline on naiste kleitide domineeriv värvitoon? Kõige domineerivam on endiselt must, aga mitte enam mäekõrguse ülekaaluga (40%).
Kuna naiste kleitides on oluliselt rohkem värvi kui meeste riietuses, siis kasutan nende kirjeldamiseks ka laiemat värvipaletti. Alloleval graafikul tähistab iga mull ühte värvitooni vastaval aastal ning mulli suurus iseloomustab värvi populaarsust.
Külalisi iseloomustavad tunnused
Kuna Kairos näotuvastus API tuvastab pildilt veel erinevaid tunnuseid, siis tundub huvitav ka neid pisut lähemalt uurida.
Milline on meeste ja naiste osakaal aastate lõikes?
Kui pildil on mees ja naine, siis kummal pool kumbki on? Kui enamasti on mees vasakul pool, siis millegipärast eristub 2016. a, kui mehed seisid meelsamini paremal ja naised vasakul pool.
Kuigi pildi pealt näo järgi inimese vanuse ennustamine võib olla väga ebatäpne, kandsin tulemused siiski graafikule. Eristuvana paistab sealt välja 2014. a kui Presidendi külaliste hulgas oli erakordselt palju 45-aastaseid (või 45-sena näivaid inimesi).
Kuidas?
Analüüsiks vajalikud galeriid otsisin käsitsi välja ERR ja Õhtulehe veebilehtedelt. Kasutasin just neid allikalid, kuna sealt oli kõige mugavam kraapida kogu galerii kohta iga üksiku pildi url. Kui umbes 2500 pildi lingid olid olemas, siis jooksutasin need paari lainena läbi Kairos näotuvastus API (tasuta päevalimiit 1500 päringut). Selle abil tuvastasin inimeste asukoha koordinaadid igal pildil ja muud huvipakkuvad tunnused (sugu, vanus jne). Inimeste asukohast lähtuvalt lõikasin välja 100x300px suuruse ala pildilt, et sealt automaatselt tuvastada riietuse värvitoonid. Selleks, et väga suurt hulka erinevaid värvitoone rohkem kokku grupeerida, kasutasin k-nearest neighbors algoritmi. Selle abil leidsin igal pikslil olevale värvitoonile temale lähima värvitooni kahest värvipaletist: COLORS - A nicer color palette for the web ja Color Names - HTML Color Codes. Saadud tulemustest valisin iga inimese kohta välja 2 kõige populaarsemat värvitooni. Nii olid vajalikud toorandmed käes ja edasi võis tegeleda andmete ettevalmistamise ja visualiseerimisega. Detailsemalt saab R skriptiga tutvuda githubis.