Hoppa till huvudinnehåll

Vetenskap

Vad borde du veta om big data, datautvinning och datafusion?

Från 2016
Uppdaterad 24.01.2018 12:30.
Illustration om big data.
Bild: Flickr The Commons/Yle

Varje dag produceras enorma mängder data som samlas in. Genom att gräva i det insamlade datamaterialet kan man hitta överraskande information. Utöver att det går att fiska personuppgifter och annat hemligstämplat innehåll har stora mängder data också fördelar. Till exempel kan man bygga en maskin som producerar översikter från fotbollsmatcher på löpande band.

– Alla våra maskiner är digitala nuförtiden så det är faktiskt lättare att samla data än att låta bli, säger Petri Myllymäki som är professor i datavetenskap vid Helsingfors universitet och chef på datatekniska forskningscentret HIIT.

Data produceras hela tiden, enligt IBM 2,5 triljoner (en triljon har 18 nollor) byte om dagen. Över 90 procent av all data har producerats under de senaste åren.

Kary Främling som har forskat om sakernas internet berättar i en intervju för Aalto Magazine att hans hus tar hand om sig själv och dess invånare. Små sensorer mäter bland annat koldioxidnivåer och fuktnivån i badrummet. Med hjälp av all data som sensorerna samlar in upprätthåller huset automatiskt de optimala inställningarna. Byggnader är bara ett exempel på hur man i framtiden kommer att samla in och utnyttja data allt mer.

När data produceras automatiskt kan man senare komma på vad det insamlade datamaterialet kunde användas till. Enligt Petri Myllymäki är det just det här som är idén med det så kallade big data-fenomenet. Data vaskas fram med hjälp av datoralgoritmer och processen kallas för datautvinning eller data mining på engelska. Datafusion innebär att man kombinerar data från två eller flera källor för att skapa ny information. Nedan några exempel på vad de här termerna betyder i praktiken.

Snabb översikt av fotbollsmatchen

Om det skulle vara möjligt att outsourca produktionen av översikten från fotbollsmatchen till en dator kunde Yle och andra aktörer erbjuda just så långa översikter som tittarna vill se. Till exempel skulle en 90 minuter lång översikt i praktiken innebära hela matchen, 10 sekunder kanske det avgörande målet. Ingen skulle knappast erbjuda en dylik tjänst utan datorautomation eftersom den skulle vara alltför tidskrävande. Det är ungefär samma som om kassapersonalen i matbutiken skulle erbjuda sig att bära hem varje kunds matkassar också när det är lång kö vid kassan.

Petri Myllymäki som jobbar med mekanik har funderat på det här problemet under flera storturneringar i fotboll. Då en fotbollsintresserad person gör en översikt av matchen känner hen igen de intressanta bitarna från videon, medan en maskin har svårt att urskilja de bästa bitarna endast baserat på bildmaterialet.

Myllymäki och hans forskningsgrupp kom på en omväg. Fotbollsmatchen som sänds i tv består av både bild och ljud. Ljudet kommer delvis från referentens prat men också från ljud på stadion. Om maskinen skulle plocka alla snuttar där ljudnivån stiger, alltså då både referenten och publiken skriker, skulle antagligen både målen och missade målchanser komma med i översikten. Med andra ord kunde maskinen plocka till exempel de 37 ljudligaste minuterna i en match och skippa resten.

Islands fotbollsreferent Gudmundur Benediktsson blev känd i somras för sitt ivriga skrik när Island klarade sig bra i fotbolls-EM (YouTube).

Myllymäki berättar ett en av hans kolleger kom på en ännu bättre lösning på problemet. Det är många som kommenterar fotbollsmatcher på Twitter. Då antalet tweets med matchens hashtag ökar kan man anta att det är något speciellt som händer. Till exempel i sommarens fotbolls-EM då det under matchen mellan Turkiet och Kroatien hördes en explosion och många undrade vad som egentligen pågick.

Om maskinen plockar ut de 37 mest tweetade minuterna av en match och jämför med tidpunkten då det skedde under spelet får man enkelt de bästa bitarna av matchen med hjälp av Twitter.

En maskin som gör fotbollsöversikter med hjälp av Twitter är ett enkelt exempel på vad man kan skapa genom att kombinera olika datakällor.

Netflix förstod inte att de publicerade känslig information

Då man lyckas utvinna datamassor som är insamlade för olika ändamål kan man hitta överraskande samband. År 2006 lanserade den amerikanska filmtjänsten Netflix en tävling där de tävlande lagen skulle försöka förbättra Netflix rekommendationsalgoritm. Med andra ord skulle de bygga en maskin som förstår användarens filmsmak och rekommenderar filmer enligt det.

Netflix lade ut information som bestod av över en halv miljon användares anonyma poängsättning av filmerna i tjänsten. Netflix antog att användarna inte skulle gå att känna igen och att tävlingen skulle vara harmlös, men tji fick de. Forskare vid Texas universitet jämförde datapaketet från Netflix med Internet Movie Database-användarnas offentliga information. Forskarna hittade samband mellan Netflix och IMDb och en del av Netflix-användarna kunde ha avslöjats.

Netflix blev tvunget att annullera en ny tävling som de hade planerat. Fastän människor poängsätter filmer offentligt på IMDb är de data som Netflix samlar in privat. En del användare vill kanske ge en viss sorts bild av sin filmsmak på IMDb men se och utvärdera filmer på Netflix i smyg. Det här är ett bevis på hur hemligt och känsligt innehåll kan avslöjas om data kombineras med hjälp av bra algoritmer.

Hjärnan följer musik och bild

Vid Jyväskylä universitet har forskare forskat om vad som händer i hjärnan när vi lyssnar på musik. Testpersonerna lyssnade på The Beatles Abbey Road-skiva. Förändringar i musikens rytm, tonart och klang analyserades med hjälp av en algoritm. Då forskarna såg hur hjärnan reagerade på en viss sorts musik kunde man göra testet tvärtom – alltså tack vare hjärnverksamheten känna igen vilken typ av musik någon lyssnade på.

Liknande tester har också gjorts med rörlig bild. Vid universitetet Berkeley i Kalifornien har man lyckats tolka videor med hjälp av hjärnverksamhet. Testpersonernas hjärnor filmades samtidigt som de kollade på trailers för Hollywoodfilmer. Till näst kollade personerna på nya trailers och hjärnverksamheten mättes. I andra testet fick maskinen endast se mätningarna av hjärnverksamheten och med hjälp av det kunde maskinen rita en rätt så bra bild av vad människorna såg. Med andra ord hittade Berkeleys maskin samband mellan testpersonernas hjärnor och bilden.

Forskare Jack Gallant från universitetet Berkeley i Kalifornien berättar om om hjärnforskningen han gjort (YouTube).

Är du intresserad av att tillämpa öppna data?

Data från huvudstadsregionen har gjorts tillgänglig för alla att utnyttja och bygga på. På sajten Helsinki Region Infoshare hittar du data om bland annat geologiskt värdefulla platser i Helsingfors och cykelstatistik från Vanda. Tanken är att den data som städerna samlar in inte bara ska ligga oanvänd, utan att människor kunde komma med idéer och skapa nyttiga appar. Tanja Lahti vid Faktacentralen vid Helsingfors stad tipsar nedan om tjänster och appar som baserar sig på öppna data från HRI.

Servicekarta
Alla offentliga tjänster, Kelas kontor, skolor och hälsocentraler, på en karta. Servicekartan ger dig rutten till destinationen. Dessutom kan användaren meddela tjänsten om hen rör sig med rullator eller barnvagn. Appen finns också på svenska.

Blindsquare
En GPS-app för blinda. Med hjälp av appen får den blinda veta mer omgivningen hen befinner sig i. Fungerar endast med Iphone.

Uusi Kannelmäki
”Nya Gamlas” är en kartapp som kombinerar flera olika data som går att visualisera på en karta, bland annat trafikinformation och bostadspriser.

Helsinki ennen
Appen innehåller kartor från Helsingfors från olika årtionden som kopplas ihop med Googles street view och med bilder från Helsingfors stadsmuseum. Med hjälp av kartor och bilder ser användaren hur staden förändrats genom åren. Appen finns endast på finska.

Espoon energiatietopalvelu
En tjänst om energiförbrukning av Esbos stadsplaneringscenter. Via appen kan man kolla hur lönsamt det skulle vara att övergå till förnybar energi i den egna lägenheten. Tjänsten finns endast på finska.

Text: Leo Kosola

Bildkällor: Smithsonian Institution, Mennonite Church USA och Florida Memory.

Ursprungstesten på Yle tiedes webbsida

Diskussion om artikeln