Datamining bruger jeg hér til at lave forundersøgelse af et materiale: jeg leder efter mønstre, som jeg kan undersøge nærmere. Selvom forundersøgelsen vises i tal, er der ikke tale om statistisk materiale, der viser årsagssammenhænge. Kun mulige sammenhænge.
Mit fjolle-eksempel på, hvordan datamining skal forstås er, at man kan lede efter mønstre i målinger vedr storkes og børns ankomst til denne del af verden. Der er en (statistisk) sammenhæng, da flere børn bliver født om foråret end resten af året. Deraf kan man ikke slutte, at børnene kommer med storken, men udlede spørgsmål som opstår ved at identificere sammenhængen:
- Kommer børn med storken?
- Er det storken, der kommer med børnene?
- Eller er der en tredje variabel, som ikke er med i datamaterialet?
Jeg bruger eksemplet på trods af hvor fjollet det er, fordi det pinefuldt tydeligt viser hvor begrænset undersøgelser er af det spørgsmål der bliver stillet. Eller som Picasso sagde: “Computere er nytteløse, de giver kun svar”
Til denne øvelse udvalgte jeg tre måneders tweets uden retweets med hashtag #SkoleChat fra november 2016, december 2016 og januar 2017.
November blev gennemgået først, samtlige hashtags registreret med antal forekomster.
Derefter samlet (#DKPol og #DKPolitik blev samlet, eks.v.). Også formodede slåfejl blev samlet (#DKopol) Efter hashtags var samlet, var der 513 forskellige hashtags registreret.
De hashtags, som kun var nævnt 1 gang i november måned, blev slettet
December og januar blev gennemgået med udgangspunkt i de hashtags, der var nævnt mere end en gang i november. Hvis et hashtag nævnes mindre end to gange i en af de to følgende måneder, blev det også slettet fra listen.
Sådan endte listen over hashtags med 47 hashtags og viser nu de hashtags, der vedvarende er blevet brugt mere end én gang pr måned over de tre udvalgte måneder. Det vil ikke give mening at se listen som en del af en længere sekvens, da der med de valg jeg har truffet ikke er mulighed for at et nyt, vægtigt hashtag dukker op. Listen er et nedslag i tid og viser udelukkende hvilke hashtags, der blev brugt mest og stabilt over en tre måneders periode.
Jeg har ikke gennemgået *hvem*, der afsendte, links væk fra twitter, billeder, retweets, dialoger mellem brugere eller andet. KUN hashtags. Det er et fravalg med konsekvenser, mange mønstre forbliver uafdækket.
De mønstre jeg fandt i top 5, optalt, (se regnearkene) giver anledning til at stille spørgsmål som:
- Der er et vist sammenfald mellem #SkoleChat, #GymnasieChat og #BhvChat. Hvad er fælles for de tre hashtags? Personer, emner, andet?
- Der er sammenfald mellem #SkoleChat på den ene side og #DKPol og #UddPol på den anden? Er det politikere og/eller skolefolk, der debatterer under #SkoleChat?
- Med de hashtags der bruges mest, er der også pædagogisk, faglig eller anden videndeling på microbloggen #SkoleChat og hvis, hvordan organiseres denne viden?
- Hashtags relateret til 21 century skills er med alle tre måneder, men rigtig mange gange i december. Hvad skete der?
Det, der debatteres under top 7, procent, (se regnearkene) lader til at være:
- Det samme som på talt top 5 minus 21 century skills og plus
- SkolePol
- KomPol
- EdTech
Er det også dit indtryk, kære læser?
Hvilke spørgsmål synes du, at jeg har overset?
Hvad tænker du, at datamining som metode kan bruges til i uddannelsessammenhæng?
Næste trin bliver at lave kvalitativ statistisk analyse af materialet og se, om der er sammenhænge og hvis, hvor stærke de er.