Researchgruppen läckte hundratals personuppgifter

I december 2013 avslöjade Researchgruppen och Expressen identiteten  på ett drygt dussintal personer som uttalat sig hatisk eller rasistiskt på nätet. Vad som är mindre känt är att en del av deras källmaterial läckte ut och riskerar att avslöja identiteten på hundratals personer.

I samband med att artiklarna blev publicerade i Expressen startade Researchgruppen hemsidan avkodat.research.nu där de la ut en fil med runt 1700 användarnamn. Enligt Mathias Wåg var tanken att det skulle skapa underlag för ett mer statistisk analys av kommentatorerna; ålder, kön och hemort.

– Det vi tänkte när vi gick igenom det här disqusmaterialet det var ju helt enkelt att man skulle kunna gå vidare och granska dom som hade skrivit på Avpixlat genom att lokaltidningar eller personer lokalt kunde se att ”jamen här finns folk i exempelvis Hedemora som skriver dom här inläggen”, säger han.

Men att lägga ut filen visade sig vara ett misstag.  En datakunnig person som brukar synas på twitter (jag väljer att hålla honom anonym, eftersom han inte har att göra med någon i RG eller är någon uttalad motståndare till RG.)  laddade ner filen. Efter bara 60 sekunders bearbetning hade han 199 mejladresser i klartext, med tillhörande användarnamn, kön, ålder och boendeort . Efter en arbetsdag hade han fått ihop runt 400 st.

(Bloggaren Cornucopia har skrivit om det här tidigare).

Jag har filen och visade den för Mathias Wåg under intervjun. Jag kommer naturligtvis inte att lägga ut den men här är en skärmdump med användarnamn, ”SkaneJohnny”. Användarnamnet är fingerat och jag  har förvrängt alla känsliga uppgifter från originalfilen för att det inte ska gå att få reda på mer om personen:

RG-fil

Det finns sex parametrar i filen som hjälper till att avslöja den här personen i origanlfilen:

  1.  ”un”  =  användarnamn
  2.   ”e”   =   MD5-hashad e-postadress (en slags kryptering)
  3.   ”m” =   en delvis maskad e-postadress. Första och sista tecknet i varje rad framgår.
  4.   ”b”  =   födelseår och månad
  5.   ”g”  =  kön
  6.   ”c”  =  boendeort

Personen som avslöjade identiteterna körde helt enkelt den maskade e-postadressen genom ett program som slumpmässigt fyllde i det som saknades. Ändelsen in den här adressen gick att lista ut direkt:  ”@yahoo.se”. Sedan återstod i det här exemplet, fyra tecken.  Programmet krypterade sedan varje gissad adress på samma sätt som disqus hade gjort (raden med tecken efter nr 2). Sedan återstod bara att jämföra de båda krypeteringssträngarna., När de väl stämde överens så var det klart vilken adress som var riktig.

Det kan låta avancerat men för en datakunnig person är det fullt möjligt.  Och har man väl en mejladress, ett användarnamn, bostadsort, kön, födelseår och födelsemånad, är det inte svårt att avslöja vem personen är.

När jag gick igenom filen hittade jag följande:

  • 1749 st användare
  • 1749  MD5-hashade e-poststrängar
  • 1352    delvis maskade mejladresser
  • 631     uppgifter om  boendeort
  • 513    åldersuppgifter, födelseår och månad

 

Hur många som laddade ner filen, som alltså låg öppen på RG:s avkodatsida är oklart. Klart är att Researchgruppen riskerar att hänga ut hundratals människor som tror att de kommenterat anonymt inom Disqus kommentarsplattform.

Det fanns inte plats att utveckla den här delen i reportaget men jag ställde frågorna till Mathias Wåg när jag träffade honom.

– Är man självkritiskt så kan man säga att det borde ha lagts upp i en annan form. Men den benämning som vi gjorde var att det är viktigt att visa på ålder och nick och att man ska kunna läsa inlägg och vad är det här för personer och vi presenterade det på ett anonymiserat sätt. Fär det viktiga var att visa att det spritt även hela landet att det var 80 % män, att det inte bara var unga och så vidare, säger Mathias Wåg.

Ni måste ju ändå vetat vad man kan göra med en hashad e-postadress och samtidigt ha en delvis maskad e-postadress?

– Det var dumt för det var en minoritet av namnen som gick att få ut på det sättet. Det är definitivt en miss från vår sida.

Du pratade förut om källskydd att ni hade tänkt genom det här?
– Vi vägde det mot olika sätt att presenterad materialet. Det är helt klart att här lämnades för mycket information för att kunna göra det.

När upptäckte ni detta, när tog ni bort filen?
– Den togs bort i samband med att det blev känt.