Stol ikke blindt på algoritmerne

Konsulentvirksomheden Analyse & Tal har sammen med Trygfonden skabt en rapport, som viser, at 13,7 procent af den samlede hadtale på Facebook er rettet mod kvinder for deres køn, hvor tallet for mænd er 1,3 procent.

Algoritmen til at finde hadefulde kommentarer kommer fra Analyse og Tal, men er dog forudgået af arbejde offentliggjort og frit tilgængeligt på kodeplatformen Github i forbindelse med fire danske studerendes bachelorprojekt i 2019. Analyse & Tal har desværre mindre transparens om sin rapports datasæt og metode, end man så i det forudgående arbejde fra de studerende ved ITU.

Der er tale om en ‘superalgoritme’, som kan vise det meste - ligesom en statistik, eller en søgning på Google – alt efter hvad man spørger om. Med superalgoritmer introduceres netop et nyt, ophøjet fænomen - som man nemt kunne forledes til at tro i stand til at løse filosofiske, rettighedsmæssige eller håndteringsmæssige dilemmaer i forhold til hadtale på internettet for os.

De løser dog ikke meget mere eller mindre end en søgning på Google og kan ligesom en statistik bringes til at vise hvad som helst. Det kommer nemlig an på, hvad man søger efter, hvordan man definerer hadtale, og hvordan man udformer sine datasæt.

Resultatet bliver selvfølgelig påvirket markant, hvis man bruger stopord, som sorterer kommentarer fra, hvis de indgår. For eksempel indeholdt det oprindelige arbejde stopordet ‘mand’, men ikke ‘kvinde’. Med andre ord: En hadefuld kommentar kunne dermed tælle med, hvis den var rettet mod en kvinde, men ikke en mand.

Selve dataene, man arbejder med, kan også være skæve. Det er en udfordring at lave et datasæt uden bias, specielt i et felt som dansk Natural Language Learning eller maskinlæring af det danske sprog. Hertil kommer en udfordring med at definere, hvad hadtale overhovedet er, hvad også er en stående hovedpine for Facebook selv disse dage.

Uden fuldstændig gennemsigtighed er det meget svært at vide, hvad resultatet hviler på. Men hvis man har gjort som i det oprindelige arbejde og med stopord bortvasket en stor del af hadtale mod mænd i algoritmen, har det ikke så lidt at sige for rapportens konklusioner om f.eks. en massiv overvægt af hadtale mod kvinder i forhold til mænd.

Algoritmen vil så fald, som vi ser, vise en massiv skævhed på tværs af kønnene, men ikke fordi hadtale ikke går begge veje – derimod fordi man har sorteret noget af den fra. Hertil kommer, at datasættet kan samles på en lang række dynamiske parametre, og ikke mindst at man ikke nødvendigvis måler hadtale, men også blot negativ omtale.

Simon Spies ville nok have en udfordring med at konsolidere sin kommunikationsstrategi med en sådan algoritme, idet ‘dårlig omtale’ selvfølgelig ikke er det samme som ‘hadtale’, og Spies’ adage “al omtale er god omtale” er i direkte konflikt med udvandingen af forskellen – særligt om man da gør sig i for eksempel marketing.

Det kan være endda særdeles problematisk at tage de algoritmiske smutveje som udtryk for verdens tilstand, og man bør i særdeleshed agte sig for deres lyksaligheder, når det kommer til emnet hadtale, som ligger op ad overvejelser, der har med ytringsfriheden at gøre.

Måske endnu vigtigere stiller brugen af algoritmer det principielle spørgsmål: Hvad er hadtale?

Superalgoritmerne er et fornuftigt værktøj for samfundsinteresserede og for virksomheder til at undersøge vores sprog på internettet. Men en guddommelig kilde til sandhed er det ikke, og vi skal agte os for at tillægge dem for megen vægt uden indsigt i, hvad man har søgt efter. Særligt når det rører ved vores ytringsfrihed.

Stol ikke blindt på algoritmerne

Bliv opdateret, når der er nyt fraKontrast

Bliv opdateret, når der er nyt fra
Kontrast