Ordsamförekomst (co-word analysis) med visualiseringar av Clinton vs. Trump-debatten.

Samförekomstanalys

clintonbinaryassociatstrtfidf80104

Clintons debattinlägg (n=104 fraser).

Dessa båda visualiseringar avbildar samförekomsten av substantivfraser vad gäller frekvens/intensitetoch klustring i den första presidentvalsdebatten mellan Hillary Clinton och Donald Trump, 26 september, 2016.

Jag har arbetar med här med VOSviewer (www.vosviewer.com), en programvara/verktyg utvecklat av scientometrikerna Nees Jan van Eck and Ludo Waltman på CWTS vid Leidens universitet. Det finns en mängd dokumentation på deras webplats, men nedan ger jag min uttolkning av programmets funktion.

Analys

trumpbinaryassociatstrtfidf80126

Trumps repliker (n=126 fraser).

Verktyget erbjuder (förutom dess huvudsakliga syfte, visualisering av aggregerad citeringsdata), att göra co-wordanalyser, en teknik utvecklad inom ANT på 80-talet, som säkerligen utvecklats av lingvister oberoende av dem mycket tidigare. Utöver enkel co-wordanalys är VOSviewer lite mer sofistikerat. Det lånar nämligen lingvistiska tekniker för att tagga ordklasser och identifierar sedan substantivfraser (subst-subst, eller adjektiv-substantiv) för att få mer meningsfulla saker att mäta. Det har också (en rätt dålig teknik) att ta borst plural-s men att döma av ”united state” som jag såg någonstans i bilderna, så trunkerar de bara alla ’s’. Sist erbjuder det en teknik för att välja bort vardagliga termer (TF-IDF) och jag valde på att behålla 80% av fraserna här.

Layout

Det var analysdelen, sedan har det en egen layoutteknik som heter ”Visualisation of Similarities” (VOS) som liknar den mer utvecklade layoutalgoritmen MDS, men till skillnad från den senare så säger sig forskarna ha löst problemet med att MDS har en ”hästskoform” så att ändarna på skänklarna så att säga ser ut att komma nära varandra i visualiseringen, trots att de borde vara så långt från varandra som möjligt. Klustringen är lite blackboxad, men man kan ställa in tröskelvärden för att få olika antal kluster och man har möjlighet att välja färgskalor osv. Sist, det finns både som command-line och som WYSIWYG och jag gillar det sistnämnda eftersom det erbjuder forskaren att interagera med de olika parametrarna.

Visualisering

När det gäller dessa visualiseringar så har jag tweakat lite grann. Det utgår från transkript från debatten i den 26:e september. Jag har skapat en fil för Clintons repliker, en per rad och en för Trumps. Eftersom VOSviewer jobbar med bibliografiska data har jag skapat en taggad fil där jag lurar systemet att varje replik är en titel på ett verk och därmed kan jag be den utföra analyserna på titel/repliknivå.

clintonbinaryassociatstrtfidf80104

Clintons debattinlägg (n=104 fraser). Klicka för fullskärm.

trumpbinaryassociatstrtfidf80126

Trumps repliker (n=126 fraser). Klicka för fullskärm.

Här avbildas de mest relevanta (TF-IDF=80%) substantivfraserna som använts åtminstone två gånger av respektive kandidat i debatten. Storlek på fras=frekvens och spatiell lokalisering=samförekomststyrka. Färgerna som getts till klustren visar endast skillnader mellan områden och har inte harmoniserats mellan visualiseringarna.

Beskrivande statistik:

  • Trump: 124 repliker (datafil)
  • Clinton: 87 repliker (datafil)
  • Holt: 97 repliker (ingen datafil tillgänglig)

Det bör noteras att Trump har många fler repliker än Clinton, vilket bottnar sig i att han har en tendens att avbryta som bland annat noteras här och här.

Källa

Presidential Candidates Debates: “Presidential Debate at Hofstra University in Hempstead, New York,” September 26, 2016. Online by Gerhard Peters and John T. Woolley, The American Presidency Project. http://www.presidency.ucsb.edu/ws/?pid=118971.