First dynamic network maps with Gephi!

So, this week we had Mathieu Jacomy from Sciences-Po, Paris to visit us and he gave a really great Workshop on Gephi and the various scientometrics tools made by the Médialab, such as ScienceScape and Table 2 Net. With these tools, you have infinitely many ways to combine data to do network analysis. You just need category data formatted in a csv file to be able to map away!

Especially the second part wasIMG_1458 great, where Mathieu changed the direction of the workshop to a problem that I had ventilated, namely to create dynamic maps that could be animated on the screen. You can see this below, but first some preliminaries based on a static visualisation. Here’s a photo of Mathieu and our benefactor and workshop participant, professor Sándor Darányi. This workshop was organized by my dear colleague Nasrine Olson in association with the Strategic Research Program in Data Science.

Static view

8550subsetHere is a static image containing keywords related to the journal titles in which the articles having the keywords were published in. The data set covers the years 1956 to 2014 and publication data is harvested from Web of Science, see below for a thorough description of the data. In all 8500 papers were browsed for keywords and for clarity, only keywords and journal tiles occurring more than 50 times (111 nodes, 986 edges) are shown in the visualisation to the right (click to enlarge).

In the workshop we worked with metric data from Web of Science. In my case, I had downloaded article entries pertaining to refugee studies which is the wider area of a pre study for a research project I am involved in right now. The project, led by our new professor at University of Borås, Annemaree Lloyd, is about gaining knowledge information needs of refugees as they enter a new country/continent.

In this set about 8.500 papers/reviews in the social sciences (psychiatry and public health excluded) are searched for keywords and journal tiles using the Medialab tools.

The journal tiles are red in the visualisation above, and the keywords pertaining to articles in the respective journals are found in turquoise.

Dynamic view

Below is an animation that I was able to do after the workshop, quite impressive, in my view (Note: large file, 25 MiB) 5 minutes. The action starts around the or 1 minute 40 secs into the film:

The animation contains 7634 nodes (in plain text: bubbles: i.e. journal titles and keywords), and 19596 edges ( lines or links between the nodes).

Here:s an animated GIF to give a rudimentary feel of how the full animation will look if you don’t have a large quota:8550_SO_KW_ed5minb

Tutorial – How-to – Dynamic networks in Gephi

In the following I describe how the animation was created. Note that all cleaning of WoS data was done before starting the procedure and is not part of the tutorial.

Here are the steps to make the dynamic network:

Step 1

Use http://tools.medialab.sciences-po.fr/sciencescape/wok_utils.php

(Web of Knowledge to CSV):

  1. Upload your WoK file (WoS plain text file)
  2. Download result     (CSV)

Table2Net

Step 2:

http://tools.medialab.sciences-po.fr/table2net/

Create network file from CSV

You can then chose to make a Normal network which will only map data based on one variable (e.g. keywords), but here we chose a bipartite network, which means that we don’t just focus on keywords per se, but also on journal titles, which could be approximated as a world map of science. In the end we get clusters of specific keywords mapped to clusters of journals, which will constitute a dynamic world map of sorts.

Normal network:

Network of tags linked
  1. Nodes
    1. ID Keywords (plus)
    2. Semicolon separated
  2. Links: Row number

Bipartite network:

  1. Network of tags linked to Sources
  1. Nodes 1:
    • ID Keywords (plus)
    • Semicolon separated
Nodes 2:
  • SO
  • One expression per line
  1. Links (none)
  2. Additional settings
    1. PY

In the Bipartite section, I also added the dynamics of the data, namely by asking the algorithm to add one column pertaning to the years in which each of the journals in the SO-field, and the keywords (plus) in the ID-field were found. Based on this, I was able to create the dynamic map that shows the development of the published literature between 1956 and 2014 regarding refugee studies.

Gephi does not have an export module for video (yet, maybe it will be found in the 0.9.0 release coming December 20th), so instead I made a screencast using Screencast-O-matic that was later saved and trimmed as a five minute video file in the end.

 

 

Självreferenser: missbruk av självcitering eller erkänd praktik att göra forskningsresultat kända

© Gustaf Nelhans 2012

Jag har gett mig in i en debatt om självrefererandets vara och inte vara, som förts på ett antal platser på internet. Då den skett på många ställen och ibland under refuserade former eller i direkt konversation med andra debattörer och kommentatorer, erbjuder jag mina inlägg, samt referat och länkar till andra författares bidrag i denna bloggpost.

Först skrev Phil Davis ett inlägg på bloggen Scholarly Kitchen i februari betitlat ”When Journal Editors Coerce Authors to Self-Cite”: http://scholarlykitchen.sspnet.org/2012/02/02/when-journal-editors-coerce-authors-to-self-cite/ där han diskuterade data från en studie där forskare hade tillfrågats om hur de såg på tidskriftsredaktörers näst intill praxisförfarande att föreslå eller till och med byta ut referenser i inskickade manuskript till referenser i den egna tidskriften. I kommentarsfältet framkom åsikter att detta var en ohederlig verksamhet, men också, från en redaktör kommentaren att det kanske finns ohederliga tidskrifter, men inte i ”våra tidskrifter”, författat av en redaktör för ett mellanstort förlag som utpekats i studien.

Kommentarerna innehöll alltså dels åsikten att det främst fanns anekdotiska indicier på att redaktörer tvingade författare att ta med självreferenser till tidskriften i sina manuskript och dels, att om det händer, så händer det åtminstone någon annan stans.

Då jag hade uppgifter som faktiskt motsade dessa båda ståndpunkter, publicerade jag följande kommentar:

”This is more than anecdotal! I have found an example were an editor-in-chief of an ISI-indexed journal in “health sciences” urges reviewers to make sure submitted manuscripts include self references to the same journal. In the instructions for reviewers, there is a numbered list describing requirements about the length of the manuscript, number of words in the title (a maximum of 12), number of keywords (max 10), and a comment that the keywords should reflect the words in the title and appear in the abstract. But what stands out in the list was the following passage:

“5. Manuscript should refer to at least one article published in ‘*** Journal of *** Sciences’ [the title of the same journal]”

One could assume that this is expected to be a reference to an article that has some bearing on the manuscript at hand, but it is not stated. On this issue, it seems like the question of self citations has been around for a long while and to me, the biggest concern seems to be how to distinguish whether a specific instance of journal self citation is a valid one or not. The question “What is appropriate self referencing” is not as clear cut as it could seem. Given that there could be a variety of reasons for citing a specific reference, it could very well be a grey zone here, where no clear answers could be given.

Nelhans, G, 2012-02-03 kommentar till bloggposten http://scholarlykitchen.sspnet.org/2012/02/02/when-journal-editors-coerce-authors-to-self-cite/

Till svar fick jag en fråga av Professor Barbara Fister (ibid.) varför jag hade valt att anonymisera tidskriften samt chefredaktörens namn då det ju ledde till att det både var omöjligt att kontrollera mina uppgifter och att sätta press på tidskriften att sluta med denna praktik.

När jag i min tur besvarade henne bredde jag ut texten om att jag var av uppfattningen att krav på självcitering inte alls var någon ovanlig praktik och att jag därför inte ansåg att det var viktigt att utsätta just denna tidskrift för press, då den knappast var ensam om sitt förfarande. Tyvrr refuserades detta inlägg av Scholarly Kitchens redaktörer, varför Fisters kommentar fick stå obemött. Dock svarade jag i ett e-postmeddelande som jag delger här:

“Thanks for your response, the reason is that I see no reason naming “one bad apple” not recognizing that this is part of what seems to be a larger issue in the “impact turn” within scholarly authorship judging by the study referred to above. One could argue that this is a pretty predictable response from researchers/editors/publishers wanting to maximize their impact (if stating it in common science policy terms) or maximizing the reach of the contribution to your peers (taking into account that most readers will have back issues of the same journal readily available while a reference to an obscure journal that is not electronically available (worst case scenario) will be harder to get by to). I think it is better to discuss this issue at a general level and my contribution was thought of as a specific example of how it could look that might interest someone.”

Nelhans, G, E-mail till Barbara Fister, 2012-02-04

I april togs frågan om självciteringar upp på bordet av Scholarly Kitchen igen: I bloggposten ”Emergence of a Citation Cartel”: http://scholarlykitchen.sspnet.org/2012/04/10/emergence-of-a-citation-cartel/ återgav Phil Davis hur han hade identifierat en tidskrift som på fyra år hade dubblerat sitt värde på Journal Impact Factor från ca 3 till 6 under väldigt speciella omständigheter. Det visade sig nämligen att två andra tidskrifter inom det medicinska området stod för en extremt hög andel av referenserna till den första. I ett fall rörde det sig om en artikel med 450 referenser till den specifika tidskriften, för vilken författarna till artikeln dessutom var chefredaktör, respektive medlemmar av den misstänkt olämpligt uppträdande tidskriftens vetenskapliga redaktionsråd. Således fanns det nu inte bara fakta som kunde bevisa att redaktörer faktiskt tvingade författare att referera den egna tidskriften, utan till och med fall där redaktörerna själva, var involverade i vad som brukar benämnas ”gaming the impact factor”!

I kommentarsfältet framstod åter igen kommentarer om att detta var ”outrageous”, tacksamhet över att detta fall hade blivit ”hunted down”, ”amazing” och andra kraftfulla uttryck. Men det framkommer också kommentarer från företrädare för Thomson Reuters som beskriver hur företaget utvecklar metoder att automatiskt identifiera denna typ av beteende, på såväl tidskriftsnivå gällande självciteringar eller kartellbeteenden.

(Senare har även en intressant diskussion utspelat sig där företrädare för en av de tidskrifter som stod för ett stort antal av de misstänkt olämpligt fabricerade referenserna har försökt bemöta kritiken efter att deras tidskrift avförts från Thomson Reuters Journal Citation Reports. Se även tidskriften  Medical Science Monitor i förteckning på följande länk: http://admin-apps.webofknowledge.com/JCR/static_html/notices/notices.htm.)

När denna bloggpost annonserades på e-postlistan SIGMETRICS-List, som är en ”Virtual Special Interest Group” of the American Society for Information Science and Technology kom den att diskuteras av Open Access Evangelisten Stevan Harnad i ett inlägg betitlat Online Academic Abuses and the Power of Openness: Naming & Shaming: http://listserv.utk.edu/cgi-bin/wa?A2=sigmetrics;aepqBA;20120410072602-0400

© Gustaf Nelhans 2012

Åter igen var diskussionen om att namnge och ställa syndare i skampålen i full gång, vilket kan utläsas i texten på länken ovan, men också att Open Access skulle vara lösningen på problemet. Om bara all publicerad forskning var tillänglig fritt för var och envar, skulle man kunna utveckla metoder att identifiera denna form av missbruk, men också att OA skulle vara ett medel för att exponera och straffa dem som utfört dem, var hans huvudsakliga argument.

Till detta anförde jag följande kommentar som postades till SIGMETRICS-List http://listserv.utk.edu/cgi-bin/wa?A2=sigmetrics;U8f76g;20120410144317%2B0000:

Dear Professor Harnad,

    I believe that it is not always easy to identify the motives behind specific instances of self references (although in the case at hand, the number of mutual citations identified seem to speak for themselves…). The practice of self citation is (as you acknowledge) not in itself a bad thing, but the problem is how to distinguish its legitimate use from its abuse. This is equally valid on the individual level as in editor-suggested references. I would like to draw into attention an exchange about these matters from 1997, where Eugene Garfield stated:

“Recognising the reality of the Matthew effect, I believe that an editor is justified in reminding authors to cite equivalent references from the same journal, if only because readers of that journal presumably have ready access to it. To call this “manipulation” seems excessive unless the references chosen are irrelevant or mere window dressing.” (Garfield, Eugene. 1997. Editors are justified in asking authors to cite equivalent references from same journal. BMJ 314 (7096):1765. http://www.bmj.com/content/314/7096/1765.2.short )

My question is if there could exist any method of identifying “bad apples” that does not account for the specific context in the article in which the reference is placed. In my understanding of the problem, the proposed way of using statistical methods for identifying baselines for self citations in various fields could be one important step, but I wonder if it would suffice to make the identification process complete?

Best regards,

Gustaf Nelhans

University of Gothenburg, University of Borås,

Sweden

Nelhans, G: E-mail till SIGMETRICS-List, 2012-04-10 http://listserv.utk.edu/cgi-bin/wa?A2=sigmetrics;U8f76g;20120410144317%2B0000

Av någon anledning valde Harnad att inte svara mig (med största sannolikhet missade han mitt inlägg) men nu, mitt i sommaren, när jag själv för första gången på flera veckor tog en titt i min e-postlistemapp innehållande över 1900 meddelanden, uppträdde plötsligt ett svar från Stevan Harnad. Re: Online Academic Abuses and the Power of Openness: Naming & Shaming: http://listserv.utk.edu/cgi-bin/wa?A2=sigmetrics;%2BOgAwQ;20120731100248-0400 Och så var diskussionen igång igen, nära fyra månader efter att jag skrivit min kommentar. Tydligen hade han blivit uppmärksammad på den nu och bestämt sig för att svara. I svaret, som till punkt och pricka följer på mina frågor och ståndpunkter erbjuder Harnad en intressant utblick över framtida möjligheter att med text analytiska, matematiska och statistiska metoder identifiera kandidater för missbruk som sedan kan analyseras manuellt genom mänsklig evaluering. Inte desto mindre fann jag följande uppsummering av Harnads ståndpunkt intressant:

Global OA not only provides the open database, but it provides the (continuous) open means of flagging anomalies in the population pattern, checking them, and naming and shaming the cases where there really has been willful misuse or abuse.

It’s yet another potential application for crowd-sourcing.

Harnad, E-mail till SIGMETRICS-List, 2012-07-31: http://listserv.utk.edu/cgi-bin/wa?A2=sigmetrics;%2BOgAwQ;20120731100248-0400

Roligt också att Eugene Garfield såg Harnads svar och (oturligt nog) felaktigt korrigerade honom för att ha gett en mindre lämplig länk till en kommentar som Garfield själv hade gett femton år tidigare och som jag hade använt som argument för att hävda att tidskriftsredaktörers förslag om referenser från den egna tidskriften inte per automatik måste betraktas som ett missbruk. Garfields uppfattning 2012 är därför intressant att referera här:

Unfortunately my comments have been distorted in some cases to justify deplorable excesses in the use of references to the same journal when I emphasized that such references should be relevant and not mere window dressing– a blatant attempt to increase the impact factor of the journal in question.

Garfield, E-mail till SIGMETRICS-List, 2012-07-31: http://listserv.utk.edu/cgi-bin/wa?A2=sigmetrics;S8L%2FlA;20120731214459%2B0000

Min slutkommentar, som jag valde att inte skicka till e-postlistan utan direkt till Harnad och Garfield innehöll följande text:

Dear Professors Garfield and Harnad, thank you both for commenting, (I decided to take my response off the Sigmetrics list so that it doesn’t get spammed with comments).

It was I who posted the link to the article back in April not checking if it was available outside the university networks. Thanks for sharing a more accessible way to get to it.

Its usage was simply to argue that individual self citations, as well as editor’s proposals of articles to cite within the same journal should not necessarily be seen as a bad thing per se. Instead, I argued that one would need to analyze the context (within the text) of the cited reference made to be able to judge its status, if indeed such a black-or-white scenario for judging self citations exists…

The question implied, to which Professor Harnad gave many interesting and valuable insights, was therefore if it would be possible to do this based on computations and statistics or if it would require skillful manual labor to make such evaluations. Maybe a combination is the best that could possibly be attained?

Gustaf Nelhans: E-mail till Eugene Garfield och Stevan Harnad,  2012-08-01.

Om detta är sista ordet eller om diskussionen kommer att fortsätta är oklart, men jag kommer att hålla bloggen uppdaterad.

Bibliometrics at the crossroads- Follow up

There has been some buzz after the Chalmers Library / University of Borås co-hosted event “Bibliometrics at the cross roads”.

 

First, a couple of blogs have mentioned the event: Bibliometrics at the Crossroads at the Chalmers Library Biblogg and Bibliometri i vår och höst from the Masters program Digitala tjänster – kultur, information & kommunikation at University of Borås.

There is also a Flickr stream with photos from the event Bibliometrics at the Crossroads from the Chalmers Library’s photostream:

 

 

The Twitter hash tag #bibcross was also very active a couple of days around the event!