Workshop a cura di Gidif-Rbm
Bibliostar 11 marzo 2022, Palazzo delle Stelline, Milano
Alessandro Gallo, Springer Healthcare Italia
Simone Cocchi, Azienda USL, IRCCS Reggio Emilia
Silvia Gianola, IRCCS Istituto Ortopedico Galeazzi, Milano
Mauro Mazzocut, Ca’ Foscari Università Venezia
Francesca Gualtieri, Rottapharm Biotech, MB
Chiara Formigoni, Gidif-Rbm
Ivana Truccolo, Gidif-Rbm
Silvia Molinari, IRCCS Fondazione Mondino, Pavia
Introduzione
Nel quadro degli appuntamenti organizzati in ambito Bibliostar 2022 (Milano, Palazzo delle Stelline), manifestazione annuale dedicata al settore delle biblioteche e della documentazione, il Gruppo Italiano Documentalisti dell’Industria Farmaceutica e degli Istituti di Ricerca Biomedica (GIDIF- RBM) ha proposto un Workshop dal titolo “Zotero, Mendeley, Endnote, OpenRefine nelle attività di supporto alla ricerca e nei flussi di lavoro in biblioteca”.
Gli specialisti della documentazione, svolgendo un preciso ruolo a supporto degli operatori sanitari, indicano funzionali orientamenti rispetto alla scelta e all’utilizzo di banche dati specialistiche, sia bibliografiche che bibliometriche, nonché alla promozione e diffusione di applicazioni talvolta meno note, come i reference manager software (RMS).
Chi di noi ha qualche anno in più, ricorda di aver iniziato proprio insegnando alla propria comunità di riferimento ad avvalersi di tali strumenti come utili ausili nell’organizzare la bibliografia, in fase di stesura di articoli, secondo lo stile citazionale richiesto dalla rivista e poterlo cambiare automaticamente secondo le richieste stilistiche di altre riviste.
Con il passare degli anni, i software si sono moltiplicati ed evoluti nelle loro funzioni, ma l’aspetto innovativo consiste nel loro utilizzo oltre le bibliografie: dall’analisi e selezione degli articoli in fase di revisione sistematica, all’implementazione e all’aggiornamento del profilo del ricercatore, alla combinazione con altri strumenti come OpenRefine per “pulire” e trasformare i formati arricchendoli con grandi quantità di dati bibliografici.
Offrire spunti basati su pratiche sostenibili per innovare i servizi offerti in un’ottica di prossimità, cioè di vicinanza ai nostri utenti nei modi più diversi che si potranno percorrere nell’era post pandemica, è stato l’obiettivo di questo evento.
Gli interventi
Moderati da Ivana Truccolo, presidente dell’Associazione, hanno visto come relatori della mattinata Simone Cocchi, bibliotecario documentalista della Biblioteca Medica dell’Azienda USL-IRCCS di Reggio Emilia, Silvia Gianola, ricercatrice dell’Unità di Epidemiologia Clinica dell’Istituto Ortopedico Galeazzi IRCCS di Milano, Mauro Mazzocut della biblioteca Umanistica dell’Università Ca’ Foscari di Venezia.
I Reference Management Software: cosa sono, quali sono, perché usarli
Cocchi ha presentato tre dei software di gestione bibliografica più diffusi – Endnote, Mendeley e Zotero – nelle loro caratteristiche e diversità. Questi strumenti sono utilizzati da bibliotecari, ricercatori e clinici per creare e organizzare bibliografie personali, importare riferimenti bibliografici e documenti da banche dati bibliografiche, cataloghi online e siti Web, per rimuovere riferimenti duplicati, per scegliere e modificare lo stile citazionale, implementare il proprio profilo di ricercatore. Un confronto puntuale fra i programmi è disponibile in varie fonti, fra cui un interessante articolo di Nature (1). Uno degli aspetti che rende i software di gestione bibliografica particolarmente attrattivi per chi li usa è il risparmio di tempo: la possibilità, ad esempio, di catturare direttamente dal browser i metadati di una risorsa bibliografica o di redigere automaticamente una bibliografia conforme alle indicazioni editoriali è indubbiamente un vantaggio.
Endnote, piattaforma prodotta dall’azienda Clarivate, Nella sua versione desktop è lo strumento più in uso nel processo di revisione della letteratura nelle revisioni sistematiche, perché in grado di gestire “librerie” corpose anche grazie alle molte impostazioni personalizzabili.
Ben integrato con la banca dati di Clarivate – Web of Science dialoga bene con le versioni web delle maggiori riviste, rendendo la selezione delle referenze più accurata delle versioni precedenti. La funzione “Manuscript Matcher” agevola la scelta della rivista a cui sottoporre il manoscritto; infatti, una volta inseriti titolo e l’abstract questa funzione compara il lavoro con milioni di citazioni presenti in Web of Science e restituisce una lista di possibili testate idonee alla pubblicazione.
Tra i contro dell’utilizzo di questo software è da specificare che pur essendo Endnote probabilmente nel complesso più performante di Mendeley e Zotero, non è uno strumento gratuito: è richiesta infatti una licenza, che di solito è in carico all’istituzione di appartenenza dell’utente.
Il riconoscimento dei duplicati è inoltre “macchinoso” e la piattaforma è incompatibile con il sistema operativo Linux.
Mendeley, multipiattaforma dell’editore Elsevier, è disponibile sia in versione desktop che in versione Web. Mette a disposizione anche diversi strumenti per condividere materiali, compresa la possibilità di strutturare gruppi di lavoro attraverso cartelle condivise. Il sistema multipiattaforma, inoltre, permette all’utente di sincronizzare i propri dati a prescindere dal punto di accesso. Alcuni vantaggi di Mendeley sono la possibilità di gestire direttamente i PDF comprese le annotazioni, anche ricercabili; la buona gestione di molti stili citazionali e dei duplicati; la messa a disposizione di uno spazio non trascurabile di archiviazione virtuale pari a 2GB. Mendeley, anche se gratuito, non è “open source” ed è solo in lingua inglese.
Zotero è un software “open source”, no profit, gratuito e sviluppato dalla George Mason University. Ha un’interfaccia in lingua italiana, è compatibile con Mendeley e si integra con Google Documenti. Sono da segnalare alcuni importanti servizi a beneficio dell’utente, quale ad esempio Zotero Connector che, analogamente al Mendeley Web Importer, permette di importare direttamente le citazioni da browser e siti Web, nonché di verificare se i manoscritti riferiti alle citazioni importate sono stati ritirati (attraverso un collegamento con Retraction Watch). Il plugin ZotFile permette anche di gestire direttamente i PDF. Uno dei vantaggi di Zotero è, in particolare, la possibilità di organizzare i materiali attraverso keywords e tag che possono essere aggiunti anche manualmente. Come punti a sfavore, sono da segnalare l’impossibilità di gestire direttamente i PDF (se non attraverso l’uso di plugin dedicati come appunto ZotFile) e lo scarso spazio di archiviazione virtuale.
Uso dei tools per la gestione dei records nelle revisioni sistematiche della letteratura
Gianola ha approfondito l’utilizzo dei RMS in relazione alle revisioni sistematiche della letteratura, che spesso comportano un’analisi importante dei riferimenti bibliografici, identificati dalla strategia di ricerca, il cui ordine di grandezza dipende dall’ampiezza del quesito posto tanto quanto dal contesto di riferimento. Ad esempio, nel caso di una importante revisione sistematica pubblicata su Lancet, durante la prima ondata pandemica, in riferimento all’utilizzo delle mascherine come dispositivo di protezione per ridurre il contagio da SARS-COV2 (2), gli autori hanno ricercato tutti gli studi con gruppo di controllo e partendo da più di 20.000 records, dopo aver rimosso i duplicati, hanno identificato 176 studi osservazionali, provenienti da 16 paesi rispondenti al quesito clinico.
Seguendo le raccomandazioni delle linee guida PRESS (Peer Review of Electronic Search Strategies) pubblicate sul Journal of Clinical Epidemiology (3), in stretta collaborazione con gli information specialist/documentalisti, viene definita la strategia di ricerca di una revisione sistematica a cui segue in modo operativo la fase inerente l’identificazione degli studi che rispondono ai criteri di elegibilità del quesito di ricerca.
Il lavoro di selezione dei record bibliografici manualmente sarebbe estremamente oneroso e time-consuming ed è pertanto preferibile utilizzare dei software dedicati che permettono di semplificare e parzialmente automatizzare i processi. In particolare, si è fatto riferimento a un paper pubblicato sulla rivista BMC Research Methodology, periodico del gruppo Springer Nature, in cui si approfondiscono diversi strumenti a supporto delle revisioni sistematiche, quali ad esempio Covidence e Ryyan (4); (quest’ultimo è gratuito; si veda https://www.rayyan.ai/). In generale, questi strumenti permettono l’ottimizzazione dei tempi di lavoro nonché una maggiore accuratezza, tracciabilità e affidabilità del processo di selezione della letteratura controllando gli eventuali bias.
Inoltre, alla luce delle linee guida PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-analyses) per il reporting di revisioni sistematiche, di cui Springer Healthcare ha pubblicato in esclusiva la traduzione in italiano dell’aggiornamento più recente (5), è necessario documentare nel dettaglio tutto il processo di identificazione degli studi che rispondono al quesito di ricerca, dallo screening (basato su titolo ed abstract) alla selezione (prendendo visione dei full text) dei riferimenti bibliografici per l’inclusione finale degli studi.
Oltre le bibliografie: possiamo usare i Reference Management Software nelle attività di supporto alla ricerca e nei flussi di lavoro in biblioteca?
Zotero
Mazzocut ha presentato in forma “live” alcune strategie di utilizzo di questi sistemi per ottimizzare la gestione delle informazioni bibliografiche raccolte in un arco temporale di medio e lungo periodo, insegnate nei corsi di formazione del Sistema Bibliotecario di Ateneo dedicati ai dottorandi dell’Università Ca’ Foscari di Venezia.
Esistono momenti per cui l’utilizzo sistematico e ordinato di un software di gestione bibliografica può ridurre la dispersione dei documenti e semplificare l’accesso e il recupero delle informazioni (un articolo scaricato ma conservato chissà dove, il recupero di PDF salvati in device diversi, la ricerca di informazioni per le quali non ci si ricorda la fonte e così via). Zotero consente di collegare a ciascuna referenza bibliografica note personali e allo stesso tempo offre diverse possibilità per allegare il full text alla referenza bibliografica e altri file ritenuti utili per la ricerca (fogli dati, immagini, grafici, etc.). Per ciascuno di questi allegati è possibile creare una annotazione specifica; le informazioni bibliografiche, il testo del documento e quello delle annotazioni sono tutti indicizzati e ricercabili. Va da sé che in questo modo il punto di accesso è unico, notevole punto di forza.
Un altro aspetto da non sottovalutare è la possibilità di creare un account sul sito di Zotero e ottenere uno spazio di archiviazione personalizzato (fino ad un massimo di 300 MB nella versione gratuita) utile ad eseguire una sincronizzazione e un backup automatico del database.
Questo ci consente di spostare lo sguardo dal recupero e accesso delle informazioni alla loro interoperabilità, condivisione e disseminazione. Zotero permette infatti di scambiare informazioni bibliografiche con altri ricercatori attraverso diverse modalità: per es. la creazione di biblioteche di gruppo, l’import e l’export in diversi formati standard (RIS, BibTex e CSV) permette di standardizzare e scambiare informazioni bibliografiche di qualità anche con altri sistemi analoghi o con servizi bibliografici disponibili in rete, quali le banche dati citazionali o ORCiD.
Infine, la duttilità del linguaggio di programmazione delle referenze bibliografiche (CSL – Citation Style Language) condiviso da Zotero e Mendeley mette in grado di personalizzare lo stile citazionale fino ad ottenere anche formati personalizzati trasformando la citazione bibliografica in un file in cui i dati possono essere organizzati rendendoli compatibili con l’organizzazione delle informazioni disponibile nel database di destinazione. Naturalmente il presupposto per ottenere il massimo vantaggio dai software di gestione bibliografica è la correttezza e la coerenza delle informazioni contenute nel database; se tipologie di documenti quali articoli scientifici, monografie o capitoli di libro attraversano un percorso editoriale e/o catalografico per cui sono associati ad un identificativo (DOI o ISBN), il discorso cambia per altri documenti quali immagini, video, pagine Web o altri.
Di conseguenza, per fare in modo che tali sistemi risultino altrettanto efficaci, è necessario investire tempo nell’implementazione e nel mantenimento del database.
Open Refine
Nella seconda parte del suo intervento, Mazzocut ha presentato Open Refine, un software “open source” sviluppato per il data wrangling, cioè la pulizia, la trasformazione e l’arricchimento di grossi dataset, fino ad un massimo di 5 milioni di righe (6). Nel panorama scientifico attuale, i dati occupano un ruolo centrale. Non è un caso che fra i requisiti fondamentali per l’accesso ai finanziamenti del programma Horizon Europe vi sia una gestione dei dati della ricerca coerente con i dettami della scienza aperta. I dati prodotti dalla ricerca finanziata con fondi pubblici europei devono essere FAIR, ovvero Findable, Accessible, Interoperable and Reusable. Di conseguenza, la capacità di manipolare e organizzare i dati sta diventando via via un’attività sempre più presente nelle biblioteche.
Open Refine si presenta come un foglio di calcolo, ma è dotato di specifiche funzioni per ottenere facilmente una panoramica dei dati contenuti nel dataset, individuarne le incoerenze, modificarli e riorganizzarli, integrarli con informazioni provenienti da altri dataset o servizi di riconciliazione online.
La funzionalità “cluster and edit” permette di gestire le incoerenze dei dati, identificare, raggruppare e modificare tutte le variabili in cui un determinato dato è scritto, difficilmente individuabili ad occhio nudo; per es. errori ortografici, tipografici o derivanti da diverse interpretazioni fonetiche (Key Collision); oppure calcolando la differenza fra due stringhe all’interno di un determinato raggio di caratteri determinato dall’operatore (Nearest Neighbor).
Open Refine permette inoltre di trasformare i dati contenuti in un set di dati attraverso GREL (Google Regine Expression Language), un linguaggio dedicato che presenta una sintassi molto concisa rispetto a quella offerta dai normali fogli di calcolo. Con questo linguaggio è possibile, per esempio, individuare pattern ricorrenti all’interno dei dati, invertire l’ordine delle parole all’interno delle celle, stabilire delle condizioni secondo le quali alcuni dati possono essere trasformati e altri no.
Infine, Open Refine permette di integrare i dati contenuti nel dataset con altri provenienti da servizi esterni e dal Web: tra questi troviamo WikiData, CrossRef, Weill Cornell Medicine VIVO, Research Organization Registry ID,Taxonomy database of the U.S. National Center for Biotechnology Information, Bionomia ID etc…
Tutte queste funzionalità consentono di preparare dataset formattati secondo alcuni requisiti della scienza aperta, ad esempio la trasparenza. Il processo di trasformazione dei dati è sempre riproducibile in quanto il dataset originale non viene intaccato e il progetto conserva una cronologia navigabile rispetto alle modifiche effettuate. La possibilità di importare dati da servizi online permette di ricorrere a ontologie e liste di autorità standardizzate che facilitano l’identificazione e la relazione dei dati: i formati di esportazione degli stessi (TSV, CSV, XML, RDF) rispettano i requisiti di interoperabilità informatica. Sebbene Open Refine utilizzi il browser, il sistema non richiede alcuna connessione ad Internet e quindi i dati non escono dal dispositivo con cui si sta lavorando a garanzia dell’eventuale riservatezza degli stessi.
Per quanto duttile, Open Refine presenta alcuni problemi: il software richiede l’installazione di un pacchetto Java Virtual Machine, che può avere un certo impatto sui computer più datati o con poca capacità di calcolo e memoria di lavoro. Inoltre, sebbene nelle sue funzioni di base Open Refine sia uno strumento facile da utilizzare, di fronte a interventi complessi di modifica dei dati aumenta la complessità delle funzioni da utilizzare e quindi la curva di apprendimento necessaria.
Per questa presentazione, il relatore ha preparato una dimostrazione di trasformazione di un dataset bibliografico di oltre 630 records contenente l’output scientifico di un Istituto di ricerca biomedico italiano per l’anno 2020 (circa 280 pubblicazioni totali) scaricato da Web of Science e Scopus. L’obiettivo della dimostrazione è stata quella di individuare ed eliminare le incoerenze fra i dati, individuare le affiliazioni corrette per ciascun autore, classificare l’ordine degli autori ed estrapolare i PUC affiliati all’Istituto per ciascun articolo, importare da CrossRef le informazioni relative all’editore della pubblicazione utilizzando il codice ISSN presente nel dataset.
Nota conclusiva
Il riferimento bibliografico è fondamentale nella ricerca (7), è l’espressione sintetica di un lavoro di conoscenza e approfondimento dando la misura di come le idee si siano evolute nel tempo. Ogni riferimento bibliografico è finalizzato a crearne un altro e così via in un processo esponenziale che non avrà termine finché la ricerca stessa sarà viva.
La mole di questi riferimenti bibliografici è davvero enorme. È proprio in questo contesto che questi software ci forniscono un supporto essenziale per la gestione della conoscenza pregressa nell’ottica della produzione di nuovi output, attraverso l’ottimizzazione di processi che non potrebbero essere gestiti in maniera manuale da esseri umani se non grazie a mesi di lavoro. Questi strumenti ci aiutano inoltre a dominare la grande e spesso disordinata mole di dati e metadati di cui ogni studioso ha bisogno per diversi scopi: creare un proprio archivio di referenze accessibile da qualsiasi strumento di lavoro (PC fisso/portatile, smartphone etc…), a ordinare e mantenere l’ordine di documenti raccolti nel tempo in varie occasioni e in vari luoghi fisici o virtuali, a annotare idee e intuizioni che ogni processo creativo produce in itinere, a creare o alimentare i propri account, CV etc…
Tutto questo non si ottiene se ci si limita a inserire le voci bibliografiche in ogni manoscritto con le sole funzioni del proprio programma di scrittura o si pensa di gestire le citazioni di una revisione sistematica usando fogli di calcolo.
Gli strumenti che sono stati oggetto del Workshop sono certamente finalizzati a facilitare il processo di produzione della conoscenza. Tuttavia, non sarebbe corretto suggerirne l’utilizzo semplicemente per lo scopo di far risparmiare tempo, poiché la creazione e gestione di un archivio citazionale personale nonché l’organizzazione di un data set complesso non sono operazioni di immediata esecuzione.
È possibile quindi rilevare a valle un notevole risparmio assoluto di tempo: successivamente allo “sforzo” iniziale, nel complesso si possono raggiungere molti più obiettivi in minor tempo e con maggiore accuratezza e qualità nei risultati. Il lavoro fianco a fianco tra documentalisti, clinici e ricercatori, ancora una volta può fare la differenza.
Bibliografia
- Perkel, J. Streamline your writing — and collaborations — with these reference managers, Nature 585, 149-150 – 2020
- Chu DK, Akl EA, Duda S, Solo K, Yaacoub S, Schünemann HJ; COVID-19 Systematic Urgent Review Group Effort (SURGE) study authors. Physical distancing, face masks, and eye protection to prevent person-to-person transmission of SARS-CoV-2 and COVID-19: a systematic review and meta-analysis. Lancet. 2020 Jun 27;395(10242):1973-1987.
- McGowan J, Sampson M, Salzwedel DM, Cogo E, Foerster V, Lefebvre C. PRESS Peer Review of Electronic Search Strategies: 2015 Guideline Statement. J Clin Epidemiol. 2016 Jul;75:40-6.
- Harrison H, Griffin SJ, Kuhn I, Usher-Smith JA. Software tools to support title and abstract screening for systematic reviews in healthcare: an evaluation. BMC Med Res Methodol. 2020 Jan 13;20(1):7.
- Maraolo, AE, Gervasoni, F. Polcaro F, Gallo, A. PRISMA statement 2020: una guida aggiornata per il reporting di revisioni sistematiche, Medici Oggi 29 marzo 2021 https://medicioggi.it/contributi-scientifici/una-bussola-per-le-revisioni-sistematiche-la-versione-italiana-della-nuova-edizione-del-prisma-statement/ – ultimo accesso 11 marzo 2022
- Open Refine – Didawiki , accessibile al link http://didawiki.cli.di.unipi.it/lib/exe/fetch.php/bdd-infuma/08.lpw2017openrefine.pdf – ultimo accesso il 23 marzo 2022
- Venuda, F. La citazione bibliografica nei percorsi di ricerca. Dalla galassia Gutenberg alla rivoluzione digitale. Unicopli, 2012