Workshop zu PID für Publikationsdienste und Forschungsinformationssysteme

20. März 2024 Universitätsbibliothek Bielefeld & Online

Informationen und Austausch zu Registraturen, Mehrfachzuweisungen und Aggregatoren

Persistente Identifikatoren (PID) spielen eine wichtige Rolle bei der eindeutigen Identifizierung von Publikationen und Forschungsinformationen. Das DFG-geförderte Projekt “PID Network Deutschland” bietet eine Austauschplattform zur Diskussion von PID, deren Nutzung, Verbreitung, Bedarfe und Hindernisse im deutschsprachigen Raum sowie deren Verbesserung.

Am 20. März fand ein Workshop an der Universitätsbibliothek Bielefeld statt. Er widmete sich der Komplexität von PID-Praktiken für und in Open-Access-Publikationsdiensten und Forschungsinformationssystemen (FIS). Es gibt verschiedene Registraturen, in denen Publikationsdienste und FIS registriert werden können, um die Sichtbarkeit der Forschung an der eigenen Einrichtung zu erhöhen. OpenDOAR, Re3Data, FAIRsharing, DOAJ, aber auch das Directory of Research Information Systems (DRIS) und das PROVIDER Portal der European Open Science Cloud (EOSC) sind nur einige Beispiele. Aktuell besteht die Herausforderung darin, dass diese Dienste und Systeme mehrere Identifikatoren erhalten, welche von nationalen und internationalen Aggregatoren, wie BASE, OpenAIRE, OpenAlex und Zitationsdatenbanken (z.B. OpenCitations) für die Indexierung genutzt werden.

Im Rahmen des Workshops wurde evaluiert, welche PID-Systeme sich für die Adressierung von Publikationsdiensten und FIS eignen und wie sich PID in Diensten und Systemen effektiver nutzen lassen. Ziel war es, Bedarfe und Defizite bei der Anwendung und Implementierung von PID in Publikationsdiensten und FIS zu identifizieren und zu diskutieren. Darüber hinaus wurden Lösungsansätze erörtert, die zur Optimierung von PID-Metadaten-Workflows im Zyklus von Forschung und kulturellen Objekten, sowie bei Aggregationssystemen, beispielsweise von BASE und den Vergabediensten, wie DataCite und der Deutschen Nationalbibliothek (DNB), genutzt werden können.

Der Workshop startete mit einer Reihe von informativen Vorträgen, an denen sich zusätzlich rund 190 Interessierte online beteiligten. Die Themen und Folien sind in der unten stehenden Tabelle verlinkt und können auch auf Zenodo eingesehen werden.

Im Anschluss an die Präsentationen wurden gemeinsam mit den Teilnehmenden vor Ort verschiedene Aspekte der persistenten und eindeutigen Identifikation Publikationsdiensten und FIS diskutiert. In drei Kleingruppen tauschten sich 45 Teilnehmende aus. Die Ergebnisse werden im Folgenden zusammengefasst.

Zusammenfassung interaktiver Teil

Allgemeiner Teil

Das Fokusthema des Workshops „PID für Open-Access-Publikationsdienste und Forschungsinformationsdienste“ setzte den Ausgangspunkt der Gruppendiskussionen. Allerdings wurden nicht nur dedizierte PID für diese Dienste, sondern auch verschiedene PID in diesen Diensten diskutiert, was jedoch angesichts der Komplexität der PID-Systeme und der Hintergründe der Teilnehmenden zu erwarten war.

Einige Teilnehmende gaben an, folgende PID für Publikationsdienste bzw. FIS zu nutzen: DOI, URN, Handle, GND iD, ISSN, ISBN, IGSN. Zusätzlich wurden eine Reihe von weiteren PID genannt, welche zum Referenzieren genutzt werden und damit Teil des PID-Zyklus und der administrativen Handhabung sind: ORCID iD, ROR iD, IDs von Scopus und Web of Science, FundRef, Gepris, CORDIS, ISNI, Wikidata (z.B. für Organisationen).

Herausforderungen

In allen Gruppen wurden Probleme identifiziert, die sehr vielfältig waren. Im Folgenden werden diese zusammengefasst:

Schwierigkeit im Umgang mit unterschiedlichen Verständnissen von „persistent“ in verschiedenen Kontexten
Wiederholt notwendige manuelle Eingabe von PID in Systeme
Eine bleibende Notwendigkeit für system- bzw. einrichtungsinterne Identifikatoren (bspw. in Identity and Access Management (IDM)-Systemen, ORCID iD ist dann nur zusätzlich)
Eine oft bestehende Unklarheit über den tatsächlichen Nutzen bzw. Vorteil der Verwendung von PID.
Probleme beim Abholen der Publikationsdaten von ORCID IDs (Möglicher Grund: fehlender Freigabe durch Nutzer:innen)
Unklarheiten bei Namensänderungen und Zusammenlegungen von Organisationen
Fehlende Feingliedrigkeit bei ROR
Rechtliche Debatten mit Datenschutzbeauftragten über Veröffentlichung und Weitergabe von Publikationsmetadaten
Unterschiedliche Policies für die Vergabe von DOIs bei Registrierungsagenturen
Technische Probleme bei der DOI-Vergabe
Falsche Angaben in den Metadaten, z.B. falsche Bezeichnung von Artikeln
Probleme mit Metadatenqualität durch Eingabe von Forschenden
Notwendigkeit der Implementierung von PID durch Forschungsförderer

Bedarfe

Darüber hinaus thematisierten die Teilnehmenden in ihren Gruppen, welche PID sie gerne nutzen würden. Es gibt den Wunsch nach einer Implementierung der PID für Proben (IGSN), für Projekte (RAiD) eventuell in Kombination mit Grant ID, für Veranstaltungen via Confident (https://www.confident-conference.org/), für Institutionen, Organisationen, Verlage (möglicherweise ROR, Ringgold) und FIS. Auch der Bedarf an PID für wissenschaftliche Preise wurde erwähnt.

Hindernisse

Daran anknüpfend erörterten die Gruppen Schwierigkeiten und Hindernisse bei der Implementierung von zuvor genannten PID. Genannte Gründe für die Nichtanwendung waren unklarer Nutzen, nicht ausgereifte PID Profile (bspw. RAiD), fehlende Nutzungsszenarien (bspw. wenn Daten nur intern genutzt und nicht mit anderen Systemen ausgetauscht werden), eine mangelnde Akzeptanz der Nutzenden und ein fehlendes Mandat für das Vorschreiben der Nutzung von PID an der Einrichtung.

Voraussetzungen für eine Implementierung

Um PID für Publikationsdienste/FIS zu etablieren, sind aus Sicht der Teilnehmenden folgende notwendige Voraussetzungen erforderlich:

Awareness: Es ist wichtig, ein Bewusstsein für die Bedeutung von PIDs zu schaffen.
Ausreichend weite Verbreitung und Anwendung von PID
Einfache Anwendung (bspw. automatisierte Datenabfrage, weniger manuelle Eingaben)
Entwicklungen fördern: z.B. technische Interoperabilität über APIs
Datenhoheit und Transparenz für die Nutzenden
Dauerhafte Ressourcen (z.B. finanzielle und personelle Mittel)
Kosten von PIDs müssten selbstverständlich akzeptiert und eingepreist werden.
Schnelle Umsetzung durch vorgaben von Regierung auf Förderer bzw. Förderer auf Wissenschaft
Schaffung einer Basis zu einem frühen Zeitpunkt: Einbindung von PID in die Ausbildung bzw. Curriculum
Schaffung eines Hubs für ID wie Wikidata oder OpenAlex
Einbindung der Forschenden: Die Nutzung von IGSN und RAID muss von Wissenschaftler:innen aktiv betrieben werden.
Festlegung klarer Community-Standards für die Verwendung von PID
In Bezug auf IGSN: Es sollte definiert werden, zu welchem Zeitpunkt diese IGSN vergeben werden sollen.
Vorteile aufzeigen: Bspw. Kann die Verwendung von PID, dass interne Monitoring erleichtern

Themenschwerpunkte

Im Folgenden werden die Diskussionsstränge aus den einzelnen Gruppen mit jeweils einem Themenschwerpunkt (Registraturen, Mehrfachzuweisungen und Aggregatoren) diskutiert.

Thementeil Registraturen

Die Teilnehmenden nutzen die Registraturen re3data, OpenDOAR, ROR (bspw. für Einrichtungsbezeichnungen) und DFG-GEPRIS (insofern als Registratur verstanden), außerdem Aggregatoren, die ihrerseits auf Daten von Registraturen zugreifen. Als Registratur mit Verzeichnis des Publikationsdiensts bzw. FIS der eigenen Einrichtung wurde nur re3data genannt.

Workflows wurden als wichtige, aber auch komplexe Themen identifiziert. Probleme bei Workflows umfassen die aufwendige oder unmögliche automatisierte Verarbeitung von unstrukturierten Fremddaten sowie Schwierigkeiten bei der Identifizierung von organisatorischen und personellen Zuständigkeiten für Registraturen (Stichwort Kurationshoheit).

Es besteht ein Bedarf an Richtlinien oder ähnlichen Dokumenten für Einrichtungen, um die Bedeutung und Prozesse für klare Handhabungen, Zuständigkeiten und Arbeitsabläufe im Zusammenhang mit Einrichtungs-IDs zu verdeutlichen. Außerdem wurde auf die Notwendigkeit der Verwendung oder zumindest Beachtung anderer Identifikatoren für Institutionen in bestimmten Anwendungsfällen hingewiesen, bspw. der Identifikationsnummern aus der DFG-Datenbank GERIT in der Projektförderungsverwaltung sowie der Identifikationsnummern des Statistischen Bundesamts und/oder der ETER-Datenbank in sozialwissenschaftlichen Umfragen.

Es wurde herausgestellt, dass es wichtig ist, dass Aufklärung über diese administrativen Herausforderungen auch aus dem PID-Network-Projekt oder anderen Community-Projekten erfolgen sollte.

Thementeil: Mehrfachzuweisungen

Diese Gruppe thematisierte insbesondere Probleme bei der Mehrfachzuweisungen von PID, weil Autor:innen beispielsweise mehrere ORCID iD – meist aus Unachtsamkeit – besitzen, die nicht miteinander verknüpft sind. Auch Publikationen kann durch Veröffentlichung in verschiedenen Repositorien eine Vielzahl an PID zugewiesen sein (bspw. mehrere DOI, Handle, URN, ISBN). Es wurde diskutiert, wann eine weitere Vergabe von PIDs für Zweitveröffentlichungen sinnvoll ist und in welchen Fällen dies in der Praxis zur Verwirrung der Nutzenden führt. Darüber hinaus wurden Motivationen aus Forschendensicht für die Nutzung der Verlagsidentifier angeführt, wie z.B. Impactmessung. Grundsätzlich geht es in der Diskussion um Mehrfachzuweisungen um eine Unterscheidung der PIDs in ihrer Funktion als eindeutigem Identifikator des referenzierten Objekts gegenüber der Funktion als Referenz für den Speicherort des Objekts.

Thementeil: Aggregatoren

Aktuell besteht die Herausforderung darin, dass Publikationsdienste und FIS mehrere Identifikatoren erhalten, welche von nationalen und internationalen Aggregatoren, wie BASE, OpenAIRE, OpenAlex und Zitationsdatenbanken (z.B. OpenCitations) für die Indexierung genutzt werden. Die Teilnehmenden tauschten sich zu verschiedenen Aspekten aus und thematisierten insbesondere Schwierigkeiten und Herausforderungen für Aggregatoren.

Folgende Punkte wurden diskutiert:

Fehlende zentrale Meldestelle und kein etablierter Workflow für Änderungen im Repositorium durch Repo-Betreiber:innen
Aggregatoren können nicht alle Daten überprüfen, sind auf Richtigkeit angewiesen
Die Aggregatoren haben den Pflegeaufwand bei sich, es gibt keine Bündelung
Unterschiedliche Schnittstellen (OAI/SPARQL) - Lücken müssen geschlossen werden
Wer entscheidet, ab wann es eine neue ID gibt? Sollte es die Entscheidung der Community sein?

Frage nach dem Bekanntheitsgrad von Aggregatoren?
Mangelnde Vernetzung von Aggregatoren
Kaum Austausch zwischen Aggregatoren und Harvestern – fehlender Feedbackloop um Änderungen nachzuvollziehen und zu vereinheitlichen
Zusammenarbeit/Austausch mit Repositorienbetreiber:innen könnte hilfreich sein
Schwierigkeiten mit der internationalen Vernetzung der Aggregatoren

Programm

Zeit	Programmpunkt	Sprecher:in	Dokumentation
09:30	Begrüßung durch UB-Direktion Bielefeld	Dirk Pieper, UB Bielefeld Direktion
09:35	Projektvorstellung: PID-Network Deutschland	Lena Messerschmidt, Helmholtz Open Science Office	https://doi.org/10.5281/zenodo.10842296
09:45	Pro & Contra für PID von FIS-Diensten in Registraturen - am Beispiel des “Directory for Research Information Systems”	Pablo de Castro, euroCRIS/University of Strathclyde, Glasgow, UK	http://hdl.handle.net/11366/2522
10:30	re3data: Referenzierung von Repositorien für die Community	Charlotte Neidiger, re3data/ Karlsruher Institut für Technologie - KIT	https://doi.org/10.5281/zenodo.10822138
10:45	DataCite: Nutzung von PIDs für Repositorien in DataCite-Diensten	Paul Vierkant, DataCite	https://doi.org/10.5281/zenodo.10820440
11:00-11:15	Pause
11:15	PIDs in (offenen) Publikationsdiensten: Ein OJS Ansatz	Zeynep Aydin, TIB Hannover	https://doi.org/10.5281/zenodo.10947608
11:40	DINI AG: EPub & FIS zu PIDs	Daniel Beucke, Niedersächsischen Staats- und Universitätsbibliothek Göttingen; Sebastian Herwig, Westfälische Wilhelms-Universität Münster; Sabrina Petersohn, Geschäftsstelle der Kommission für Forschungsinformationen in Deutschland (KFiD)	https://doi.org/10.5281/zenodo.10853437
12:05	Handhabung von OA-Publikationsdiensten & FIS in Aggregatoren am Beispiel von BASE und OpenAIRE	Andreas Czerniak, Universitätsbibliothek Bielefeld; Vitali Peil, Universitätsbibliothek Bielefeld	https://doi.org/10.4119/unibi/2988038
bis 13:30	Mittagspause
13:30	Gruppenarbeit Teil 1	Alle Teilnehmenden
14:10	Pause
14:20	Gruppenarbeit Teil 2	Alle Teilnehmende
15:30	Pause
15:40	Wrap up

Die Veranstaltungssprache war deutsch.

Bei Fragen und Anregungen können Sie uns jederzeit unter info.pidnetwork@listserv.dfn.de kontaktieren.

Vielen Dank für Ihre Teilnahme!

Projektpartner von PID Network Deutschland sind DataCite, die Deutsche Nationalbibliothek, das Helmholtz Open Science Office, die Technische Informationsbibliothek (TIB) und die Universitätsbibliothek Bielefeld. Das Projekt wird von der Deutschen Forschungsgemeinschaft gefördert.