08.05.2023 | Ben Kaden

Zusammenfassung und Folien zur Schulung „PIDs und ihre Anwendung“ vom 08. Mai 2023

Heute (08. Mai 2023) fand die mit mehr als 70 Teilnehmenden vermutlich bisher bestbesuchte Schulung der Vernetzungs- und Kompetenzstelle statt. Das Thema waren sogenannte Persistente Identifikatoren (PID), von denen der Digital Object Identifier (DOI) die bekannteste Variante sein dürfte. 

Allen Arten von PID ist gemeinsam, dass sie ein digitales Objekt bzw. eine Entität mit einer eindeutigen Benennung codieren. Die digitalen Objekte lassen sich so direkt und auch maschinenlesbar adressieren. Während DOI vorwiegend von wissenschaftlichen Aufsätzen bekannt und weithin geläufig sind und ORCID als personenbezogenen PID langsam in die Fläche der Publikationslandschaft dringen, sind andere Varianten wie ROR für Forschungsorganisationen, PIDINST für wissenschaftliche Werkzeuge oder die persistente Auszeichnung von wissenschaftlichen Veranstaltungen über ConfIDent bislang nicht unbedingt in jedem Setting gegenwärtig.

Das mag auch nicht immer notwendig sein. Aber für Forschende und umso mehr für mit Forschungsdaten und Forschungsmanagement befasste Professionals in den Wissenschafts- und Hochschulinfrastrukturen scheint es doch sinnvoll, auch diese Möglichkeiten wenigstens zu kennen. Aus Sicht der Openness sind PID deshalb interessant, weil sie einen Basisbaustein für die offene Wissenschaft bzw. Open Research darstellen. Eine DOI ist faktisch eine Grundvoraussetzung für ein Open Access konformes Publizieren. Da PID digitale Objekte standardisiert und plattformübergreifend auf Dauer verknüpfbar machen, unterstützen sie die Durchlässigkeit, die in einer offenen Forschungspraxis gewünscht ist. Ihre maschinenlesbare Form ist zudem eine Voraussetzung für Linked Open Data

Damit PID als Standards solche Rollen übernehmen können, müssen sie weit, möglichst sogar durchgehend verwendet werden. Um die dafür notwendige Akzeptanz zu schaffen, braucht es einen passenden Rahmen. Unter anderem um einen solchen aufzusetzen, gibt es seit diesem Jahr ein Kooperationsprojekt (von DataCite, der Deutschen Nationalbibliothek, des Helmholtz Open Science Office und der Technischen Informationsbibliothek Hannover (TIB)) mit dem Namen PID NETWORK DEUTSCHLAND.

Dessen Ziel ist

„die Etablierung eines Netzwerkes aus bereits bestehenden und sich aktuell formierender Akteure in Wissenschaft und Kultur, dass die Anwendung, Implementierung, Standardisierung und internationale Anschlussfähigkeit von PID-Systemen auf lokaler, nationaler und internationaler Ebene fördert und konsolidiert.“ (vgl. https://doi.org/10.48440/os.helmholtz.059, S. 10)

Damit ist auch der Kontext der heutigen Schulung mit Nelli Taller und Frauke Ziedorn, die jeweils die TIB und das Projekt vertreten, weitgehend umrissen: Ein früher Outreach in die Infrastrukturcommunity mit dem Wunsch, eine Vernetzung über die konkrete Veranstaltung hinaus zu erreichen. Ein geeignetes Forum dafür wäre zum Beispiel der deutschsprachige Kanal von the PID Forum.

Es geschieht also viel auf dem Feld der PIDs. Der heutige Überblick zeigte dazu wunderbarerweise etwas mehr als die Spitze des Eisbergs und deutete an, was im PID NETWORK relevant werden wird.

Für diejenigen, die gerade erst ins Themenfeld einsteigen, sei vielleicht komplexitätsreduzierend vermerkt, dass eine Orientierung vor allem am DOI-Ansatz sehr sinnvoll ist, da viele der anderen und neueren PIDs das Verfahren aufgreifen und an die jeweiligen Objekttypen – Organisationen, Werkzeuge, Konferenzen etc. – anpassen. Also kurz: Wer den DOI-Ansatz versteht, versteht auch alle anderen. 

Als weitere grundlegende Takeaways lassen sich vielleicht formulieren:

  • Ein PID ist eine Bezeichnung in einem geschlossenen Namensraum. Dieser gibt den Kontext vor. Ein Beispiel wäre ORCID. Eine ORCID-ID ist entsprechend ein Name, in diesem Fall in Gestalt einer 16-stelligen Zahl, die in diesem Namensraum, ORCID, einmalig für ein digitales Objekt, also einen konkreten Personenbezug, vergeben wird. Die ID selbst enthält in diesem Fall keine semantischen oder personenbezogenen Informationen. Ihr Bezug kann daher nur in Verbindung mit dem Namensraum aufgeschlüsselt. Der Namensraum orcid.org und die ID 0000-0002-8021-1785 führen beispielsweise in Verbindung zu einer digitalen Abbildung eines bestimmten Publizierenden
  • Über den PID kann das entsprechende digitale Objekt also innerhalb des jeweiligen Namensraums eindeutig lokalisiert und angesteuert werden. Dies kann direkt über den Browser erfolgen, da die Kombination von Namensraum und PID eine Webadresse erzeugt. Beispiel: orcid.org/0000-0002-8021-1785.
  • Mit dem jeweiligen PID sind Metadaten verknüpft. Diese können entweder manuell erfasst, idealerweise aber automatisiert eingebunden werden. Beispielsweise dank weiterer PID können auf einer ORCID-Seite problemlos und automatisch die Namen der Institutionen, an denen der/die Publizierende arbeitete sowie die Publikationsnachweise eingebunden werden. Für Institutionen wird dabei zum Beispiel auf den International Standard Name Identifier (ISNI) zurückgegriffen, der wie die ORCID ID aus 16 Stellen besteht. Für die Einbindung von Publikationen werden DOI genutzt. 
  • PID sind für alle Arten von digitalen Objekten denkbar. Die Bandbreite für die Verwendbarkeit von DOI, die von Texten über Forschungsdatensätze bis hin zu Bildern oder Software reicht, unterstreicht dies. Alles was mit Metadaten versehen auf einem Repositorium hinterlegt werden kann, kann einen DOI erhalten. Auch Bestandsnachweise zu nicht-digitalen Objekten können mit einem DOI versehen werden.  
  • Die so entstehenden Datennetzwerke können schließlich über entsprechende Werkzeuge zum Beispiel für ein Forschungsmonitoring, für Netzwerkanalysen oder möglicherweise auch für ein Datentracking ausgewertet werden. Ein sehr nachgefragtes Beispiel wären Forschungsinformationssysteme. In der Theorie könnte die kombinierte Abfrage von Person (ORCID), Affiliation (ROR) und Veröffentlichung (DOI) ein kontinuierliches und automatisiertes Reporting zum Publikationsgeschehen in einer Einrichtung ermöglichen. Die Eindeutigkeit der PID würde im Idealfall Mehrfachzählungen ausschließen. Dies kann jedoch nur gelingen, wenn die Angaben inklusiv (alle relevanten Publikationen), vollständig (alle relevanten Metadaten) und korrekt (richtige Angaben in denMetadaten) sowie in möglichst aktuell sind.

Wenig überraschend tauchen folglich im Zusammenhang mit PID auch immer die Schlagworte Datenqualität und etablierte Workflows auf. Beides konnte in der heutigen Schulung nur angerissen werden. Aus diesem Grund werden wir versuchen, eine gezielt darauf ausgerichtete Anschlussschulung zu organisieren. Informationen dazu folgen in Kürze auf den üblichen Kanälen von Open Access Brandenburg.

Für heute verweisen wir gern auf die bei Zenodo bereitgestellten Präsentationsfolien des Inputs von Nelli Taller und Frauke Ziedorn: https://doi.org/10.5281/zenodo.7907145.

Für Anregungen, Fragen und Ideen zu PID oder auch anderen möglichen Schulungsthemen freuen wir uns über eine Kontaktaufnahme.