Willkommen beim Öffentlichen DGS-Korpus Release 4!
Auf diesem Portal werden rund 50 Stunden Videomaterial aus dem DGS-Korpus mit Annotationen für Forschungszwecke öffentlich zur Verfügung gestellt. (Wenn Sie das Material herunterladen, beachten Sie bitte die Lizenzbedingungen!)
Expert:innen in Corpus Query Languages möchten wir darauf hinweisen, dass es ein weiteres Schwesterportal MEINE DGS – ANNIS gibt, das fast alle hier zu findenden Daten in einer ANNIS-Datenbank enthält, mit der komplexe Abfragen möglich sind.
Über Types gelangen Sie zur Liste aller in den Transkripten des Öffentlichen Korpus verwendeten Types. Klicken Sie einen Eintrag in diesem Index an, so werden alle Tokens dieses Types angezeigt. Anklicken der Fundstelle bringt Sie direkt zum jeweiligen Transkript.
Über Formate erhalten Sie eine Übersicht über die in der Erhebung verwendeten Erhebungsformate (s.u.) sowie die Anzahl der Transkripte zum jeweiligen Format im Öffentlichen Korpus. Die einzelnen Erhebungsformate können Sie anklicken, um mehr über das Format zu erfahren und die zugehörigen Transkripte nach Region oder genauem Thema auswählen zu können.
Alle Transkripte sind verschlagwortet, um einen groben inhaltlichen Zugang zum Material zu gewähren. Über den Sachindex finden Sie alle Schlagwörter und kommen von da wieder zu den jeweiligen Transkripten.
Hintergrundinformationen zum Material
Erhebungsformate
Über den Tag verteilt wurden die Teilnehmenden mit 20 verschiedenen Aufgaben konfrontiert. Die Formate reichten von Nacherzählungen (mit Vorlagen in Gebärdensprache, als Bildergeschichte oder Film ohne Sprache) bis hin zu Diskussionen über vorgegebene Themen wie auch freie Diskussionen. Aufgrund des Aufgabenmixes war es möglich, den Erhebungstag trotz einer Nettolänge von fünf Stunden so zu gestalten, dass die Teilnahme den meisten Spaß gemacht hat.
Der Aufgabenmix enthält sowohl Aufgabenstellungen, die bereits in früheren Korpusprojekten (sowohl für Gebärdensprache als auch Lautsprache) benutzt worden sind, um so crosslinguistische Fragestellungen angehen zu können, wie auch neue Formate. Nicht alle Details der Aufgabenstellungen sind publiziert, um diese weiterhin in Erhebungen verwenden zu können. Die Materialien sind jedoch für andere Forscher:innen auf Anfrage verfügbar.
Erhebungsregionen
Basierend auf Erfahrungen aus Vorgängerprojekten wurde bei der Planung des DGS-Korpus die Entscheidung getroffen, ein mobiles Studio einzusetzen, damit an verschiedenen Orten in ganz Deutschland Erhebungen durchgeführt werden konnten. Ziel war, die Erhebungen möglichst „regional“ durchzuführen, indem alle Beteiligten aus der Region stammten, gleichzeitig aber qualitativ hochwertige Videoaufnahmen, wie sie für die Transkription benötigt werden, erstellen zu können. Die Zahl der Erhebungsorte ist dabei natürlich ein Kompromiss zwischen der „Regionalität“ wie auch den Anreisezeiten der Teilnehmenden einerseits und dem logistischen Aufwand andererseits.
Im Ergebnis wurden dreizehn Erhebungsregionen definiert, die die Einzugsbereiche gegenwärtiger und früherer Gehörlosenschulen, Bundeslandgrenzen (die für das Schulsystem große Bedeutung haben) und insbesondere auch die frühere deutsch-deutsche Grenzen berücksichtigen, mögliche Dialektgrenzen respektieren und auch praktischen Erwägungen, wie z. B. der Anreisezeit zu einem zentralen Ort in der Region, Rechnung tragen. Diese dreizehn Regionen wurden weiter unterteilt in bis zu fünf Unterregionen, die Metropolräume von mehr ländlichen Bereichen unterscheidbar machen sollten.
Auf der ersten unten zu sehenden Karte finden Sie die Erhebungsregionen. Zum Vergleich sehen Sie daneben bzw. darunter eine Karte mit den Bundesländern.
Teilnehmende
Da für den gehörlosen Bevölkerungsanteil in Deutschland keine Zensusdaten vorliegen, wurde die Zahl der Teilnehmenden aus der Bevölkerungszahl der jeweiligen Region abgeleitet. Dabei wurden städtisch geprägte Kreise mit doppeltem Gewicht einberechnet, um dem (unbewiesenen) Umstand Rechnung zu tragen, dass Gehörlose bevorzugt in großen Städten wohnen. Mit einer Minimalzahl von 16 Personen pro Region (4 Altersgruppen x 2 Geschlechter x 2 Personen) ergab sich damit eine Zielgröße von 328 Personen. Tatsächlich haben 330 Personen an der Erhebung teilgenommen.
Auf der Karte finden Sie die Teilnehmendenzahl pro Region, aufgegliedert nach Altersgruppen.
Insgesamt sind die Teilnehmenden relativ gleich verteilt über die Altersgruppen. In der Summe sind die Anzahlen der Teilnehmerinnen und Teilnehmer genau gleich.
DGS-Korpus: Annotationskonventionen für das Öffentliche Korpus
Die Annotationskonventionen sind im Arbeitspapier AP03-2018-01 dokumentiert.
Zum Download verfügbare Dateiformate
Wenn Sie iLex benutzen, laden Sie bitte die iLex-Datei herunter und importieren diese in Ihre iLex-Datenbank. Sie können auch die Filmdateien für die Kameraperspektiven A, B und C herunterladen, um diese Dateien lokal zur Verfügung zu haben. Unbedingt notwendig ist dies nicht, da die iLex-Dateien URLs für den https-Zugriff auf die Filme enthalten. Neben der Annotation enthalten die iLex-Dateien Metadaten zur Session wie zu den Teilnehmenden.
Wenn Sie ELAN benutzen, laden Sie bitte die ELAN-Datei und optional die A-, B- und C-Filme herunter und öffnen dann die ELAN-Datei. Die ELAN-Dokumente sind so aufgesetzt, dass sie per https auf die Filme zugreifen. Aus Performanzgründen mag es aber sinnvoll sein, die Filme lokal zur Verfügung zu haben.
Benutzen Sie andere Werkzeuge wie z. B. MaxQDA, so ist es häufig möglich, die Texte mit Zeitmarken in Form einer SRT-(Untertitel-)Datei zu importieren. Bitte beachten Sie, dass auf den deutschen Seiten andere Dateien verlinkt sind als auf den englischen. Wenn das von Ihnen benutzte Programm mehrere Filmdateien für die unterschiedlichen Kamaeraperspektiven verwalten kann, laden Sie die A-, B- und C-Dateien herunter. Ansonsten empfiehlt es sich, stattdessen die AB-Datei herunterzuladen, die die B- und A-Kameraperspektive nebeneinander enthält.
Wir stellen die Pose-Analysen der A- und B-Kameraperspektiven sowie der entsprechenden Seitenperspektiven in verschiedenen Ausprägungen (OpenPose, MediaPipe, AppleVision, Surrey 3D-Lifting) zur Verfügung. Eine Download-Datei enthält die Daten für alle vier Perspektiven sowie Angaben zur räumlichen Auflösung der Input-Datei (die nicht immer identisch ist mit den hier zum Download angebotenen Filmdateien). An den Stellen, an denen das Video anonymisiert ist, enthalten die Pose-Daten leere Koordinaten-Arrays. Zur Verringerung der Download-Zeit sind die Pose-Dateien gezippt. Näheres zur Aufbereitung der Pose-Daten finden Sie im Arbeitspapier AP06-2019-01.
Schließlich können Sie eine CMDI-Datei mit Metadaten zur Session sowie den Teilnehmenden herunterladen.
Sofern zu den Einträgen der Types-Liste (siehe oben) Studioaufnahmen vorhanden sind, werden diese nicht nur dort angezeigt, sondern sind, zusammen mit iLex-, ELAN- und SRT-Dateien sowie Pose-Daten, auch zum Download verfügbar. Die Studioaufnahmen sind typischerweise für vier Perspektiven verfügbar: frontal, schräg von vorne, seitlich und von oben. Die Pose-Dateien enthalten die Daten zu den drei erstgenannten Perspektiven. Bitte beachten Sie, dass die Studioaufnahmen die Darsteller:innen im Stehen zeigen, während die Teilnehmenden in den Korpus-Aufnahmen sitzen.
Weitergehende Informationen
Das als Arbeitspapier AP06-2020-01 des Projektes erschienene Data Statement zum Korpus beschreibt die Daten ausführlicher und verweist auf spezielle Dokumentation zu einzelnen Aspekten des Projektes. Sämtliche Dokumentation finden Sie auch auf der Liste aller Arbeitspapiere des Projektes.
Weitere Details speziell zu den Erhebungsformaten finden Sie in den folgenden Publikationen:
- Nishio, Rie / Hong, Sung-Eun / König, Susanne / Konrad, Reiner / Langer, Gabriele / Hanke, Thomas / Rathmann, Christian (2010). “Elicitation methods in the DGS (German Sign Language) Corpus Project”. Poster presented at the 4th Workshop on Representation and Processing of Sign Languages: Corpora and Sign Language Technologies. May 22/23, 2010. Valetta – Malta. Paris: ELRA, S. 178-185. [Paper & Poster]
- Hanke, Thomas / Hong, Sung-Eun / König, Susanne / Langer, Gabriele / Nishio, Rie / Rathmann, Christian (2010): “Designing Elicitation Stimuli and Tasks for the DGS Corpus Project”. Poster presented at the Theoretical Issues in Sign Language Research Conference (TISLR 10), Sept 30 – Oct 2, 2010 at Purdue University, Indiana, USA. [Poster]
Zitierhinweise
Wenn Sie Forschungsergebnisse veröffentlichen, die auf diesen Daten beruhen, zitieren Sie bitte unsere entsprechenden Publikationen.
Wollen Sie das Dataset selbst zitieren, finden Sie hier die vorgeschlagene Zitierweise. Um einzelne Transkripte oder Type-Daten oder Erhebungsformate zu zitieren, verwenden Sie bitte die auf den jeweiligen Seiten ersichtlichen DOIs. Durch Klick auf die DOI erhalten Sie nicht nur eine Übersicht über die bisher erschienenen Versionen eines Transkripts oder Type-Eintrags oder Erhebungsformates, sondern finden auch eine versionsunabhängige DOI, mit der Sie immer auf die neueste Version des Transkripts, Type-Eintrags oder der Erhebungsformatbeschreibung verweisen können.