DOI: /10.25592/dgs.corpus-3.0

Willkommen beim Öffentlichen DGS-Korpus Release 3!

Auf diesem Portal werden rund 50 Stunden Videomaterial aus dem DGS-Korpus mit Annotationen für Forschungszwecke öffentlich zur Verfügung gestellt. (Wenn Sie das Material herunterladen, beachten Sie bitte die Lizenzbedingungen!)

Über Transkripte können Sie die zur Verfügung stehenden Daten sortiert nach Transkriptname oder Erhebungsformat auflisten lassen. Verschiedene Download-Links stehen zur Verfügung (s.u. Zum Download verfügbare Formate). Durch Anklicken des Transkriptnamens wird eine Online-Ansicht des Transkripts geöffnet. Wollen Sie sich jedoch erst einmal die Videos in Ruhe anschauen, seien Sie auf das Schwesterportal MEINE DGS verwiesen, wo die Filme mit Untertiteln angeboten werden.

Über Types gelangen Sie zur Liste aller in den Transkripten des Öffentlichen Korpus verwendeten Types. Klicken Sie einen Eintrag in diesem Index an, so werden alle Tokens dieses Types angezeigt. Anklicken der Fundstelle bringt Sie direkt zum jeweiligen Transkript.

Alle Transkripte sind verschlagwortet, um einen groben inhaltlichen Zugang zum Material zu gewähren. Über den Sachindex finden Sie alle Schlagwörter und kommen von da wieder zu den jeweiligen Transkripten.

In der Übersicht der Transkripte werden diese nach Erhebungsformaten unterschieden. Auch die Erhebungsformate können Sie anklicken, um mehr über das Format zu erfahren und die Transkripte nach Verschlagwortung auswählen zu können.

Hintergrundinformationen zum Material

Erhebungsformate

Über den Tag verteilt, wurden die Informantinnen und Informanten mit 20 verschiedenen Aufgaben konfrontiert. Die Formate reichten von Nacherzählungen (mit Vorlagen in Gebärdensprache, als Bildergeschichte oder Film ohne Sprache) bis hin zu Diskussionen über vorgegebene Themen wie auch freie Diskussionen. Aufgrund des Aufgabenmixes war es möglich, den Erhebungstag trotz einer Nettolänge von fünf Stunden so zu gestalten, dass die Teilnahme den meisten Spaß gemacht hat.

Der Aufgabenmix enthält sowohl Aufgabenstellungen, die bereits in früheren Korpusprojekten (sowohl für Gebärdensprache als auch Lautsprache) benutzt worden sind, um so crosslinguistische Fragestellungen angehen zu können, wie auch neue Formate. Nicht alle Details der Aufgabenstellungen sind publiziert, um diese weiterhin in Erhebungen verwenden zu können. Die Materialien sind jedoch für andere Forscher auf Anfrage verfügbar.

Weitere Details finden Sie in den folgenden Publikationen:

  • Hanke, Thomas / Hong, Sung-Eun / König, Susanne / Langer, Gabriele / Nishio, Rie / Rathmann, Christian (2010): “Designing Elicitation Stimuli and Tasks for the DGS Corpus Project”. Poster presented at the Theoretical Issues in Sign Language Research Conference (TISLR 10), Sept 30 – Oct 2, 2010 at Purdue University, Indiana, USA. [Poster]
  • Nishio, Rie / Hong, Sung-Eun / König, Susanne / Konrad, Reiner / Langer, Gabriele / Hanke, Thomas / Rathmann, Christian (2010). “Elicitation methods in the DGS (German Sign Language) Corpus Project”. Poster presented at the 4th Workshop on the Representation and Processing of Sign Languages: Corpora and Sign Language Technologies, following the 2010 LREC Conference in Malta, May 22.-23., 2010. Workshop Proceedings. W13. 4th Workshop on Representation and Processing of Sign Languages: Corpora and Sign Language Technologies. May 22/23, 2010. Valetta – Malta. Paris: ELRA, S. 178-185. [Paper] [Poster]

Erhebungsregionen

Basierend auf Erfahrungen aus Vorgängerprojekten wurde bei der Planung des DGS-Korpus die Entscheidung getroffen, ein mobiles Studio einzusetzen, damit an verschiedenen Orten in ganz Deutschland Erhebungen durchgeführt werden konnten. Ziel war, die Erhebungen möglichst „regional“ durchzuführen, indem alle Beteiligten aus der Region stammten, gleichzeitig aber qualitativ hochwertige Videoaufnahmen, wie sie für die Transkription benötigt werden, erstellen zu können. Die Zahl der Erhebungsorte ist dabei natürlich ein Kompromiss zwischen der „Regionalität“ wie auch den Anreisezeiten der Informantinnen und Informanten einerseits und dem logistischen Aufwand andererseits.

Im Ergebnis wurden dreizehn Erhebungsregionen definiert, die die Einzugsbereiche gegenwärtiger und früherer Gehörlosenschulen, Bundeslandgrenzen (die für das Schulsystem große Bedeutung haben) und insbesondere auch die frühere deutsch-deutsche Grenzen berücksichtigen, mögliche Dialektgrenzen respektieren und auch praktischen Erwägungen, wie z. B. der Anreisezeit zu einem zentralen Ort in der Region, Rechnung tragen. Diese dreizehn Regionen wurden weiter unterteilt in bis zu fünf Unterregionen, die Metropolräume von mehr ländlichen Bereichen unterscheidbar machen sollten.

Auf der ersten unten zu sehenden Karte finden Sie die Erhebungsregionen. Zum Vergleich sehen Sie daneben bzw. darunter eine Karte mit den Bundesländern.

ber: Berlin6,18 Mio fra: Frankfurt8,69 Mio goe: Göttingen5,53 Mio hb: Bremen3,28 Mio hh: Hamburg2,82 Mio koe: Köln10,84 Mio lei: Leipzig8,72 Mio mst: Münster9,08 Mio mue: München7,26 Mio mvp: Rostock1,69 Mio nue: Nürnberg5,23 Mio sh: Schleswig-Holstein2,83 Mio stu: Stuttgart10,74 Mio Land Schleswig-Holstein 2,83 Mio Freie und Hansestadt Hamburg 1,75 Mio Land Niedersachsen 8,62 Mio Freie Hansestadt Bremen 0,66 Mio Land Nordrhein-Westfalen 18,03 Mio Land Hessen 6,08 Mio Land Rheinland-Pfalz 4,05 Mio Land Baden-Württemberg 10,74 Mio Freistaat Bayern 12,50 Mio Saarland 1,04 Mio Land Berlin 3,40 Mio Land Brandenburg 2,54 Mio Land Mecklenburg-Vorpommern 1,69 Mio Freistaat Sachsen 4,22 Mio Land Sachsen-Anhalt 2,43 Mio Freistaat Thüringen 2,31 Mio

Informantinnen und Informanten

Da für den gehörlosen Bevölkerungsanteil in Deutschland keine Zensusdaten vorliegen, wurde die Zahl der Informantinnen und Informanten aus der Bevölkerungszahl der jeweiligen Region abgeleitet. Dabei wurden städtisch geprägte Kreise mit doppeltem Gewicht einberechnet, um dem (unbewiesenen) Umstand Rechnung zu tragen, dass Gehörlose bevorzugt in großen Städten wohnen. Mit einer Minimalzahl von 16 Personen pro Region (4 Altersgruppen x 2 Geschlechter x 2 Personen) ergab sich damit eine Zielgröße von 328 Personen. Tatsächlich haben 330 Informantinnen und Informanten an der Erhebung teilgenommen.

Auf der Karte finden Sie die Informantenzahl pro Region, aufgegliedert nach Altersgruppen.

Berlin(Berlin,Brandenburg,tw.Sachsen-Anhalt)Frankfurt(Süd-Hessen,Saarland,tw.Rheinland-Pfalz)Göttingen(Hannover,Süd-Niedersachsen,Nord-Hessen)Bremen(Bremen,Nordwestniedersachsen)Hamburg(Hamburg,Nord-Niedersachsen)Köln(Nordrhein,tw.Rheinland-Pfalz)Leipzig(Sachsen,Thüringen,tw.Sachsen-Anhalt)Münster(Westfalen,Osnabrück,GrafschaftBentheim)München(Bayern-Süd)Rostock(Mecklenburg-Vorpommern)Nürnberg(Bayern-Nord)Schleswig-HolsteinStuttgart(Baden-Württemberg) 18-30 31-45 46-60 61+

Insgesamt sind die Informantinnen und Informanten relativ gleich verteilt über die Altersgruppen. In der Summe sind die Anzahlen der Informantinnen und Informanten genau gleich.

40454238 165 männlich 41464137 165 weiblich 81918375 330 gesamt

DGS-Korpus: Annotationskonventionen für das Öffentliche Korpus

Die Annotationskonventionen sind im Arbeitspapier AP03-2018-01 dokumentiert.

Zum Download verfügbare Dateiformate

Wenn Sie iLex benutzen, laden Sie bitte die iLex-Datei herunter und importieren diese in Ihre iLex-Datenbank. Sie können auch die Filmdateien für die Kameraperspektiven A, B und C herunterladen, um diese Dateien lokal zur Verfügung zu haben. Unbedingt notwendig ist dies nicht, da die iLex-Dateien URLs für den https-Zugriff auf die Filme enthalten. Neben der Annotation enthalten die iLex-Dateien Metadaten zur Session wie zu den Teilnehmerinnen bzw. Teilnehmern.

Wenn Sie ELAN benutzen, laden Sie bitte die ELAN-Datei und optional die A-, B- und C-Filme herunter und öffnen dann die ELAN-Datei. Die ELAN-Dokumente sind so aufgesetzt, dass sie per https auf die Filme zugreifen. Aus Performanzgründen mag es aber sinnvoll sein, die Filme lokal zur Verfügung zu haben.

Benutzen Sie andere Werkzeuge wie z. B. MaxQDA, so ist es häufig möglich, die Texte mit Zeitmarken in Form einer SRT-(Untertitel-)Datei zu importieren. Bitte beachten Sie, dass auf den deutschen Seiten andere Dateien verlinkt sind als auf den englischen. Wenn das von Ihnen benutzte Programm mehrere Filmdateien für die unterschiedlichen Kamaeraperspektiven verwalten kann, laden Sie die A-, B- und C-Dateien herunter. Ansonsten empfiehlt es sich, stattdessen die AB-Datei herunterzuladen, die die B- und A-Kameraperspektive nebeneinander enthält.

Wir stellen die OpenPose-Analysen der A- und B-Kameraperspektiven sowie der entsprechenden Seitenperspektiven zur Verfügung. Eine Download-Datei enthält die Daten für alle vier Perspektiven sowie Angaben zur räumlichen Auflösung der Input-Datei (die nicht identisch ist mit den hier zum Download angebotenen Filmdateien). An den Stellen, an denen das Video anonymisiert ist, enthalten die Open-Daten leere Koordinaten-Arrays. Zur Verringerung der Download-Zeit sind die OpenPose-Dateien gezippt. Näheres zur Aufbereitung der OpenPose-Daten finden Sie im Arbeitspapier AP06-2019-01.

Schließlich können Sie eine CMDI-Datei mit Metadaten zur Session sowie den Teilnehmerinnen bzw. Teilnehmern herunterladen.

Zitierhinweise

Wenn Sie Forschungsergebnisse veröffentlichen, die auf diesen Daten beruhen, zitieren Sie bitte unsere entsprechenden Publikationen.

Wollen Sie das Dataset selbst zitieren, finden Sie hier die vorgeschlagene Zitierweise. Um einzelne Transkripte oder Type-Daten zu zitieren, verwenden Sie bitte die auf den jeweiligen Seiten ersichtlichen DOIs. Durch Klick auf die DOI erhalten Sie nicht nur eine Übersicht über die bisher erschienenen Versionen eines Transkripts oder Type-Eintrags, sondern finden auch eine versionsunabhängige DOI, mit der Sie immer auf die neueste Version des Transkripts oder Type-Eintrags verweisen können.