STTS als Part-of-Speech-Tagset in Tübinger Baumbanken.

2013 
Das Stuttgart-Tubingen Tagset (STTS, Schiller et al., 1999) ist der De-facto-Standard fur das Tagging von Wortarten in deutschen Texten, und die uberwiegende Mehrzahl der POS-annotierten Ressourcen furs Deutsche – darunter die Baumbanken NeGra (Skut et al., 1997), TIGER (Brants et al., 2002), TuBa-D/S (Hinrichs et al., 2000) und TuBa-D/Z (Hinrichs et al., 2004), und viele andere Korpora – verwenden dieses Tagset. In dieser Rolle stellt das STTS in dreierlei Hinsicht einen wichtigen Referenzpunkt dar: Zum einen als ausgewiesenes Tagset fur die moderne Standardsprache, das die Interoperabilitat mit einem komplexen Gefuge an Werkzeugen sowohl zur Wortartenauszeichnung als auch zur darauf aufbauenden Auszeichnung syntaktischer und anderer Strukturen. Zum anderen ist das STTS Ausgangspunkt fur Arbeiten jenseits der geschriebenen Standardsprache, die standardsprachliche Konstrukte im Sinne der ursprunglichen Richtlinien annotieren und nur dort abweichen, wo Phanomene in der Standardsprache der Gegenwart untypisch sind oder als ungrammatisch gelten (Buchstabierungen in der gesprochensprachlichen TuBa-D/S; auseinandergeschriebene Komposita in den fruhneuhochdeutschen Texten der Mercurius-Baumbank, siehe Pauly et al., 2012; zu weiteren Beispielen siehe weitere Artikel dieser Ausgabe). Weiterhin dient das STTS solchen Annotationsvorhaben als Referenzpunkt, die aufgrund ihrer unterschiedlichen Fragestellung eine andere Granularitat der Tags anstreben. Beispiele hierfur sind das Historische Tagset (HiTS; Dipper et al., diese Ausgabe), das feingranulare Wortartentags fur die Analyse fruherer Sprachstufen des Deutschen bereitstellt, oder das sprachubergreifende Tagset von Petrov et al. (2012), das zur Vereinheitlichung zwischen Sprachen eine wesentlich grobere Granularitat als das STTS verwendet. In diesem Artikel soll es darum gehen, eine Bestandsaufnahme des STTS vor allem in der Rolle als Tagset fur Standardsprache, insbesondere anhand der in Tubingen erstellten Korpora, vorzunehmen. Eine solche Bestandsaufnahme soll verdeutlichen, welche Aspekte neben der deskriptiven Adaquatheit und der grundsatzlichen Anwendbarkeit wichtig sind, aber nur langfristig durch kontinuierliche Inspektion und Revision sichtbar werden. Die Frage, was jenseits der ursprunglichen Tagsetdefinition zu einer konsistenten Anwendung des STTS gehort, reicht dabei hinein in die ebenfalls wichtige Frage der Interoperabilitat mit bestehenden Werkzeugen und Ressourcen, die sich realiter auf eine bestimmte Ausdeutung des Standards bezieht und uber die ursprunglichen Richtlinien hinausgeht.
    • Correction
    • Source
    • Cite
    • Save
    • Machine Reading By IdeaReader
    0
    References
    1
    Citations
    NaN
    KQI
    []