Die dialektometrische Verfahrenskette

Die folgende Übersicht umreißt den Gesamtvorgang der dialektometrischen Auswertung von Sprachatlanten und zeigt dazu schematisch von links nach rechts, wie die einzelnen Verfahrensschritte aufeinander folgen. Dabei gibt es parallel gleichwertige Möglichkeiten. So führen verschiedene Klassifikationsverfahren mit je mehreren Visualisierungsmöglichkeiten zu einer breiten Palette von Ergebnissen. Jedes dieser Ergebnisse betont einen anderen Aspekte der zu erforschenden basilektalen Struktur. Diese gleichwertigen Verfahren können und sollen nicht im Vergleich mit etablierten Positionen der Dialektforschung bewertet werden, sondern können nebeneinander genutzt werden, um die ordnungsstrukturelle Vielfalt zu erschließen bzw. sichtbar zu machen.

VDM versteht sich - in Entsprechnung zur Pluralität der dialektometrischen Verfahrenskette - als "Werkzeugkasten", der die verschiedenen Methoden und Algorithmen bereit stellt und damit erstmals dem Dialektologen die Möglichkeit eröffnet, von seiner speziellen Fragestellung her die Daten zu analysieren, ohne auf einen vorgefertigten Ablauf oder ein einziges mögliches Ergebnis festgelegt zu sein.

Flußdiagramm "Dialektometrische Verfahrenskette" (vgl. GOEBL, Hans (1998, 978).
 

1) Taxierung

Bei der Taxierung geht es darum, die Antworten einer Sprachatlaskarte in Typen, i.e. Taxate zusammenzufassen. Dabei kann man die zu klassifizierenden Daten (Taxandum) jeweils nach phonetischen, morphosyntaktischen oder lexikalischen Kriterien gruppieren (taxieren). Das Ergebnis ist eine Liste, die jeder Ortsnummer der Karte ein Taxat bzw. dessen Taxatnummer zuordnet. Jede Liste einer taxierten Sprachatlaskarte bildet einen Zeilenvektor der nominalskalierten Datenmatrix.
Eine manuelle Taxierung wird vom Dialektologen in der Regel nach folgendem Ablauf durchgeführt:

  1. Kriterien festlegen (z.B. lexikalisch, phonetisch).
  2. Liste der verschiedenen Typen (Taxate) aufstellen und Nummern vergeben.
  3. Zuweisung der einzelnen Antworten auf der Karte zu je einem Taxat, es entsteht die Ortnummer-Taxatnummer-Liste.

Neben diesem manuellen Verfahren gibt es ein Programm zur automatischen Taxierung (I R S), das z.Z. (2000) an Karten des ALD-I erprobt wird.
 

2) Wahl des Ähnlichkeitsmaßes

Der erste Schritt bei der Erforschung von Relationen in der Datenmatrix besteht in der Vermessung der Ähnlichkeiten zwischen den Orten (Variablen oder Spaltenvektoren der Datenmatrix). Dazu kann zwischen verschiedenen Ähnlichkeitsmaßen gewählt werden, die jeweils die Ähnlichkeit zwischen Orten, d.h. zwischen Spaltenvektoren definieren:

  1. RIW - Relativer Identitätswert (entspricht weitgehend dem simple matching coefficient)
  2. GIW - Gewichteter Identitätswert; hier geht die Frequenz der einzelnen Taxate in die Berechnung mit ein
  3. DEM - Durchschnittliche Euklidische Distanz

Die Ergebnisse der Ähnlichkeitsberechnung, i.e. die Ähnlichkeit jedes Ortes (Variable) zu allen anderen Orten gemessen in Prozent, werden in eine Ähnlichkeitsmatrix eingetragen. Diese ist wegen der Reflexivität der in der Dialektometrie verwendeten Ähnlichkeitsmaße eine symmetrische N * N Matrix (d.h. gleiche Werte über und unter der Diagonale) mit N=Anzahl der Orte. Aus einer Datenmatrix können durch Wahl verschiedener Ähnlichkeitsmaße mehrere Ähnlichkeitsmatrizen erzeugt werden.
 

3) Numerische Klassifikation

Solchermaßen erzeugte Ähnlichkeitsmatrixen können in VDM unmittelbar visualisiert werden; im einfachsten Fall als Ähnlichkeitsprofil: Eine Zeile der Ähnlichkeitsmatrix enthält die dialektale Ähnlichkeit des Referenzorts (Beispiel nächste Abb.: Sartrouville, ALF Nr. 227, Distanzmaß RIW) zu allen andern Orten. Auf der Karte erscheinen Nachbarn mit hoher Ähnlichkeit (84-92%) Rot, weiter entfernte in Orange, Gelb usw. bis zu den weitest entfernten in Dunkelblau. Zur Segmentierung der Ähnlichkeitswerte bietet VDM 3 Segmentierungsalgorithmen an, die sich in den letzten 25 Jahren in der Dialektometrie etabliert haben – hier wird MINMWMAX verwendet mit gleicher Segmentbreite unter bzw. über dem Mittelwert.

Der Wechsel des Referenzorts durch Klick in die interaktive Karte zeigt das Ähnlichkeitsprofil eines anderen Referenzorts. So lassen sich Dialektlandschaften erforschen. Man findet große Flächen mit vielen unmittelbaren Nachbarn (z.B. die bekannte Opposition Nord-Süd, langue d'oil-langue d'oc), Enklaven mit wenigen „Freunden“ (z.B. Aosta), Übergangszonen und sogar Sprachinseln.
Darüber hinaus sind synoptische Auswertungen der Ähnlichkeitsmatrix möglich (z.B. Minimum, Maximum, Mittelwert, Sandardabweichung, Schiefe) sowie Visualisierungen mit verschiedenen Kartentypen (Ähnlichkeitsprofil - siehe oben, Isoglossenkarten, Dendrogramme der Clusteranalyse in Arbeit).


Autor: E.Haimerl