Ähnlichkeitsmaße

Relativer Identitätswert (RIW) - für nominal skalierte Daten

Maß für die Ähnlichkeit (Similarität) zwischen den Meßpunktvektoren j und k. Liegt zwischen 0 und 100. (Goebl 1982,23; Goebl 1984, 76, besonders detailliert in Goebl 1994, 79). Nach dem adansonistischen (oder isokratischen) Prinzip werden alle Merkmale gleich behandelt.

 

Term

Beschreibung

Koidentität zwischen den Meßpunktvektoren j und k (vertikal) im i-ten Merkmalsvektor (horizontal)
Kodifferenz zwischen den Meßpunktvektoren j und k (vertikal) im i-ten Merkmalsvektor (horizontal)
i Index im Ortsvektor (=Zeile der Matrix)
j Index des Vergleichsvektors
k Index des Bezugs-Ortsvektors

Gewichteter Identitätswert (GIW) - für nominal skalierte Daten

Maß für die Ähnlichkeit (Similarität) zwischen den Meßpunktvektoren j und k. Liegt zwischen 0% und 100%. Im Unterschied zum RIW wird die Häufigkeit der Taxate berücksichtigt (Goebl 1982,23; Goebl 1984, 76, komplett mit allen Details in Goebl 1998, 982f.).

Term

Beschreibung

Koidentität zwischen den Meßpunktvektoren j und k (vertikal) im i-ten Merkmalsvektor (horizontal)

Frequenz des Taxats, das in den Meßpunktvektoren j und k im i-ten Merkmalsvektor gemeinsam ist.

w

Gewicht; w=1 ist max. Gewichtung; w = 1000 ist min. Gewichtung. Default-Wert ist 1.

ni

Anzahl der nulleintragsfreien Meßpunkte in der Zeile i

 

Euklidische Distanz (DEM) - für metrisch skalierte Daten

Standardversion

Lit.:

Für die Anforderungen der Dialektometrie modifizierte Version (DEM)

Die euklidische Distanz wird auf Daten auf Intervall-Skalenniveau angewendet; es werden euklidische Abstände zwischen Vektoren errechnet. Eine Datenmatrix auf ursprünglich nominalem Skalenniveau muß zuerst folgendermaßen in eine Datenmatrix auf Ordinalskalenniveau umgerechnet werden.

  1. Metrisieren der Matrix: Jeder Wert im Ortsvektor wird durch "Frequenz des Taxats / nulleintragsfreie Werte" im Merkmalsvektor ersetzt (vgl. Goebl 98, 984)
  2. (m_nArrayNullFrei[nRow]) wird für alle Ortsvektoren einmal ausgezählt
  3. Euklidische Distanz der metrisierten Matrix, relativiert über die Anzahl der berücksichtigten Merkmale (=nullfreie Merkmale, p-Schlange) -> dadurch entsteht eine Ähnlichkeitsmatrix:

Term
Beschreibung

Wert in Zeile i des Ortsvektors der metrisierten Datenmatrix

Wert in Zeile i des Vergleichsortvektors der metrisierten Datenmatrix

quadrierter Euklidischer Abstand

DEM(x,Y)

Abstand zwischen Ortsvektor X und Vergleichsvektor Y

Anzahl der nulleintragsfreien Meßpunkte in Zeile i der Ortsvektoren X und Y

Wenn intervall skalierte Daten mit "DEM (ohne Metrisierung)" berechnet werden, sollten sie erst normiert werden, sonst entstehen bei der Umwandlung in eine Ähnlichkeitsmatrix z.Teil neg. Werte.

Lit.: Bock, H.H. 1974 , 37 (3.2)

Unterschiede zwischen Standardversion und DEM:

Lit.: Bock, H.H. 1974, 35 (3.1)

Durchschnittliche Manhatten Metrik (DMM) - für numerische Daten

Standardversion der Manhatten Metrik

Der wichtigste Unterschied zum Euklidischen Abstand ist, daß die einzelnen Differenzen nicht quadriert werden. Durch die Quadrierung gehen große Differenzen stärker in die Abstandsberechnung ein als kleine.

Lit.: Bock, H.H. 1974, Kap 3.7

Für die Anforderungen der Dialektometrie modifizierte Version (DMM)

Eine Datenmatrix auf nominalem Skalenniveau muß zuerst mit folgenden Schritten in eine Datenmatrix im Ordinalskalenniveau umgerechnet werden.

  1. Metrisieren der Matrix: Jeder Wert im Ortsvektor wird durch "Frequenz des Taxats / nulleintragsfreie Werte" im Merkmalsvektor ersetzt (vgl. Goebl 98, 984)
  2. (m_nArrayNullFrei[nRow]) wird für alle Ortsvektoren einmal ausgezählt
  3. Durchschnittliche Manhatten-Distanz der metrisierten Matrix, relativiert über die Anzahl der berücksichtigten Merkmale (=nullfreie Merkmale, p-Schlange) -> dadurch entsteht eine Ähnlichkeitsmatrix mit.
  4. Term
    Beschreibung

    Wert in Zeile i des Ortsvektors der metrisierten Datenmatrix

    Wert in Zeile i des Vergleichs-Ortsvektors der metrisierten Datenmatrix

    DMM(x,Y)

    Durchschnittlicher Manhatten-Abstand zwischen Ortsvektor X und Vergleichs-Ortvektor Y

    Anzahl der nulleintragsfreien Meßpunkte in Zeile i der Ortsvektoren X und Y

    Literatur: Goebl 1998, ###

Allgemeine Minkowski Metrik

Dieses Maß wird hier als Verallgemeinerung der oben genannten Maße aufgeführt: r=1 entspricht DMM; r=2 entspricht DEM.

Lit. Bock, H.H. 1974

GSÄW - Gewichtender subjektiver Ähnlichkeitswert - für ordinal skalierte Daten

Dieses Ähnlichkeitsmaß wird z.B. für die Auswertung von mental maps verwendet. Die Daten liegen als gestufte Werte subjektiven Ähnlichkeitsempfindens vor. Das Maß gewichtet die Übereinstimmung bei hoch eingeschätzer Ähnlichkeit höher, als Übereinstimmungen niedrig eingeschätzter Ähnlichkeit.

Term
Beschreibung

j, k

Ort j wird mit Ort k verglichen, i.e. j-ter und k-ter Spaltenvektor

Anzahl der nulleintragsfreien Meßpunkte in Zeile i der Ortsvektoren
gewichtete Kopräsenz der Perzeptionsgrade. Wird für Perzeptionsgrad x von n möglichen Perzeptionsgraden mit errechnet. Eine tabellarische Übersicht dieser Funktion findet sich in Lit. Goebl 1993, 90.
ungewichtete Kopräsenz der Perzeptionsgrade; entspricht Anzahl der nulleintragsfreien Meßpunkte.

 

Lit. Goebl 1993

RKM - relatives Kohärenzmittel

Wird für die Bestimmung der Stabilität von Teilkorpora verwendet. Das RKM eines Ortes ist der Mittelwert der metrisierten Werte des Ortsvektors, i.e. einer Spalte der Datenmatrix.

Könnte auch als Ähnlichkeitmaß für Synopsekarten verwendet werden, allerdings sind die Ergebnisse sehr ähnlich der Synopsekarte der Mittelwerte (Begründung bei Goebl 1984, 179). Das Vorgehen zur Bestimmung der Stabilität von Teilkorpora ist auf einer extra Seite beschrieben.

PMK - Bravais-Pearson Produkt-Moment Korrelationskoeffizient - für min. intervallskalierte Daten

Korrelationskoeffizient nach Bravais-Pearson: Die Funktion berechnet die lineare Abhängigkeit der Ortvektoren X und Y mit ihren einzelnen Werten xi bzw. yi.

Die Korrelationsrechnung dient dazu, die Stärke des Zusammenhangs zwischen zwei Ortvektoren (X und Y mit ihren einzelnen Werten xi bzw. yi) in einer einzigen statistischen Maßzahl zum Ausdruck zu bringen. r ist eine dimensionslose Größe.
Voraussetzung für die Anwendung des Korrelationskoeffizienten von Bravais-Pearson sind mindestens intervallskalierte Daten. Deshalb kann diese Ähnlichkeitsmaß nicht für Projekte mit nominalem Skalenniveau verwendet werden. Eine sehr verständliche Erklärung ist bei http://vs.fernuni-hagen.de/Lernstats/LS/Frames/07_FRAME.html zu finden.


oder

Term
Beschreibung

cov (x,y)

Kovarianz zwischen X und Y: Jede der Maßzahlen eines Meßwertpaares weicht mehr oder weniger von ihrem jeweiligen Durchschnitt ab.
Die Summe über alle Abweichungsprodukte ist ein Maß für den Grad des miteinander Variierens oder Kovariierens der Variablen X und Y. Der Mittelwert dieser Summe der Abweichungsprodukte wird als Kovarianz bezeichnet.
var(x) Varianz von X (Varianz ist Quadrat der Standardarbweichung einer Gesamtheit, nicht Standardabweichung einer Stichprobe)
var(y) Varianz von Y


Interpretation von r

Der Korrelationskoeffizient von Bravais-Pearson nimmt nur Werte zwischen -1 und +1 an.

r=-1 maximaler reziproker Zusammenhang, d.h. mit sehr hoher Wahrscheinlichkeit nehmen die Y-Werte tendenziell ab, wenn die Werte der Variablen X zunehmen

r=0 kein Zusammenhang zwischen X und Y

r=+1 maximaler gleichgerichteter Zusammenhang, d.h. mit sehr hoher Wahrscheinlichkeit nehmen die Werte der Variablen Y tendenziell zu, wenn die X-Werte zunehmen.

Für die Berechnung in VDM wird folgende Formel verwendet (aus Umformung lt. Spiegel. 1990. 315):

Rand Maß

Maß für die Ähnlichkeit zweier Partitionen. Wertebereich von 0 (keine gemeinsamen Paare in den beiden Partitionen) bis 1 (alle Paare in beiden Partitionen in den gleichen Gruppen). Das Rand Maß wird bei der Bestimmung der Clusterstabilität verwendet.

 

Term
Beschreibung

a

Anzahl der Paare (i, i'), die in den beiden Partitionen P und P' in der gleichen Gruppe sind
d Anzahl der Paare (i, i'), die in den beiden Partitionen P und P' in verschiedenen Gruppen sind
N Gesamtzahl der Paare

Das Randmaß kann interpretiert werden als die "Wahrscheinlichkeit dafür, daß zwei zufällig gezogene Beobachtungen i und i' sowohl in P als auch in P' einer Klasse angehören" (Mucha 1992, 156) bzw. in beiden Partitionen in verschiedene Klassen eingeteilt werden.

modifziertes Rand Maß

Das Rand Maß ist abhängig von der Klassenanzahl. Wird das Rand Maß bezüglich der Erwartungswerte korrigiert, kommt man zum modifizierten Rand Maß, das unabhängig von der Klassenanzahl ist (Mucha 1992, 157).

 


Autor: E.Haimerl