Dublettensuche
Bedienung
Die Suche nach mehrfach erfaßten Personen erfolgt über den Menüpunkt
Funktionen | Dublettensuche.
Verfahren
Das Programm prüft dabei anhand eines heuristischen Verfahrens, ob es Paare
von Karteikarten findet, die sich hinsichtlich Namen, Lebensdaten, Orten,
Eltern und Ehepartnern derart ähnlich sind, daß es sich dabei um Doppelerfassungen derselben Person handeln könnte. Das Verfahren verwendet dabei nicht die exakten Namen der
in die Prüfung einbezogenen Personen sondern deren phonetisches Äquivalent,
um so auch SCHMITT Francisca und SCHMIDT Franziska als mögliche Dubletten zu
erkennen.
Auswertung der Ergebnisse
Als Ergebnis der Dublettensuche wird zum einen ein Personenverzeichnis
namens Dubletten erstellt, das alle Personen, zu denen mindestens eine
hinreichend ähnliche weitere Person im Karteikasten existiert, verzeichnet.
Für einen Dublettenfund werden somit zwei, für einen Triplettenfund drei
Personen verzeichnet, usw.
Parallel dazu wird als Auswertung eine CSV-Datei (Vorgabename DUBLETT)
generiert, die in der Reihenfolge ihres Auffindens jeweils die beiden ähnlichen
Personen hintereinander aufführt. Die Datei enthält durch Semikolons getrennt
folgende Felder:
- Laufende Nummer des Dublettenpaares in der Reihenfolge des Auffindens,
- Bewertungszahl: je höher die Bewertungszahl, desto ähnlicher sind sich beide Personen,
- Name der Person,
- Vater der Person,
- Mutter der Person,
- Ehepartner der Person.
Um das Protokoll effizient auszuwerten, gehen Sie bitte wie folgt vor:
Öffnen Sie das Protokoll mit Ihrem Tabellenkalkulationsprogramm
(z.B. Microsoft Excel oder OpenOffice Calc). Sortieren Sie darin
die Tabelle absteigend nach der Spalte 2 (Bewertungszahl).
Die Liste ist daraufhin nach absteigender Wahrscheinlichkeit für eine
tatsächliche Doppelerfassung sortiert. Sie können jetzt die Liste abarbeiten
und durch Nachprüfen der Karteikarten feststellen, ob es sich um
Dubletten handelt, die Sie dann eliminieren sollten, oder ob es sich nur um
sehr ähnliche Personen handelt. In jedem Fall sollten Sie in der Liste
Bearbeitungsvermerke anbringen. Dadurch können Sie im Falle einer späteren
erneuten Dublettenprüfung diejenigen Fälle gleich ausscheiden, die Sie
bereits in diesem Durchgang als tatsächlich nicht identisch identifiziert
haben.