Zurück

#deduplication

4 APIs mit diesem Tag

Soundex & Fuzzy Match API

Phonetische und unscharfe String-Matching-Mathematik als API, lokal und deterministisch berechnet. Der Soundex-Endpunkt berechnet den amerikanischen Soundex-Code eines Wortes – den ersten Buchstaben gefolgt von drei Ziffern, die seine Konsonantenlaute kodieren, unter Ignorierung von Groß-/Kleinschreibung und Nicht-Buchstaben sowie Anwendung der Vokalzurücksetzungs- und benachbarten Duplikatregeln – sodass Robert und Rupert beide zu R163 kodieren, Smith und Smyth zu S530, und die klassischen kniffligen Fälle Ashcraft (A261), Tymczak (T522) und Pfister (P236) korrekt ausgegeben werden. Der Levenshtein-Endpunkt berechnet die Editierdistanz zwischen zwei Zeichenfolgen (die minimale Anzahl von Einfügungen, Löschungen und Ersetzungen, optional groß-/kleinschreibungssensitiv) und eine Ähnlichkeit von 0–100 %, sodass kitten → sitting drei Änderungen und etwa 57 % Ähnlichkeit ergibt. Der Compare-Endpunkt kombiniert beides: Er meldet, ob zwei Zeichenfolgen denselben Soundex-Code teilen (gleich klingen) und ihre Levenshtein-Ähnlichkeit (gleich geschrieben), und kennzeichnet eine wahrscheinliche Übereinstimmung, wenn die Codes übereinstimmen oder die Ähnlichkeit mindestens 80 % beträgt. Alles wird lokal und deterministisch berechnet, daher ist es sofort und privat. Ideal für Daten-Deduplizierung, CRM, Fuzzy-Suche, Autovervollständigung, Genealogie und Datenbereinigungs-App-Entwickler, Namensabgleichs- und Datensatzverknüpfungstools sowie Suchsoftware. Reine lokale Berechnung – kein Schlüssel, kein Drittanbieterdienst, sofort. Live, nichts gespeichert. 3 Endpunkte. Dies ist phonetisches und Editierdistanz-Matching; für Volltextsuche verwenden Sie eine Such-API.

api.oanor.com/soundex-api

URL Canonicalize API

Normalisieren Sie URLs in eine kanonische Form, um sie zu deduplizieren, zu vergleichen und zu bereinigen. Der Canonicalize-Endpunkt wandelt Schema und Host in Kleinbuchstaben um, entfernt den Standardport (80 für http, 443 für https), löst ./ und ../ Pfadsegmente auf und korrigiert die Prozentkodierung mit dem standardmäßigen WHATWG URL-Parser. Anschließend wendet er die von Ihnen gewählten Bereinigungen an: Entfernen von Marketing- und Analyse-Tracking-Parametern (alle utm_* sowie gclid, fbclid, msclkid, yclid, mc_eid und viele mehr), Sortieren der verbleibenden Abfrageparameter in eine stabile Reihenfolge, optionales Entfernen des #fragments und Hinzufügen oder Entfernen des abschließenden Schrägstrichs. Er gibt die kanonische URL, die vollständig geparsten Komponenten und die genaue Liste der vorgenommenen Änderungen zurück. Der Compare-Endpunkt kanonisiert zwei URLs und teilt Ihnen mit, ob sie auf dieselbe Ressource verweisen – perfekt zum Erkennen doppelter Links, die sich nur durch Tracking-Codes, Groß-/Kleinschreibung, Port oder Parameterreihenfolge unterscheiden. Alles wird lokal ohne Netzwerkaufrufe berechnet, daher ist es sofort, privat und sicher. Ideal für Crawler und SEO-Tools, Link-Deduplizierung und -Analyse, Cache-Schlüssel, Lesezeichen und Content-Pipelines. Reine lokale Berechnung – kein Schlüssel, kein Drittanbieter-Dienst, sofort. Live, nichts wird gespeichert. 3 Endpunkte. Dies kanonisiert die URL-Zeichenfolge; es ruft sie nicht ab und folgt keinen Weiterleitungen – für Link-Vorschauen und das Auflösen von Kurz-URLs verwenden Sie eine URL-Unfurl-API.

api.oanor.com/urlcanon-api

E-Mail-Normalisierungs-API

Kanonisieren Sie E-Mail-Adressen, um Konten zu deduplizieren und verschiedene Aliase desselben Posteingangs zu erkennen. Der Normalisierungs-Endpunkt wandelt die Adresse in Kleinbuchstaben um und wendet anbieterabhängige Regeln an: Er entfernt Punkte aus dem lokalen Teil von Gmail und Googlemail (da Gmail diese ignoriert) und ordnet googlemail.com gmail.com zu, entfernt +Tag-Subadressierung für Gmail und die vielen Anbieter, die dies unterstützen – Outlook, Hotmail, Live, iCloud, Fastmail, Proton, Yandex, Zoho, GMX und mehr – und standardmäßig für jede Domain, sodass Duplikate nie durchrutschen, während genau gemeldet wird, welche Änderungen vorgenommen wurden und welcher Anbieter erkannt wurde. Der Vergleichs-Endpunkt normalisiert zwei Adressen und teilt Ihnen mit, ob sie zum selben Postfach führen. Alles wird lokal und deterministisch berechnet, ohne DNS- oder Netzwerkaufrufe, daher ist es sofort und privat. Ideal für die Deduplizierung bei Anmeldung und Registrierung, Betrugs- und Missbrauchsprävention (eine Person, viele Aliase), CRM- und Mailinglisten-Hygiene sowie Zusammenführung von Kundenaufzeichnungen. Reine lokale Berechnung – kein Schlüssel, kein Drittanbieterdienst, sofort. Live, nichts wird gespeichert. 3 Endpunkte. Dies normalisiert Adressen für den Vergleich; um zu überprüfen, ob eine Adresse tatsächlich existiert und E-Mails empfangen kann (MX, Wegwerf-, Rollen-Konten), verwenden Sie eine E-Mail-Verifizierungs-API.

api.oanor.com/emailnormalize-api

Perceptual Image Hash API

Fingerabdruck-Bilder für die Erkennung von nahezu Duplikaten und Ähnlichkeit. Berechnen Sie die drei klassischen Perceptual Hashes — aHash (Durchschnitt), dHash (Differenz) und pHash (DCT-basiert) — als 64-Bit-Hex-Werte für jedes Bild (per URL oder base64), vergleichen Sie dann zwei Bilder, um die Hamming-Distanz und einen Ähnlichkeitswert von 0-100 pro Algorithmus zu erhalten, mit einem Flag für wahrscheinlich gleich. Im Gegensatz zu einem kryptografischen Hash bleiben Perceptual Hashes nahe beieinander, wenn Bilder skaliert, neu komprimiert oder leicht bearbeitet werden — so können Sie Duplikate erkennen, erneute Uploads finden, ähnliche Bilder gruppieren und eine umgekehrte Bildsuche betreiben. Vollständig lokal (kein Drittanbieter-Dienst), nichts wird gespeichert. Unterstützt PNG, JPEG, BMP, TIFF und GIF. Live. 3 Endpunkte. Unterscheidet sich von grundlegenden Bildinfo-/Größenänderungs- und String-Ähnlichkeitswerkzeugen.

api.oanor.com/imghash-api