#ngram

1 APIs met deze tag

N-gram API

Genereer n-grammen uit tekst, met frequentietellingen — volledig lokaal. Het ngrams-eindpunt splitst tekst in aaneengesloten reeksen van n tokens en retourneert elk afzonderlijk n-gram met hoe vaak het voorkomt, gerangschikt op frequentie: woord-n-grammen (unigrams, bigrams, trigrams en verder) voor frase- en collocatieanalyse, of karakter-n-grammen (shingles) voor fuzzy matching, taaldetectie en indexering. Het range-eindpunt produceert elke grootte van een minimum tot een maximum in één enkele aanroep (bijvoorbeeld 1–3 gram), wat precies is wat je nodig hebt om featurevectoren te bouwen. Kies woord- of karaktermodus, of er eerst in kleine letters moet worden omgezet, en een top-N-limiet om alleen de meest frequente te behouden. Woordtokenisatie is Unicode-bewust en behoudt interne apostroffen en koppeltekens (don't, well-known) als afzonderlijke tokens. Alles draait lokaal en deterministisch, dus het is snel en privé. Ideaal voor tekstmining en NLP-feature-extractie, taalmodellering en automatisch aanvullen, zoekindexering en shingling, plagiaat- en gelijkenisdetectie, en trefwoord- en collocatieanalyse. Pure lokale berekening — geen sleutel, geen externe dienst, onmiddellijk. Live, niets opgeslagen. 3 eindpunten. Dit produceert n-grammen en tellingen; voor extractieve samenvattingen en trefwoorden gebruik je een summarize API en voor grafeem-/karaktertelling een text-segmentation API.

api.oanor.com/ngram-api

N-gram API

Jouw cookiekeuze