Dos

#tokenize

2 APIs avec cette balise

API N-gram

Génère des n-grammes à partir de texte, avec des comptages de fréquence — entièrement localement. Le point de terminaison ngrams décompose le texte en séquences contiguës de n jetons et renvoie chaque n-gramme distinct avec sa fréquence d'apparition, classé par fréquence : n-grammes de mots (unigrammes, bigrammes, trigrammes et au-delà) pour l'analyse de phrases et de collocations, ou n-grammes de caractères (shingles) pour la correspondance floue, la détection de langue et l'indexation. Le point de terminaison range produit toutes les tailles d'un minimum à un maximum en un seul appel (par exemple 1 à 3 grammes), ce qui est exactement ce dont vous avez besoin pour construire des vecteurs de caractéristiques. Choisissez le mode mot ou caractère, la mise en minuscule préalable, et une limite top-N pour ne conserver que les plus fréquents. La tokenisation des mots est compatible Unicode et conserve les apostrophes et traits d'union internes (don't, well-known) comme des jetons uniques. Tout s'exécute localement et de manière déterministe, donc c'est rapide et privé. Idéal pour l'exploration de texte et l'extraction de caractéristiques NLP, la modélisation du langage et l'autocomplétion, l'indexation de recherche et le shingling, la détection de plagiat et de similarité, et l'analyse de mots-clés et de collocations. Calcul local pur — pas de clé, pas de service tiers, instantané. En direct, rien n'est stocké. 3 points de terminaison. Cela produit des n-grammes et des comptages ; pour les résumés extractifs et les mots-clés, utilisez une API summarize et pour le comptage de graphèmes/caractères, utilisez une API text-segmentation.

api.oanor.com/ngram-api

API Case Detect

Détecte la convention de casse utilisée par une chaîne et divise les identifiants en leurs mots constitutifs. Le point de terminaison detect classe toute valeur comme camelCase, PascalCase, snake_case, CONSTANT_CASE, kebab-case, COBOL-CASE, Train-Case, dot.case, Title Case, Sentence case, lowercase ou UPPERCASE — ou mixed lorsqu'elle ne correspond pas — et signale le séparateur trouvé et les mots dont elle est composée. Le point de terminaison split tokenise tout identifiant en mots : il brise les bosses camelCase, gère correctement les limites des acronymes (HTTPServer → HTTP, Server ; XMLHttpRequest → XML, Http, Request), et divise sur les chiffres, les underscores, les tirets, les points et les espaces, renvoyant à la fois les jetons en casse originale et les mots en minuscules prêts à être utilisés dans un convertisseur. Idéal pour les linters et les outils de modification de code, le refactoring, les validateurs d'API et de schémas, l'autocomplétion et la recherche, et toute pipeline qui doit comprendre la dénomination des identifiants. Calcul local pur — pas de clé, pas de service tiers, instantané. En direct, rien n'est stocké. 3 points de terminaison. Cela DÉTECTE et tokenise une convention de casse ; pour CONVERTIR une chaîne entre styles de casse, utilisez une API text-case.

api.oanor.com/casedetect-api