#tokenize

2 API με αυτήν την ετικέτα

N-gram API

Δημιουργήστε n-γράμματα από κείμενο, με μετρήσεις συχνότητας — εξ ολοκλήρου τοπικά. Το τελικό σημείο ngrams αναλύει το κείμενο σε συνεχόμενες ακολουθίες n διακριτικών και επιστρέφει κάθε ξεχωριστό n-γραμμα με το πόσο συχνά εμφανίζεται, ταξινομημένο κατά συχνότητα: λεκτικά n-γράμματα (unigrams, bigrams, trigrams και πέραν αυτών) για ανάλυση φράσεων και συνεμφανίσεων, ή χαρακτηριστικά n-γράμματα (shingles) για ασαφή αντιστοίχιση, ανίχνευση γλώσσας και ευρετηρίαση. Το τελικό σημείο range παράγει κάθε μέγεθος από ένα ελάχιστο έως ένα μέγιστο σε μία μόνο κλήση (για παράδειγμα 1–3 γράμματα), που είναι ακριβώς αυτό που χρειάζεστε για να δημιουργήσετε διανύσματα χαρακτηριστικών. Επιλέξτε λειτουργία λέξης ή χαρακτήρα, αν θα γίνει πρώτα μετατροπή σε πεζά, και ένα όριο top-N για να κρατήσετε μόνο τα πιο συχνά. Η λεκτική τοκενοποίηση είναι Unicode-aware και διατηρεί εσωτερικές αποστρόφους και παύλες (don't, well-known) ως μεμονωμένα διακριτικά. Όλα εκτελούνται τοπικά και ντετερμινιστικά, επομένως είναι γρήγορα και ιδιωτικά. Ιδανικό για εξόρυξη κειμένου και εξαγωγή χαρακτηριστικών NLP, μοντελοποίηση γλώσσας και αυτόματη συμπλήρωση, ευρετηρίαση αναζήτησης και shingling, ανίχνευση λογοκλοπής και ομοιότητας, και ανάλυση λέξεων-κλειδιών και συνεμφανίσεων. Καθαρός τοπικός υπολογισμός — χωρίς κλειδί, χωρίς υπηρεσία τρίτου μέρους, άμεσος. Ζωντανό, τίποτα δεν αποθηκεύεται. 3 τελικά σημεία. Αυτό παράγει n-γράμματα και μετρήσεις· για περιληπτικές περιλήψεις και λέξεις-κλειδιά χρησιμοποιήστε ένα summarize API και για μέτρηση γραφημάτων/χαρακτήρων χρησιμοποιήστε ένα text-segmentation API.

api.oanor.com/ngram-api

Case Detect API

Ανιχνεύει ποια σύμβαση πεζών-κεφαλαίων χρησιμοποιεί μια συμβολοσειρά και διαχωρίζει τα αναγνωριστικά στις λέξεις που τα αποτελούν. Το τελικό σημείο detect ταξινομεί οποιαδήποτε τιμή ως camelCase, PascalCase, snake_case, CONSTANT_CASE, kebab-case, COBOL-CASE, Train-Case, dot.case, Title Case, Sentence case, lowercase ή UPPERCASE — ή mixed όταν δεν ταιριάζει — και αναφέρει το διαχωριστικό που βρήκε και τις λέξεις από τις οποίες αποτελείται. Το τελικό σημείο split μετατρέπει οποιοδήποτε αναγνωριστικό σε λέξεις: σπάει τις καμπούρες camelCase, χειρίζεται σωστά τα όρια ακρωνυμίων (HTTPServer → HTTP, Server; XMLHttpRequest → XML, Http, Request) και διαχωρίζει σε ψηφία, κάτω παύλες, παύλες, τελείες και κενά, επιστρέφοντας τόσο τα διακριτικά στην αρχική τους περίπτωση όσο και λέξεις σε πεζά, έτοιμες να τροφοδοτηθούν σε έναν μετατροπέα. Ιδανικό για linters και εργαλεία τροποποίησης κώδικα, ανακατασκευή, επικυρωτές API και σχήματος, αυτόματη συμπλήρωση και αναζήτηση, και οποιαδήποτε γραμμή επεξεργασίας χρειάζεται να κατανοήσει την ονομασία αναγνωριστικών. Καθαρός τοπικός υπολογισμός — χωρίς κλειδί, χωρίς υπηρεσία τρίτου, άμεσος. Ζωντανό, τίποτα δεν αποθηκεύεται. 3 τελικά σημεία. Αυτό ΑΝΙΧΝΕΥΕΙ και μετατρέπει σε διακριτικά μια σύμβαση πεζών-κεφαλαίων· για να ΜΕΤΑΤΡΕΨΕΤΕ μια συμβολοσειρά μεταξύ στυλ πεζών-κεφαλαίων χρησιμοποιήστε ένα API text-case.

api.oanor.com/casedetect-api

N-gram API

Case Detect API

Οι επιλογές σου για τα cookies