/*Google Analytics*/

Controllo del testo: studio e implementazione dell’algoritmo nella piattaforma Tipics

21 Gen 2020 | Turismo

Quando ci troviamo di fronte a piattaforme come Tipics che consentono il caricamento di testi a diverse tipologie di utenti, è necessario prevedere una forma di controllo.
Dopo un attento studio, abbiamo sviluppato un algoritmo di analisi che, attraverso una ricerca per parole chiave inserite in una lista ad hoc di termini illeciti, individua contenuti non consentiti. Il controllo avviene perciò attraverso un sistema di parsing del testo che filtra contenuti non adatti.
La funzione implementata si attiva ogni volta che l’utente inserisce il contenuto nel backend e ne richiede la pubblicazione. Il flusso del processo viene bloccato dallo script della funzione, che rimane in attesa e viene perciò sbloccato solo in caso di esito negativo della ricerca di termini non consentiti.
In caso di esito positivo, cioè di riscontro di termini non consentiti, il contenuto viene bloccato nello stato di Bozza.

Com’è stato sviluppato il sistema di controllo?

Il primo passo ha riguardato la definizione di un vocabolario dei termini non consentiti, all’interno del quale sono stati introdotti tutti i termini che – risultando offensivi – non possono essere presenti all’interno dei testi.
A seguire, è stata definita la modalità di preprocessamento del testo inserito, che viene perciò reso idoneo alla ricerca stessa dei termini non consentiti. Poiché alcune librerie non riconoscono due stringhe come uguali se scritte in maiuscolo e/o minuscolo, si è deciso di favorire l’implementazione e il funzionamento del modulo di ricerca attraverso la trasformazione del testo in tutte lettere minuscole. Il testo viene poi inserito in vettore (array) di stringhe: il vettore diventa, scorrendo, la base dei dati oggetti di confronto. Una volta che il testo è stato preprocessato e inserito nel vettore, si procede con la ricerca nel testo dei termini non consentiti. Questa consiste nel confronto ricorsivo tra tutte le celle del vettore e il dizionario dei termini non consentiti. Ogni occorrenza rilevata viene inserita in un ulteriore vettore: se al termine della ricerca il vettore ha un indice superiore a 0, il contenuto viene segnalato come inopportuno e bloccato.

Controllo del testo: quale possibile evoluzione?

L’efficacia del sistema di controllo del testo potrà essere migliorata, pur nello stesso algoritmo, attraverso lo sviluppo di sistemi di lemmatizzazione. Per lemmatizzazione si intende in processo di riduzione delle singole parole che ricorrono in un testo alla loro forma base, detta appunto lemma.
Nell’elaborazione del linguaggio naturale, la lemmatizzazione è il processo algoritmico che determina automaticamente il lemma di una forma flessa. L’applicazione di questo sistema a tecniche di autoapprendimento e intelligenza artificiale consentirebbe non solo di individuare parole e forme non consentite, ma anche di comprendere il senso del contenuto inserito e valutarne la coerenza con l’argomento trattato.

Potrebbe interessarti

Share This