Questo strumento utilizza tecniche avanzate di analisi testuale per rilevare similitudini tra documenti. Combinando l'hashing percettivo con l'analisi semantica, è in grado di identificare potenziali casi di plagio anche quando il testo è stato leggermente modificato. Supporta l'analisi di testi in italiano e inglese, rilevando automaticamente la lingua e utilizzando dizionari di sinonimi specifici per ogni lingua.
Inserisci il testo originale e il testo da confrontare negli appositi campi. L'analizzatore escluderà automaticamente articoli, preposizioni e congiunzioni, concentrandosi sulle parole che veicolano concetti, idee e informazioni sostanziali. Il sistema calcolerà diverse metriche di similarità tra cui:
Il sistema utilizza 8 diverse metriche per analizzare la similarità tra i testi da molteplici prospettive:
d(x,y) = |{i : xi ≠ yi}|
Confronta gli hash percettivi dei testi. Una distanza bassa indica forte somiglianza strutturale. Range: 0 (identici) → ∞ (diversi)
J(A,B) = |A ∩ B| / |A ∪ B|
Misura le parole condivise tra i testi. Valori >0.7 indicano forte sovrapposizione lessicale. Range: 0-1 (0=nessuna parola comune, 1=identici)
cos(θ) = (A·B) / (||A|| · ||B||)
Considera la frequenza delle parole. Robusta per identificare plagio con parafrasi. Range: 0-1 (1=distribuzioni identiche)
D(A,B) = 2|A ∩ B| / (|A| + |B|)
Simile a Jaccard ma dà maggior peso all'intersezione. Più sensibile nel rilevare sovrapposizioni parziali e parafrasamenti. Range: 0-1
TF-IDF(t,d) = tf(t,d) × idf(t)
Pesa l'importanza delle parole nel contesto. Efficace per plagio di contenuti specialistici dove termini tecnici sono riutilizzati. Range: 0-1
Sem(A,B) = |A ∩sem B| / |A ∪sem B|
Usa thesaurus italiano per riconoscere sinonimi. Rileva parafrasamenti intelligenti. Range: 0-1
Struct(T1,T2) = f(frasi, lunghezza, ritmo)
Analizza organizzazione del testo: frasi, lunghezza, distribuzione. Identifica stessa struttura con parole diverse. Range: 0-1
NGram(A,B) = Bigram ∩ Trigram
Confronta sequenze di 2-3 parole. Rileva frasi copiate o leggermente modificate. Range: 0-1
L'algoritmo utilizza un approccio multi-livello che combina analisi lessicale, semantica e strutturale per identificare il plagio anche in testi parafrasati.
I testi vengono normalizzati (minuscolo, rimozione punteggiatura) e filtrati eliminando le stop words italiane (articoli, preposizioni, congiunzioni, verbi ausiliari). Rimangono solo le parole di contenuto con significato sostanziale.
Hash percettivo: Genera un'impronta digitale del testo usando n-grammi di caratteri, resistente a piccole modifiche ma sensibile alla struttura generale.
Thesaurus italiano: Il sistema integra un dizionario di sinonimi per riconoscere parafrasamenti intelligenti. Ad esempio, identifica che "gatto" e "felino" sono sinonimi, permettendo di rilevare plagio anche quando le parole sono state sostituite con sinonimi.
Il sistema utilizza un algoritmo di ponderazione dinamica che adatta i pesi delle metriche in base alle caratteristiche dei testi:
Condizione rilevata | Adattamento algoritmo |
---|---|
Molti sinonimi trovati (>15%) | Aumenta peso similarità semantica |
Alta similarità strutturale (>80%) | Aumenta peso struttura fino al 40% |
Nessuna parola in comune | Limita punteggio massimo al 30% |
Parafrasamento evidente | Formula speciale con enfasi su struttura e sinonimi |
L'algoritmo è ottimizzato per rilevare sia copia-incolla diretti che parafrasamenti sofisticati, bilanciando precisione e sensibilità per minimizzare falsi positivi e falsi negativi.
Questo strumento è pensato come supporto per l'analisi del plagio e non sostituisce il giudizio umano. I risultati forniscono indicazioni sulla similarità tra i testi, ma è consigliabile una valutazione esperta per determinare l'effettiva presenza di plagio, specialmente in contesti accademici o legali.
Analisi del plagio in corso...
Similarità dell'Hash (Hamming)
Similarità di Jaccard
Similarità del Coseno
Parole di contenuto nel testo originale | 0 |
Parole di contenuto nel testo confrontato | 0 |
Parole di contenuto in comune | 0 |
Percentuale di parole in comune | 0% |
Hash del testo originale | - |
Hash del testo confrontato | - |
Distanza di Hamming | 0 |