Analizzatore avanzato di plagio basato su hashing percettivo

Questo strumento utilizza tecniche avanzate di analisi testuale per rilevare similitudini tra documenti. Combinando l'hashing percettivo con l'analisi semantica, è in grado di identificare potenziali casi di plagio anche quando il testo è stato leggermente modificato. Supporta l'analisi di testi in italiano e inglese, rilevando automaticamente la lingua e utilizzando dizionari di sinonimi specifici per ogni lingua.

Testo Originale

0 parole di contenuto

Testo da Confrontare

0 parole di contenuto

Analisi del plagio in corso...

❌

Risultati dell'Analisi

Indicatore di plagio

0%

Similarità dell'Hash (Hamming)

0%

Similarità di Jaccard

0%

Similarità del Coseno

Statistiche

Parole di contenuto nel testo originale	0
Parole di contenuto nel testo confrontato	0
Parole di contenuto in comune	0
Percentuale di parole in comune	0%

Hash Percettivi

Hash del testo originale	-
Hash del testo confrontato	-
Distanza di Hamming	0

Parole di contenuto in comune

Inserisci il testo originale e il testo da confrontare negli appositi campi. L'analizzatore escluderà automaticamente articoli, preposizioni e congiunzioni, concentrandosi sulle parole che veicolano concetti, idee e informazioni sostanziali. Il sistema calcolerà diverse metriche di similarità tra cui:

Metriche di similarità utilizzate

Il sistema utilizza 8 diverse metriche per analizzare la similarità tra i testi da molteplici prospettive:

Distanza di Hamming

d(x,y) = |{i : x_i ≠ y_i}|

Confronta gli hash percettivi dei testi. Una distanza bassa indica forte somiglianza strutturale. Range: 0 (identici) → ∞ (diversi)

Similarità di Jaccard

J(A,B) = |A ∩ B| / |A ∪ B|

Misura le parole condivise tra i testi. Valori >0.7 indicano forte sovrapposizione lessicale. Range: 0-1 (0=nessuna parola comune, 1=identici)

Similarità del Coseno

cos(θ) = (A·B) / (||A|| · ||B||)

Considera la frequenza delle parole. Robusta per identificare plagio con parafrasi. Range: 0-1 (1=distribuzioni identiche)

Similarità di Sørensen-Dice

D(A,B) = 2|A ∩ B| / (|A| + |B|)

Simile a Jaccard ma dà maggior peso all'intersezione. Più sensibile nel rilevare sovrapposizioni parziali e parafrasamenti. Range: 0-1

Similarità TF-IDF Coseno

TF-IDF(t,d) = tf(t,d) × idf(t)

Pesa l'importanza delle parole nel contesto. Efficace per plagio di contenuti specialistici dove termini tecnici sono riutilizzati. Range: 0-1

Similarità Semantica

cos_sim(embed(A), embed(B))

Usa il modello neurale XLM-RoBERTa (stsb-xlm-r-multilingual) per calcolare la similarità semantica profonda tra i testi. Rileva parafrasamenti anche con vocabolario completamente diverso. Range: 0-1

Similarità Strutturale

Struct(T1,T2) = f(frasi, lunghezza, ritmo)

Analizza organizzazione del testo: frasi, lunghezza, distribuzione. Identifica stessa struttura con parole diverse. Range: 0-1

Similarità N-grammi

NGram(A,B) = Bigram ∩ Trigram

Confronta sequenze di 2-3 parole. Rileva frasi copiate o leggermente modificate. Range: 0-1

ℹ️ Come vengono combinate le metriche: L'algoritmo utilizza una ponderazione dinamica che si adatta alle caratteristiche dei testi analizzati, dando maggior peso alle metriche più rilevanti per il tipo di plagio rilevato.

Come funziona l'algoritmo di rilevamento del plagio

L'algoritmo utilizza un approccio multi-livello che combina analisi lessicale, semantica e strutturale per identificare il plagio anche in testi parafrasati.

I testi vengono normalizzati (minuscolo, rimozione punteggiatura) e filtrati eliminando le stop words italiane (articoli, preposizioni, congiunzioni, verbi ausiliari). Rimangono solo le parole di contenuto con significato sostanziale.

ℹ️ Il sistema utilizza una lista estesa di oltre 200 stop words italiane per un'analisi più precisa.

Hash percettivo: Genera un'impronta digitale del testo usando n-grammi di caratteri, resistente a piccole modifiche ma sensibile alla struttura generale.

Embedding neurale (XLM-RoBERTa): Il sistema utilizza il modello stsb-xlm-r-multilingual per calcolare la similarità semantica profonda. A differenza del thesaurus, comprende il significato complessivo delle frasi e rileva parafrasi anche quando non viene riutilizzata nessuna parola dell'originale.

Metriche tradizionali:

✅ Hamming: Somiglianza degli hash
✅ Jaccard: Parole in comune
✅ Coseno: Distribuzione parole
✅ Dice: Enfasi sull'intersezione
✅ TF-IDF: Peso semantico termini

Metriche avanzate:

✅ Semantica: Embedding neurale XLM-RoBERTa
✅ Strutturale: Organizzazione testo
✅ N-grammi: Sequenze di parole

Il sistema utilizza un algoritmo di ponderazione dinamica che adatta i pesi delle metriche in base alle caratteristiche dei testi:

Condizione rilevata	Adattamento algoritmo
Molti sinonimi trovati (>15%)	Aumenta peso similarità semantica
Alta similarità strutturale (>80%)	Aumenta peso struttura fino al 40%
Nessuna parola in comune	Limita punteggio massimo al 30%
Parafrasamento evidente	Formula speciale con enfasi su struttura e sinonimi

Controlli di sicurezza: Se non ci sono parole in comune né sinonimi, il punteggio è limitato automaticamente, evitando falsi positivi basati solo sulla struttura.

Scala di valutazione finale:

< 20%

Nessun plagio

20-40%

Basso rischio

40-60%

Sospetto

60-80%

Alto rischio

≥ 80%

Quasi certo

💡 L'algoritmo è ottimizzato per rilevare sia copia-incolla diretti che parafrasamenti sofisticati, bilanciando precisione e sensibilità per minimizzare falsi positivi e falsi negativi.

Questo strumento è pensato come supporto per l'analisi del plagio e non sostituisce il giudizio umano. I risultati forniscono indicazioni sulla similarità tra i testi, ma è consigliabile una valutazione esperta per determinare l'effettiva presenza di plagio, specialmente in contesti accademici o legali.

Rilevamento plagio con Hashing Percettivo

Analizzatore avanzato di plagio basato su hashing percettivo

Testo Originale

Testo da Confrontare

Risultati dell'Analisi

Indicatore di plagio

0%

0%

0%

Statistiche

Hash Percettivi

Parole di contenuto in comune

Metriche di similarità utilizzate

📈 Metriche tradizionali di confronto testuale

Distanza di Hamming

Similarità di Jaccard

Similarità del Coseno

📊 Metriche avanzate di analisi statistica

Similarità di Sørensen-Dice

Similarità TF-IDF Coseno

🧠 Metriche semantiche e strutturali (AI-powered)

Similarità Semantica

Similarità Strutturale

Similarità N-grammi

Come funziona l'algoritmo di rilevamento del plagio

1-2 Preprocessing ed estrazione parole significative

3 Hash percettivi e analisi semantica con embedding neurali

4 Calcolo di 8 metriche di similarità

Metriche tradizionali:

Metriche avanzate:

5 Valutazione intelligente del plagio

Scala di valutazione finale: