N-gram
N-gram er en sekvens av ett eller flere elementer (vanligvis ord) i tekst og tale. Begrepet er mye brukt i datalingvistikk og sannsynlighetsteori. N-grammer genereres vanligvis ut fra et korpus (en avgrenset samling tekst som ofte er digitalt tilrettelagt).
Et n-gram bestående av ett ord betegnes som et "unigram", et "bigram" består av to ord og et "trigram" av tre osv.
En anvendelse av n-gram er Google Ngram Viewer der man kan søke etter ordfrekvenser og ordtrender i hele tekstkorpuset Google Books.
Eksempel
redigerOrdsekvens | 1-gram-sekvens | 2-gram-sekvens | 3-gram-sekvens |
---|---|---|---|
unigram | bigram | trigram | |
… to be or not to be … | …, to, be, or, not, to, be, … | …, to be, be or, or not, not to, to be, … | …, to be or, be or not, or not to, not to be, … |
… dette er et eksempel … | …, dette, er, et, eksempel, … | …, dette er, er et, et eksempel, … | …, dette er et, er et eksempel, … |
Eksterne lenker
redigerDenne artikkelen er en spire. Du kan hjelpe Wikipedia ved å utvide den.
Autoritetsdata