Truncation

Cutting-off letters (or other symbols) from words during computer-based information-retrieval. Letters may be cut off in the beginning of a word (left-truncating) or in the end of a word (right truncation). (Cutting letters out in the middle of a word is termed masking). Right truncation is the most used form of truncation. Truncation is also used in notations.

 

Truncation is sometimes performed automatically, but normally a specific command have to be applied. Different databases use different symbols for the truncation facility, for example, ?, #, $, which have been suggested standardized in CCL.

 

Truncation can not normally substitute lemmatization, that is finding the normalized form of a word, its "lemma" or base form (cf., word).

 


 


See also: Masking; stemming; word

 

 

 

Birger Hjørland

Last edited: 01-05-2006

Home

 

 

to be edited:

Facilitet i *Information retrieval. Udeladelse af tegn fra søgeords slutning eller begyndelse. Udeladelse af bogstaver eller andre tegn fra et søgeords slutning betegnes højretrunkering og er den almindeligste form. 

I systemer byggende på inverterede filer er venstretrunkering meget lagerkræven­de og anvendes derfor sjældent. Forskellige sprog har forskellige behov m.h.t. trunkering. På engelsk klarer man sig ofte fint med højretrunkering, fordi højretrunkering f.eks. sammenfatter f.eks. flertalsbøjninger i een form. På tysk har man mange sammensatte ord, og derfor større behov for venstretrunkering.

Eksempel: Der søges på $skole$ (d.v.s. såvel højre- som venstretrunkeret). Her ved findes med angivelse af eet søgeudtryk f.eks. poster indeholdende ordene "skolehistorie"; "skolepsykologi"; "heldagsskole"; "forskoler" samt "forskolepe­del" o.s.v. Man kan også anvende trunkering i klassifikationskoder. Såfremt 13 betegner psykologi og 13.1 betegner almen psykologi, vil en søgning på 13$ give såvel overgruppen psykologi som alle undergrupperne.