Et lemma er den form af et ord, som bruges som hovedopslag i en ordbog eller som repræsentant for en bøjningsparadigme. I en traditionel ordbog står et lemma øverst som det ord, du slår op — alle hovedord i en ordbog er lemmaer. Tekniskt kan man sige, at lemmaet er "grundordet" eller citationformen, mens de andre bøjninger er varianter af dette lemma.
Forskel mellem lemma og lexem / leksikalsk enhed
Et lexem (ofte kaldet betydningsenhed eller leksikalsk enhed) omfatter hele mængden af ordformer, der deler samme betydning. Lexemet dækker altså alle bøjninger og afledninger med samme leksikale indhold, mens lemma er den ene form, som vælges til at repræsentere dette lexem i f.eks. en ordbog eller et korpus.
Med andre ord:
- Lexem/leksikale enhed = den abstrakte betydning/enhed (alle former samlet).
- Lemma = den konkrete citationform, der bruges som opslag/etiket for lexemet.
Konkrete eksempler
På engelsk er f.eks. run, runs og running former af det samme leksikeme, men run er lemmaet — det er den form, man typisk vælger som opslagsform.
På dansk er eksemplerne tilsvarende:
- Verbet gå: lemma gå, bøjninger går, gik, gået.
- Substantivet bil: lemma bil, flertal biler, bestemt form bilen, osv.
- Adjektivet stor: lemma stor, komparativ større, superlativ størst.
Udvælgelse af lemma i ordbøger
Der er konventioner for, hvilken form der vælges som lemma: for verber bruges typisk infinitiv (dansk: at løbe — lemma ofte angivet uden 'at', altså løbe), for substantiver bruges ofte ental ubestemt (dansk: bog), for adjektiver bruges grundformen (positiv), og for substantiver med fast bøjning anvendes den mest neutrale citationform. Homografer (samme form, forskellig betydning) kan få separate lemmaer, f.eks. bank (pengeinstitut) og bank (bremselyd), hvis betydningerne er forskellige.
Flere nuancer
- Et lexem kan bestå af mere end ét ord (f.eks. faste sammensætninger eller sammensatte multiord-udtryk), men ordbøger vælger ofte en standardiseret form som lemma for sådanne enheder.
- Stavning, store/små bogstaver og bindestreger kan påvirke, hvordan lemmaer registreres (f.eks. egennavne eller sammensætninger).
- I sprog med rig bøjningsmorfologi (fx finsk, russisk) er lemmaet særlig vigtigt for at samle mange forskellige ordformer under én leksikalsk post.
Lemmatisering i sprogteknologi
I computermæssig sprogbehandling taler man om lemmatisering: processen hvor man omsætter en konkret ordform til dens lemma (f.eks. løber → løbe). Lemmatisering er nyttig i søgning, tekstmining og korpuslingvistik, fordi den reducerer bøjningsvarianter til en fælles repræsentant og dermed gør statistik og opslag mere robuste.
Kort opsummering
- Et lemma er den form, der vælges som opslagsform i en ordbog eller som repræsentant for en bøjningsgruppe.
- Et lexem/betydningsenhed er den abstrakte enhed, som omfatter alle ordformer med samme leksikale indhold.
- Eksempel: run er lemmaet for lexemet med formerne run, runs, running.