Lemma i lingvistik: Hvad er et lemma, forskel fra leksem og eksempler

Få klar forklaring på lemma i lingvistik — hvad det er, forskellen til leksem og tydelige eksempler for sprogbrugere.

Forfatter: Leandro Alegsa

Et lemma er den form af et ord, som bruges som hovedopslag i en ordbog eller som repræsentant for en bøjningsparadigme. I en traditionel ordbog står et lemma øverst som det ord, du slår op — alle hovedord i en ordbog er lemmaer. Tekniskt kan man sige, at lemmaet er "grundordet" eller citationformen, mens de andre bøjninger er varianter af dette lemma.

Forskel mellem lemma og lexem / leksikalsk enhed

Et lexem (ofte kaldet betydningsenhed eller leksikalsk enhed) omfatter hele mængden af ordformer, der deler samme betydning. Lexemet dækker altså alle bøjninger og afledninger med samme leksikale indhold, mens lemma er den ene form, som vælges til at repræsentere dette lexem i f.eks. en ordbog eller et korpus.

Med andre ord:

  • Lexem/leksikale enhed = den abstrakte betydning/enhed (alle former samlet).
  • Lemma = den konkrete citationform, der bruges som opslag/etiket for lexemet.

Konkrete eksempler

engelsk er f.eks. run, runs og running former af det samme leksikeme, men run er lemmaet — det er den form, man typisk vælger som opslagsform.

På dansk er eksemplerne tilsvarende:

  • Verbet : lemma , bøjninger går, gik, gået.
  • Substantivet bil: lemma bil, flertal biler, bestemt form bilen, osv.
  • Adjektivet stor: lemma stor, komparativ større, superlativ størst.

Udvælgelse af lemma i ordbøger

Der er konventioner for, hvilken form der vælges som lemma: for verber bruges typisk infinitiv (dansk: at løbe — lemma ofte angivet uden 'at', altså løbe), for substantiver bruges ofte ental ubestemt (dansk: bog), for adjektiver bruges grundformen (positiv), og for substantiver med fast bøjning anvendes den mest neutrale citationform. Homografer (samme form, forskellig betydning) kan få separate lemmaer, f.eks. bank (pengeinstitut) og bank (bremselyd), hvis betydningerne er forskellige.

Flere nuancer

  • Et lexem kan bestå af mere end ét ord (f.eks. faste sammensætninger eller sammensatte multiord-udtryk), men ordbøger vælger ofte en standardiseret form som lemma for sådanne enheder.
  • Stavning, store/små bogstaver og bindestreger kan påvirke, hvordan lemmaer registreres (f.eks. egennavne eller sammensætninger).
  • I sprog med rig bøjningsmorfologi (fx finsk, russisk) er lemmaet særlig vigtigt for at samle mange forskellige ordformer under én leksikalsk post.

Lemmatisering i sprogteknologi

I computermæssig sprogbehandling taler man om lemmatisering: processen hvor man omsætter en konkret ordform til dens lemma (f.eks. løberløbe). Lemmatisering er nyttig i søgning, tekstmining og korpuslingvistik, fordi den reducerer bøjningsvarianter til en fælles repræsentant og dermed gør statistik og opslag mere robuste.

Kort opsummering

  • Et lemma er den form, der vælges som opslagsform i en ordbog eller som repræsentant for en bøjningsgruppe.
  • Et lexem/betydningsenhed er den abstrakte enhed, som omfatter alle ordformer med samme leksikale indhold.
  • Eksempel: run er lemmaet for lexemet med formerne run, runs, running.

Morfologi

På engelsk er lemmaet i et navneord ental: f.eks. mouse i stedet for mice. I sprog med køn er hovedordet i almindelige adjektiver og navneord normalt maskulint ental. Hvis sproget også har kasus, er lemmaet ofte det maskuline singulære nominativ.

På mange sprog er infinitivformen en citatform af et verbum: Fransk aller, tysk gehen, spansk ir. På engelsk er det normalt den fulde infinitiv (to go), selv om den alfabetiseres uden "to" (go).

 

Forskellen mellem stamme og lemma

I computerlingvistik er en stamme den del af ordet, der aldrig ændres, selv når forskellige former af ordet anvendes. Et lemma er verbets grundform. F.eks. fra "produceret" er lemmaet "producere", men stammen er "produc-". Det skyldes, at der findes ord som "produktion". Når lyden (fonologien) tages i betragtning, er definitionen af den uforanderlige del af ordet ikke så nyttig. Læg mærke til lyden af ordene i eksemplet: "produceret" /prəˈdjuːst/ versus "produktion" /prəˈdʌkʃən/.

Nogle leksiemer har flere stammeformer, men kun ét lemma. F.eks. har "to go" (lemmaet) stammerne "go" og "went". Her er fortiden baseret på et andet verbum, "to wend". Endelsen "-t" svarer til "-ed".

 


Søge
AlegsaOnline.com - 2020 / 2025 - License CC3