Corpus (latinsk: 'krop') – betydning, definition og anvendelser
Lær hvad "corpus" betyder (lat. "krop"), dets definitioner, eksempler og anvendelser inden for sprogvidenskab, jura, medicin og forskning.
Corpus (plural corpora) er latin og betyder krop. Det kan betyde:
- Fysisk krop: i medicinsk og anatomisk sammenhæng bruges corpus om kroppen eller dele af den (fx corpus callosum — hjernebjælken).
- Samling af værker: et forfatterskab eller et samlet værk kan omtales som et corpus (fx et forfatters corpus).
- Juridisk brug: i retligt sprog optræder udtryk som corpus delicti (beviset på, at en forbrydelse er begået) og habeas corpus (retten til ikke at være vilkårligt tilbageholdt).
- Sprogteknologi og lingvistik: et tekst- eller talt materiale indsamlet til forskning kaldes et corpus (flertal: corpora). Disse bruges til at analysere sprogbrug, frekvenser og mønstre.
- Computervidenskab og NLP: i maskinlæring og natural language processing anvendes corpora som trænings- og evalueringsdata — ofte annoteret med lemma, ordklasse, syntaks osv.
Uddybet forklaring
Medicin og anatomi: I medicinske termer optræder corpus ofte som del af sammensatte navne for organer eller kroppe, fx corpus luteum (gulkroppen i æggestokken). Her betegner ordet ligeledes en konkret, fysisk struktur.
Sprogvidenskab og forskning: Et sprogligt corpus er en struktureret samling af tekster eller taledata, som efterbehandles og analyseres. Forskere bruger corpora til at:
- kortlægge ords hyppighed og kollokationer,
- udvikle ordbøger og grammatiker,
- træne sprogteknologiske modeller (fx stave- og grammatikkontrol, talegenkendelse),
- undersøge stilistiske eller historiske sprogtrends.
Jura: Begrebet corpus delicti er centralt i strafferetten og handler om, at der skal være bevis for, at en strafbar handling fandt sted (selve "legemet" af forbrydelsen). Habeas corpus er en retsbeskyttelse mod usagligt frihedsberøvelse og betyder bogstaveligt "du må have kroppen (for retten)".
Praktiske anvendelser
- Akademisk: opbygning af korpora til forskning i sprog, litteratur og historie.
- Teknologi: brug af store tekstcorpora til at træne sprogmodeller og forbedre søgemaskiner.
- Medicin: præcise anatomiske betegnelser, hvor corpus indgår i navne på strukturer.
- Retorik og kulturhistorie: at samlet materiale fra en periode eller forfatter kaldes et corpus for at analysere temaer og tendenser.
Plurals og udtale
Det latinske flertal er corpora. På dansk udtales ordet ofte som /ˈkɔrpus/ eller /ˈkɔrpʊs/, mens corpora typisk udtales /kɔrˈpɔːra/ eller lignende, afhængigt af talerens sprogvaner.
Etymologi og bemærkninger
Ordet stammer fra latin corpus ('krop') og har givet ophav til en række moderne ord på flere sprog (fx engelsk "corpse", "corporal", "corpus"). Betydningen har udvidet sig fra rent fysisk krop til også at dække "krop" i overført betydning: en samlet mængde, et legeme af værker eller data.
Eksempler
- Corpus linguistics: Et "child language corpus" kan indeholde transskriberede samtaler mellem børn og forældre til analyse af sprogtilegnelse.
- Corpus callosum: Den store nervebro mellem hjernehalvdelene — et anatomisk corpus.
- Corpus of works: Når man siger "Beethovens corpus", mener man hans samlede kompositioner.
Opsummering: Corpus er et alsidigt latinsk ord med både konkret anatomisk betydning og overførte betydninger inden for jura, forskning, litteratur og teknologi. Forståelsen afhænger af konteksten — enten som fysisk "krop" eller som "samling/legeme" af noget (tekster, data, værker).
Søge