Sekvensanalyse i molekylærbiologi: DNA, protein, metoder og anvendelser

Sekvensanalyse i molekylærbiologi: forstå DNA- og proteinsekvenser, nøglemetoder og konkrete anvendelser i forskning, diagnostik og evolutionsstudier.

Forfatter: Leandro Alegsa

08-01-2026 21:19

Sekvensanalyse i molekylærbiologi indebærer identifikation af sekvensen af nukleotider i en nukleinsyre eller aminosyrer i et peptid eller et protein. Når en prøve er blevet udtaget, kan DNA-sekvenser fremstilles automatisk af en maskine, og resultatet vises på en computer. Tolkningen af disse resultater er stadig en opgave for mennesker.

Typer af sekvensanalyse

Sekvensanalyse dækker flere forskellige typer af molekyler og eksperimenter:

DNA-sekventering: bestemmelse af nukleotidrækkefølgen i genomisk DNA eller klonede fragmenter.
RNA-sekventering (RNA‑seq): måling af transkripter og genekspression ved at sekvensere cDNA lavet fra RNA.
Protein- og peptidsekventering: bestemmelse af aminosyrefølgen i proteiner, typisk ved massespektrometri eller i ældre metoder som Edman‑degeneration.
Metagenomisk sekventering: sekvensering af blandede prøver (fx jord eller tarmsample) for at identificere mikroorganismer uden at dyrke dem.

Hyppige metoder

Sanger-sekventering: klassisk “kædestoppende” metode, stadig brugt til korte fragmenter og verifikation. Giver pålidelige, lange aflæsninger (typisk 500–1000 bp).
Next‑generation sequencing (NGS): korte aflæsninger i massive mængder (Illumina, Ion Torrent). Velegnet til genom‑, exom‑ og RNA‑seq, samt metagenomik.
Tredje generations-sekventering: langlæsende teknologier som PacBio og Nanopore, som kan give aflæsninger på titusinder af baser og direkte læse modificerede baser (fx metylering).
Proteinsekventering: massespektrometri (LC‑MS/MS) er standarden til identifikation og kvantificering af proteiner og peptider i komplekse prøver.

Prøveforberedelse og laboratorietrin

Før sekventering kræves ofte:

Rensning og kvalitetskontrol af nukleinsyre eller protein (koncentration, renhed).
Bibliotekskonstruktion til NGS: fragmentering, adapter-ligation og eventuel PCR-amplifikation.
Specifikke trin for RNA (fjernelse af ribosomalt RNA, reverse transkription) eller for methyl‑/epigenetiske analyser (bisulfitbehandling eller nanopore‑baseret direktemåling).

Dataanalyse og tolkning

Datasættene fra sekventering er store og kræver computerbaseret behandling:

Basecalling: omdanner rå signaler til nukleotidsekvenser.
Kvalitetskontrol: Phred‑score, filtre for lavkvalitetslæsninger og adaptertrimning.
Alignering: kortlæsninger matches til et referencegenom eller samles de de novo for at rekonstruere genomsekvenser.
Variantkald: identifikation af forskelle som SNPs, indels, strukturelle varianter og kopitaltervariationer.
Annotation og søgning: funktionel annotation, genidentifikation og sammenligning mod databaser (fx GenBank) eller brug af værktøjer som BLAST.

Tolkning kræver biologisk kontekst: fx om en variant er patogen, neutral eller af ukendt betydning, og dette kan kræve yderligere eksperimenter eller populationdata.

Anvendelser

Evolution og fylogenetisk analyse: sekvensdata bruges til at kortlægge slægtskabsforhold mellem arter eller populationer og til at estimere divergence‑tider.
Medicinsk diagnostik: påvisning af genetiske sygdomme, målrettet onkogenanalyse, tumorsekvensering for terapiudspecificering og mikrobiologisk diagnostik (patogendetektion og resistensgener).
Forensik og identifikation: DNA‑profilering, slægtsforskning og biologisk sporanalyse.
Landbrug og bioteknologi: selektion, genetisk karakterisering af afgrøder og husdyr samt udvikling af GMO og molekylære markører.
Miljø- og økosystemstudier: overvågning af biodiversitet, mikrobiel sammensætning i miljøprøver og sporing af invasive arter.
Metagenomik og mikrobiom‑forskning: karakterisering af komplekse mikrobiologiske sammensætninger uden dyrkning.

Begrænsninger og udfordringer

Tekniske fejl: sequencing‑fejl, PCR‑bias og problemer med gentagne regioner kan komplicere analyse.
Bioinformatik: kræver regnekraft, lagring og kompetence i dataanalyse samt standardisering af pipelines.
Fortolkning: mange fund er varianter af ukendt betydning; klinisk relevans kræver ofte yderligere validering.
Etiske og juridiske spørgsmål: dataanonymitet, informeret samtykke og konsekvenser af genetisk information (fx for forsikring eller ansættelse).

Praktiske råd

Planlæg eksperimentet efter biologiske spørgsmål: vælg platform og læselængde ud fra målet (kort vs. lang aflæsning, dybde vs. rækkevidde).
Sørg for robust kvalitetskontrol både i laboratoriet og i analysepipeline.
Gem rådata og metadata (prøveinformation, protokoller) — det er vigtigt for reproducerbarhed og fortolkning.

Sekvensanalyse er et centralt værktøj i moderne biologisk forskning og anvendes bredt fra basal forskning til klinisk diagnostik, miljøovervågning og industri. Teknologiske fremskridt har gjort det hurtigere og billigere at generere data, men korrekt prøvebehandling, kvalificeret analyse og etiske overvejelser forbliver afgørende for at få pålidelige og meningsfulde resultater.

DNA-baseparsekvens

En DNA-sekvens er sekvensen af nukleotider i et DNA-molekyle. Den skrives som en række bogstaver, der repræsenterer den primære struktur af et DNA-molekyle eller en DNA-streng. Hvis en sådan sekvens er funktionel, indeholder den oplysninger om sekvensen af aminosyrer i et proteinmolekyle. De mulige bogstaver er A, C, G og T, som repræsenterer de fire nukleotidbaser i en DNA-streng - adenin, cytosin, guanin og thymin. Sekvenserne er trykt ved siden af hinanden uden mellemrum, som i sekvensen AAAGTCTGAC.

Undersøgelsen af RNA og proteiner er mere kompleks. DNA's overordnede struktur er enkel og forudsigelig (dobbeltspiral). Undersøgelsen af RNA og proteiner skal omfatte en undersøgelse af deres 3-dimensionelle struktur, som er varieret og har indflydelse på deres funktion. Dette kan til en vis grad ske ved hjælp af computere, men det skal kontrolleres i hvert enkelt tilfælde.

Oplysninger om sekvenser opbevares i databaser. Siden udviklingen af den hurtige produktion af gen- og proteinsekvenser i 1990'erne er der hele tiden kommet nye sekvenser til databaserne.

Score

Der er foretaget en fuldstændig genomanalyse af over 800 arter og stammer. Arbejdet udføres af en maskine, DNA-sequenceren, som analyserer lyssignaler fra fluorochromer, der er knyttet til nukleotiderne. Denne type arbejde bliver efterhånden billigere og billigere.

"Der er i øjeblikket [2009] mere end 90 hvirveldyrarter med hele genomsekvenser, som er færdige, under udarbejdelse eller i en fremskreden planlægningsfase.

Grove totaler

I december 2012 var der gennemført analyser af hele genomet for omkring 800 til 900 levende arter og stammer af arter. Tallene er omtrentlige og skifter.

Dyr: 111 arter
Planter: 53 arter
Svampe: 81 arter
Protister: 50 arter
Archaea: 139 arter og stammer
Bakterier: ~4/500 arter og stammer

Menneskets DNA-sekvens

Det menneskelige genom er gemt på 23 kromosompar i cellekernen og i det lille mitokondrie-DNA. Man ved nu meget om de DNA-sekvenser, der findes på vores kromosomer. Hvad DNA'et egentlig gør, er nu delvis kendt. Anvendelsen af denne viden i praksis er kun lige begyndt.

Det menneskelige genomprojekt (HGP) har frembragt en referencesekvens, som anvendes i hele verden inden for biologi og medicin. Nature offentliggjorde rapporten om det offentligt finansierede projekt, og Science offentliggjorde Celeras artikel. Disse artikler beskrev, hvordan udkastet til sekvensen blev udarbejdet, og gav en analyse af sekvensen. Der blev offentliggjort forbedrede udkast i 2003 og 2005, som udfyldte ≈92 % af sekvensen.

Det seneste projekt ENCODE undersøger den måde, hvorpå generne styres.

Retsmedicinsk arbejde

Det er ikke nødvendigt at have hele genomsekvenser til retsmedicinsk arbejde, f.eks. til identifikation af en forbryder ud fra DNA-spor efterladt på et gerningssted eller til faderskabssager. På nuværende tidspunkt er sekventering af hele genomet stadig meget dyrt, men heldigvis findes der enklere og billigere metoder.

Den grundlæggende idé er at se på visse loci (steder) i genomet, som er meget variable mellem mennesker. Der skal ca. 10 til 15 af disse loci til for at opnå et match, og de juridiske detaljer varierer fra land til land. Et match mellem en prøve og en mistænkt person gør det yderst sandsynligt, at den pågældende person var kilden til prøven. Dette bevismateriale vil så danne grundlag for anklagemyndigheden i forbindelse med en forbrydelse. En lignende analyse ville vise, at en mand med stor sandsynlighed var far til et barn. Dette er i virkeligheden en moderne måde at gøre det, som man gjorde med blodgrupper, før man kunne analysere DNA-data. Metoderne er hovedsageligt udviklet af Alec Jeffreys' arbejde.

Hver persons DNA indeholder to alleler af et bestemt gen eller en "markør": en fra faderen og en fra moderen. "Markører" er gener, der er udvalgt, fordi de har et antal forskellige alleler, der forekommer hyppigt i befolkningen. Følgende tabel stammer fra et kommercielt forsøg med DNA-farsomhedstest. Den viser, hvordan slægtskabet mellem forældre og barn påvises med fem markører:

DNA-markør	Mor	Barn	Påståede far
D21S11	28, 30	28, 31	29, 31
D7S820	9, 10	10, 11	11, 12
TH01	14, 15	14, 16	15, 16
D13S317	7, 8	7, 9	8, 9
D19S433	14, 16.2	14, 15	15, 17

Resultaterne viser, at barnets og den påståede fars DNA matcher for disse fem markører. De komplette testresultater viste denne sammenhæng på 16 markører mellem barnet og den testede mand. Hvis en sag bliver testet i retten, vil en retsmediciner give et vidnesbyrd om sandsynligheden for at få dette resultat ved en tilfældighed.

DNA-test i USA

Der findes statslige love om DNA-profiler i alle 50 stater i USA. Detaljerede oplysninger om databaselove i de enkelte stater kan findes på National Conference of State Legislatures' websted.

En kemiker fra U.S. Customs and Border Protection læser en DNA-profil for at finde ud af, hvor en vare kommer fra.

Gammelt DNA

Der er blevet genfundet gammelt DNA fra nogle kilder. Rekorden for overlevelse af DNA, der er egnet til sekvensanalyse, er 700.000 år. Et hesteskelet begravet i permafrost har givet knogler med en del overlevende DNA. Sekvensen var kun 70 % komplet, men det var nok til, at forskerne kunne sige: "Den ville ikke ligne en hest, som vi kender den ... men vi ville forvente, at det var en enetået hest". Til sammenligning havde forskerne adgang til DNA-sekvenser fra moderne heste, æsler og Przewalski-hesten.

Relaterede sider

George Church
Walter Gilbert
John Sulston
Fred Sanger
ENCODE: den komplette analyse af det menneskelige genom
Det menneskelige genom
Komplet genomforskning
Bioinformatik

Søge