Zipfs lov
Zipfs lov er en empirisk lov, der er formuleret ved hjælp af matematisk statistik og er opkaldt efter lingvisten George Kingsley Zipf, som først foreslog den.
Zipf's lov siger, at når man tager en stor stikprøve af anvendte ord, er hyppigheden af et ord omvendt proportional med dets placering i hyppighedstabellen. Ord nummer n har altså en frekvens, der er proportional med 1/n.
Det mest hyppige ord vil således forekomme ca. dobbelt så ofte som det næsthyppigste ord, tre gange så ofte som det tredjehyppigste ord osv. I en stikprøve af ord i det engelske sprog udgør det hyppigst forekommende ord, "the", f.eks. næsten 7 % af alle ord (69 971 ud af lidt over 1 million). I overensstemmelse med Zipfs lov udgør det næstmest hyppige ord "of" lidt over 3,5 % af alle ord (36 411 forekomster), efterfulgt af "and" (28 852). Der skal kun ca. 135 ord til for at udgøre halvdelen af alle ord i en stor stikprøve.
Det samme forhold gør sig gældende i mange andre ranglister, som ikke har noget med sprog at gøre, f.eks. befolkningsrækkefølgen for byer i forskellige lande, virksomhedsstørrelser, indkomstrækkefølger osv. Felix Auerbach bemærkede for første gang i 1913, at fordelingen i ranglisterne over byer efter befolkningstal er en fordeling.
Det vides ikke, hvorfor Zipfs lov gælder for de fleste sprog.
Spørgsmål og svar
Q: Hvad er Zipfs lov?
A: Zipfs lov er en empirisk lov, der siger, at hyppigheden af et ord i en stor stikprøve er omvendt proportional med dets rang i hyppighedstabellen.
Q: Hvem foreslog Zipfs lov?
A: Zipfs lov blev først foreslået af George Kingsley Zipf, en lingvist.
Q: Hvordan forklarer Zipfs lov ordfrekvensen i en stikprøve af engelske ord?
A: Ifølge Zipfs lov forekommer det hyppigste ord i en stikprøve af engelske ord ca. dobbelt så ofte som det næsthyppigste ord, tre gange så ofte som det tredjehyppigste ord osv. Denne tendens fortsætter, når ordets rang falder.
Q: Hvor mange procent af alle ord udgør det hyppigst forekommende ord i en stikprøve af engelske ord?
A: I en stikprøve af engelske ord udgør det hyppigst forekommende ord ("the") næsten 7% af alle ordene.
Spørgsmål: Hvad er forholdet mellem det antal ord, der skal til for at udgøre halvdelen af stikprøven, og hyppigheden af disse ord?
A: Ifølge Zipfs lov er der kun brug for ca. 135 ord for at gøre rede for halvdelen af ordene i en stor stikprøve.
Spørgsmål: Hvilke andre rangordninger udviser Zipfs lov?
A: Det samme forhold, som Zipfs lov beskriver i hyppigheden af ord, forekommer i andre rangordninger, der ikke har noget med sprog at gøre, såsom rangordningen af byer i forskellige lande, virksomhedsstørrelser og indkomstrangordninger.
Q: Hvem lagde mærke til fordelingen i rangeringen af byer efter indbyggertal?
A: Fordelingen i rangordningen af byer efter indbyggertal blev først bemærket af Felix Auerbach i 1913.