Bokstavsfrekvens

Bokstavsfrekvens innebär hur ofta olika bokstäver förekommer i skriven text, vilket studeras flitigt inom kryptografins frekvensanalys. Frekvensfördelningen är inte given för ett visst språk, eftersom alla författare skriver något olika. Linotype-maskiner sorterade bokstävernas frekvens som etaoin shrdlu cmfwyp vbgkqj xz baserat på erfarenhet och sed hos användarna. Likaså kodar modern internationell morsekod de vanligaste bokstäverna till de kortaste symbolerna. Liknande idéer används i moderna datakompressionstekniker såsom Huffmankodning.

Nyare analyser visar att bokstavsfrekvenser, liksom ordfrekvenser, tenderar att variera, både vad gäller författare och ämne. Man kan inte skriva en uppsats om Xenon utan att använda bokstaven X ofta, och olika författare har vanor som kan återspeglas i deras användning av bokstäver, bigram, trigram, ordfrekvenser, ordlängder och meningslängder. Frekvenserna för dessa enheter kan räknas ut för specifika författare, och användas för att bevisa eller motbevisa författarskap till texter.

Noggranna genomsnittliga bokstavsfrekvenser kan bara fås fram genom att analysera ett stort antal representativa texter. Med tillgängligheten i moderna datorer och stora textsamlingar, görs sådana beräkningar lätt.

Relativa bokstavsfrekvenser i olika språk

BokstavSvenska [1]Engelska [2]Franska [3]Tyska [4]Spanska [5]Portugisiska [6]Esperanto [7]Italienska [8]Turkiska [9]Polska [10]Nederländska [11]Danska [12]Isländska [13]Finska [14]Tjeckiska
%%%%%%%%%%%%%%%
a9,3838,1677,6366,51612,52514,63412,11711,74511,9208,917,4866,02510,11012,2176,2
b1,5351,4920,9011,8861,4151,0430,9800,9272,8441,421,5842,0001,0430,2812
c1,4862,7823,2603,0624,6793,8820,7764,5011,4633,961,2420,56500,2811,6
d4,7024,2533,6695,0765,8104,9923,0443,7364,7063,735,9335,8581,5751,0433,3
e10,14912,70214,71517,39613,68111,5708,99511,7928,9127,6918,92415,4536,4187,9687,6
f2,0272,2281,0661,6560,6921,0231,0371,1530,4610,1430,8052,4063,0130,1940,092
g2,8622,0150,8663,0091,0181,3031,1711,6441,2531,473,4034,0774,2410,3920,084
h2,0906,0940,7374,5770,7030,7810,3840,6361,2121,22,3801,6211,8711,8511,35
i5,8176,9667,5297,5506,2476,18610,01210,1438,600*8,216,4996,0007,57810,8174,35
j0,6140,1530,6130,2680,4430,3973,5010,0110,0342,281,4610,7301,1442,0422,2
k3,1400,7720,0491,2170,0110,0154,1630,0094,6833,42,2483,3953,3144,9733,6
l5,2754,0255,4563,4374,9672,7796,1456,5105,9222,13,5685,2294,5325,7613,8
m3,4712,4062,9682,5343,1574,7382,9942,5123,7522,82,2133,2374,0413,2023,2
n8,5426,7497,0959,7766,7124,4467,9556,8837,9875,510,0327,2407,7118,8266,5
o4,4827,5075,5982,5148,6839,7358,7799,8322,4767,966,0634,6362,1665,6148,7
p1,8391,9292,5210,6702,5102,5232,7553,0560,8863,131,3701,7560,7891,8423,4
q0,0200,0951,3620,0180,8771,20400,505000,0090,00700,0130,001
r8,4315,9876,6937,0036,8716,5305,9146,3677,7224,696,4118,9568,5812,8723,6
s6,5906,3277,9487,2737,9776,8056,0924,9813,0144,353,7335,8055,6307,8624,5
t7,6919,0567,2446,1544,6324,3365,2765,6233,3143,986,9236,8624,9538,7505,8
u1,9192,7586,3114,1663,6274,6343,1833,0113,2352,162,1921,9794,5625,0082,7
v2,4150,9781,8380,8461,1381,5751,9042,0970,9590,0122,8542,3322,4372,2504,7
w0,1422,3600,0741,9210,0170,03700,03304,651,8210,06900,0940,016
x0,1590,1500,4270,0340,2150,25300,00300,0040,0360,0280,0460,0310,027
y0,7081,9740,1280,0391,0080,00600,0203,3363,730,0350,6980,9001,7451,9
z0,0700,0740,3261,1340,5170,4700,4941,1811,5005,641,3740,03400,0512,1
å1,33800000000001,19000,0030
ä1,797000,4470000000003,5770
ö1,305000,57300000,7770000,7770,4440
à000,486000,07200,6350000000
â000,051000,562000000000
á00000,5020,1180000001,79902,4
ã000000,733000000000
ą0000000000,69900000
æ000000000000,8720,86700
œ000,018000000000000
ç000,085000,530001,156000000
ĉ0000000,65700000000
ć0000000000,74300000
č000000000000001
ď000000000000000,015
ð0000000000004,39300
è000,27100000,2630000000
é001,50400,4330,3370000000,64701,2
ê000,225000,450000000000
ë000,001000000000000
ę0000000001,03500000
ě000000000000001,6
ĝ0000000,69100000000
ğ000000001,125000000
ĥ0000000,02200000000
î000,045000000000000
ì00000000,0300000000
í00000,7250,1320000001,57003,4
ï000,005000000000000
ı000000005,114*000000
ĵ0000000,05500000000
ł0000000002,10900000
ñ00000,3110000000000
ń0000000000,36200000
ň000000000000000,007
ò00000000,0020000000
ô000,023000,635000000000
ó00000,8270,2960001,141000,99400,024
ø000000000000,939000
ř000000000000001,1
ŝ0000000,38500000000
ş000000001,780000000
ś0000000000,81400000
š000000000000000,8
ß0000,30700000000000
ť000000000000000,006
þ0000000000001,45500
ù000,05800000,1660000000
ú00000,1680,2070000000,61300,045
ŭ0000000,52000000000
ü0000,9950,0120,026001,854000000
ů000000000000000,204
ý0000000000000,22800,995
ź0000000000,07800000
ż0000000000,70600000
ž000000000000001

* – se İ

Se även

Referenser

  1. ^ ”Practical Cryptography”. Arkiverad från originalet den 1 november 2013. https://web.archive.org/web/20131101205915/http://practicalcryptography.com/cryptanalysis/letter-frequencies-various-languages/swedish-letter-frequencies/. Läst 30 oktober 2013. 
  2. ^ English letter frequencies Arkiverad 8 juli 2008 hämtat från the Wayback Machine.
  3. ^ ”CorpusDeThomasTempé”. Arkiverad från originalet den 30 september 2007. https://web.archive.org/web/20070930194046/http://gpl.insa-lyon.fr/Dvorak-Fr/CorpusDeThomasTemp%C3%A9. Läst 15 juni 2007. 
  4. ^ Beutelspacher, Albrecht (2005). Kryptologie (7). Wiesbaden: Vieweg. sid. 10. ISBN 3-8348-0014-7 
  5. ^ Pratt, Fletcher (1942). Secret and Urgent: the Story of Codes and Ciphers. Garden City, N.Y.: Blue Ribbon Books. sid. 254–5. OCLC 795065 
  6. ^ ”Frequência da ocorrência de letras no Português”. Arkiverad från originalet den 3 augusti 2009. https://web.archive.org/web/20090803182254/http://www.numaboa.com/criptografia/criptoanalise/310-Frequencia-no-Portugues. Läst 16 juni 2009. 
  7. ^ ”La Oftecoj de la Esperantaj Literoj”. http://lingvakritiko.com/2007/09/13/literoftecoj-kaj-tabelvortoftecoj/. Läst 14 september 2007. 
  8. ^ Singh, Simon; Galli, Stefano (1999) (på italienska). Codici e Segreti. Milano: Rizzoli. ISBN 978-8-817-86213-4. OCLC 535461359 
  9. ^ Sefik Ilkin Serengil, Murat Akin. "Attacking Turkish Texts Encrypted by Homophonic Cipher Arkiverad 4 mars 2016 hämtat från the Wayback Machine." Proceedings of the 10th WSEAS International Conference on Electronics, Hardware, Wireless and Optical Communications, pp.123-126, Cambridge, UK, February 20-22, 2011.
  10. ^ Wstęp do kryptologii, counting [space] 17.2%, [dot point] 0.9%, [comma] 0.9% and [semicolon] 0.5%
  11. ^ ”Letterfrequenties”. Genootschap OnzeTaal. http://www.onzetaal.nl/advies/letterfreq.php. Läst 17 maj 2009. 
  12. ^ ”Practical Cryptography”. http://practicalcryptography.com/cryptanalysis/letter-frequencies-various-languages/danish-letter-frequencies/. Läst 24 oktober 2013. 
  13. ^ ”Practical Cryptography”. Arkiverad från originalet den 10 september 2013. https://web.archive.org/web/20130910090659/http://practicalcryptography.com/cryptanalysis/letter-frequencies-various-languages/icelandic-letter-frequencies/. Läst 24 oktober 2013. 
  14. ^ ”Practical Cryptography”. Arkiverad från originalet den 29 oktober 2013. https://web.archive.org/web/20131029192340/http://practicalcryptography.com/cryptanalysis/letter-frequencies-various-languages/finnish-letter-frequencies/. Läst 24 oktober 2013. 

Media som används på denna webbplats

Frecuencia de uso de letras en español.PNG
(c) Tico, CC BY-SA 3.0
es:Frecuencia de aparición de letras en español. Creada usando datos de es:Frecuencia de aparición de letras y de Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255.
English-slf.png
Författare/Upphovsman: unknown, Licens: CC BY-SA 3.0