About this blog…

I am employed by Netnod as head of engineering, research and development and am among other things chair of the Security and Stability Advisory Committee at ICANN. You can find CV and photos of me at this page.

As I wear so many hats, I find it being necessary to somewhere express my personal view on things. This is the location where that happens. Postings on this blog, or at Facebook, Twitter etc, falls under this policy.

The views expressed on this post are mine and do not necessarily reflect the views of Netnod or any other of the organisations I have connections to.

Trasig understreckare i SvD

Svenska Dagbladet har en understreckare som är synnerligen förvirrande. Den inleder med att påstå:


När internet inledde sitt segertåg över världen gjorde Sverige inte ens ett försök att rädda sina svårersättliga bokstäver å, ä och ö. Internets standardiseringsgrupp (IESG) talar engelska och ville inte gärna hantera bokstäver utanför världsspråkets räckvidd. Där förelåg naturligtvis en avsevärd prejudikatrisk: det finns tusentals aktiva språk och många av dem har konstigare bokstäver än så. Spanien förde dock en intensiv och slutligen segerrik kamp för sitt alfabets unika unika bokstav, ñ. Det fanns goda skäl för både kampen och segern.

Då jag var med under denna tid och personligen arbetade med framtagandet av de generella standarder för att kunna hantera tecken utanför de ursprungliga A-Z som kallas MIME (Multimedia Internet Mail Extensions) så tror jag mig veta någorlunda hur Internet har internationaliserats vad gäller tecken. De ursprungliga standarder som vi pratar om är RFC 1341 och RFC 1342, och de specificeras så här:

1341 MIME (Multipurpose Internet Mail Extensions): Mechanisms for
     Specifying and Describing the Format of Internet Message Bodies. N.
     Borenstein, N. Freed. June 1992. (Format: TXT=211117, PS=347082,
     PDF=192244 bytes) (Obsoleted by RFC1521) (Status: PROPOSED STANDARD)
1342 Representation of Non-ASCII Text in Internet Message Headers. K. Moore. June 1992. (Format: TXT=15845 bytes) (Obsoleted by RFC1522) (Status: PROPOSED STANDARD)

Ungefär samtidigt arbetade Unicode Consortium med de första versionerna av teckenuppsättningen Unicode, och sedan många år är jag dessutom liaison från IETF till Unicode Consortium. Kodningen UTF-8 är specificerad i RFC3629, också en Standard (STD63):

3629 UTF-8, a transformation format of ISO 10646. F. Yergeau. November
     2003. (Format: TXT=33856 bytes) (Obsoletes RFC2279) (Also STD0063)
     (Status: STANDARD)

Detta är det idag förhärskande formatet för text på Internet, och det är alltså en kodning av Unicode, så man ärver de styrkor och svagheter som Unicode har.

Vad gäller DNS så har även det utvecklats med Unicode som bas, och de standarder som hanterar DNS har jag varit med och skrivit även dem (RFC3490:

3490 Internationalizing Domain Names in Applications (IDNA). P.
     Faltstrom, P. Hoffman, A. Costello. March 2003. (Format: TXT=51943
     bytes) (Status: PROPOSED STANDARD)

I detta arbete med DNS tittar vi extremt noga på hur Unicode fungerar för olika språk. Nu har förresten detta arbete återupptagits med arbetet som går under arbetsnamnet IDNABIS, och det går att hitta dokumenten här: https://stupid.domain.name/idnabis/).

Ett av problemen är nämligen inte vad gäller svenska, utan katalanska, som är ett av språken som används i Spanien. I katalanska har de ett tecken som är två ‘L’ med en punkt emellan. Unicode bestämde att detta tecken inte ska finnas i Unicode, utan det ska skrivas som ett LATIN SMALL LETTER L WITH MIDDLE DOT följt av ett normalt L. Detta i sin tur normaliseras till tre tecken, L, punkt och L. Vi ser det om vi tittar i Unicode Standard (detta är från version 5.1):

013F;LATIN CAPITAL LETTER L WITH MIDDLE DOT;Lu;0;L;<compat> 004C 00B7;;;;N;;;;0140;
0140;LATIN SMALL LETTER L WITH MIDDLE DOT;Ll;0;L;<compat> 006C 00B7;;;;N;;;013F;;013F

Alltså, om man ska jämföra de förhållande som Spanien har med Sverige så har vad gäller Internet Spanien råkat värre ut än Sverige. Även om jag måste säga att jag tycker det är lika jobbigt eller enkelt för båda länderna då det krångligaste minoritetsspråket vi har i Sverige, Jiddisch, inte är helt enkelt heller. Detta för att det skrivs med Hebreiskt Skript, och precis som alla liknande fall då man har ett skript med ett dominerande språk (Hebreiska) där de mindre språken använder fler tecken än huvudspråket. Andra exempel är för övrigt det vi använder i Svenska som domineras av Engelskan, eller Arabiskt skript som domineras av Arabiska.

Så, vad författaren fått fakta ifrån vad gäller understreckaren kvarstår.

Comments are closed.