UTF-8 kodlaması Unicode karakterlerini 1-6 byte uzunluğunda diziler olarak kodlar. ASCII kodlaması içinde 0-127 arasında kalan karakterler aynen kendi kodları ile kullanılır, diğerleri ise byte dizileri haline gelir.
Özellikleri
Evrensel kodlama ile aynı sayfada farklı lisanları göstermek mümkün oluyor. Ayrıca özel hazırlanmış klavyeler ile matematiksel ifadeleri de yazmak mümkün. Bütün bu farklı karakterler UTF-8 sayesinde aynı sayfada görünebiliyor. Eski stil kodlama ile türkçe karakterlerin - aslında latin alfabesinde olmayan ya da özel işaretli harflerin de - gösterimi için oldukça karışık olan harf ve rakam dizgileri kullanmak gerekiyordu. Mesela Ş harfini yazmak içinUTF kullanarak 1 milyondan fazla karakter kodlanabilmektedir. Sıklıkla kullanılan 65536 karakterin kodlaması bu 1 milyondan fazla kodlamada ilk sıralarda yer almaktadırlar.
Örnekler
A = 00000000 010000012, yani sağ baştan sıfırdan başlayarak sayıldığıda 2`nin katları şeklinde 20 ve 26`yı toplayarak 65 sayısını elde ediyoruz. Windows için ALT-tuşuna basılı tutarak nümerik klavyeden 65 yazdığı zaman A harfı çıkar.İlgili Bağlantılar
- http://www.cs.bell-labs.com/sys/doc/utf.pdf UTF-8`i anlatan ilk makale
- http://www.utf-8.com/ UTF-8