Unicode ve ASCII Başlıca Farklar;

  • ASCII Latin alfabesi üzerine kurulu 7 bitlik bir karakter kümesidir,
  • ASCII, 1963 yılında ANSI tarafından standart olarak kullanıma sunulmuştur.
  • Unicode, Unicode Consortium organizasyonu tarafından geliştirilen ve her karaktere bir sayı değeri karşılığı atayan bir standarttır.
  • Unicodeun  amacı farklı karakter kodlama sistemlerinin birbiriyle tutarlı çalışmasını ve dünyadaki tüm yazım sistemlerinden metinlerin bilgisayar ortamında tek bir standart altında temsil edilebilmesini sağlamaktır.
  • Unicode’un Haziran 2014 tarihi itibarıyla standardın en son sürümü Unicode 7.0’dır.
  • UTF-8 ve UTF-16 Unicode karakter kodlamalarından dır,
  • ASCII’de 33 tane basılmayan kontrol karakteri ve 95 tane basılan karakter bulunur
  • Unicodeun standartlaştırılmış iken ASCII standartlaştırılmamıştır,
  • Unicode dünyanın en çok kullanılan dilleri temsil ederken, ASCII daha az temsil eder,

Detaylı Açıklamalar,




ASCII

Genişletilmiş ASCII karakterler ek karakter talebini karşılar. Genişletilmiş ASCII’de, ASCII’de yer alan (aşağıdaki grafikte görüntülenen 0–32 arası sayılar) 128 karaktere ek olarak, 128 karakter daha bulunur; böylece toplam karakter sayısı 256’ya ulaşır. Bu ek karakterlerle bile, birçok dilde 256 karaktere katılamayan simgeler vardır. Bu nedenle, bölgesel karakter ve simgeleri karşılamak için ASCII çeşitlemeleri vardır.

Örneğin, Kuzey Amerika, Batı Avrupa, Avustralya ve Afrika dillerine ait yazılım programlarında ISO 8859-1 olarak da bilinen ASCII tablosu kullanılır.

UNICODE

016 ile 10FFFF16 arasındaki sayılara karşılık gelen 1.114.112 adet kod noktasından oluşan bir kod alanı tanımlamıştır.  Kod noktası tarafından her bir karaktere atanan sayıdır ve bu sayı genelde on altı tabanında yazılır. Normalde kod noktaları “U+” ve sonrasında kod noktasının on altı tabanındaki karşılığı ile ifade edilir. Kod noktalarının beşinci ve altıncı haneleri birlikte düzlem (plane) numarasını ifade etmektedir, toplamda on yedi adet düzlem bulunmaktadır (016‘dan 1016‘a kadar). İlk düzlem olan Temel Çokdilli Düzlem (Basic Multilingual Plane, kısaca BMP) sıfırıncı düzlem olduğundan bu düzlemdeki karakterlerin kod noktaları yazılırken beşinci hanedeki 0 yazılmadan dört haneli şekilde yazılırlar (mesela tanımı latin capital letter x olan X harfinin kod noktası U+000058 yerine kısaca U+0058 olarak ifade edilir), BMP dışındaki düzlemlerde bulunan kod noktaları başında düzlem numarası yazılarak ifade edilir. Dolayısıyla toplamda beş veya altı haneli olarak yazılırlar. (örneğin language tag adlı karakterinin kod noktası U+E0001.


Etiketler:

Bir cevap yazın

E-posta hesabınız yayımlanmayacak.