Unicode kodlama: karakter kodlama standardı

Her internet kullanıcısı girişimlerdeLatince harflerle yazılan ekranda "Unicode" kelimesinin en az bir kez görüldüğü en az bir kez fonksiyonlarını kurar. Bu nedir, bu makaleyi okuyarak öğreneceksiniz.

tanım

"Unicode" kodlaması bir kodlama standardıdırkarakter. Kar amacı gütmeyen Unicode Inc. tarafından önerildi. 1991'de. Standart, tek bir belgede olabildiğince çok farklı türde sembollerin birleştirilmesi için tasarlanmıştır. Temel alınarak oluşturulan sayfa, farklı dillerden (Rusça'dan Korece'ye) ve matematiksel işaretlerden oluşan mektuplar ve hiyeroglifler içerebilir. Bu kodlamadaki tüm karakterler sorunsuz olarak görüntülenir.

Yaratılma nedenleri

Bir zamanlar, birleşik bir sistemin ortaya çıkmasından çok önce"Unicode", kodlama belgenin yazarı tercihlerine göre seçilmiştir. Bu nedenle, genellikle bir belgeyi okumak için farklı tablolar kullanmanız gerekiyordu. Bazen sıradan bir kullanıcının hayatını önemli ölçüde karmaşıklaştıran birkaç kez yapılması gerekiyordu. Daha önce de belirtildiği gibi, 1991 yılında bu problemin çözümü, yeni bir karakter kodlaması türü öneren kar amacı gütmeyen Unicode Inc. tarafından önerildi. O ahlaki olarak eski ve çeşitli standartları birleştirmek için çağrıldı. "Unicode" - kodlama, o zamana kadar düşünülemez başarabildi: çok sayıda karakteri destekleyen bir araç oluşturmak için. Sonuç birçok beklentiyi aştı - dokümanlar aynı anda hem İngilizce hem de Rusça metinler, Latin ve matematiksel ifadeleri içerdi.

Ancak, tek bir kodlamanın oluşturulmasıO dönemde zaten var olan çok çeşitli standartlar nedeniyle ortaya çıkan bir takım sorunları çözme ihtiyacı. En yaygın olanlar şunlardır:

el yazısı yazıları veya "karkozyabry";
sınırlı karakter kümesi;
kodlama dönüştürme problemi;
yazı tiplerinin çoğaltılması.

Kısa bir tarihsel eleştiri

Bahçenin 80 olduğunu düşünün. Bilgisayar teknolojisi o kadar yaygın değil ve bugün farklı bir form var. O zaman, her işletim sistemi kendi yolunda benzersizdir ve belirli ihtiyaçlar için her bir meraklısı tarafından son halini alır. Bilgi değişimi ihtiyacı, dünyadaki her şeyin ek bir revizyonuna dönüşüyor. Başka bir işletim sistemi altında oluşturulan bir belgeyi okumaya çalışmak, genellikle ekranda anlaşılmaz bir karakter kümesi görüntüler ve kodlama ile oyunlar başlar. Bunu hızlı bir şekilde yapmak her zaman mümkün değildir ve bazen gerekli belge altı ay sonra veya daha sonra açılabilir. Genellikle bilgi alışverişi yapan kişiler kendileri için dönüşüm tabloları oluşturur. Ve işte onlar üzerinde çalışmak ilginç bir ayrıntıyı ortaya koyuyor: iki yönden yaratılmaları gerekiyor: "kendiminkinden" ve geri. Hesaplamaları banal bir şekilde tersine çevirmek için, makine, doğru sütunda bir kaynak kodu ve sol sütunda - sonuç veremez, aksine herhangi bir şekilde tersini yapamaz. Belgedeki özel karakterlerin kullanılması gerekiyorsa, önce eklenmiş olmalılar ve sonra da bu karakterlerin "krakozyabry" ye dönüşmemesi için ne yapmaları gerektiğini açıkladılar. Ve unutmayın ki, her bir kodlama için, kendi yazı tiplerini geliştirmemiz ya da uygulamak zorunda kaldık. Bu, işletim sisteminde çok sayıda kopya oluşturulmasına neden oldu.

Yazı tipleri sayfasında da olduğunu düşününUtf-8, UTF-16, ANSI, UCS-2 için 10 adet aynı Times New Roman göreceksiniz. Şimdi evrensel bir standardın gelişmesinin acil bir zorunluluk olduğunu anlıyor musunuz?

"Yaratıcılarından kurucuları"

Unicode'un yaratılışının kökenleri 1987'de aranmalıdır.Xerox'un Joe Becker ve Apple'ın Mark Davis ile birlikte, evrensel bir karakter kümesinin pratik olarak yaratılması için araştırma başlattı. Ağustos 1988'de, Joe Becker 16-bit uluslararası çok dilli kodlama sisteminin oluşturulması için bir taslak teklif yayınladı.

Birkaç ay sonra, Unicode çalışma grubuRLG'den Ken Whistler ve Mike Kernegan'ı, Sun Microsystems'in Glenn Wright'ı ve tek bir kodlama standardının ön oluşumunda çalışmanın tamamlanmasını sağlayan birkaç başka uzmanı kapsayacak şekilde genişletildi.

Genel açıklama

Unicode bir sembol kavramına dayanır. Bu tanım, belirli bir yazım biçiminde var olan ve grafiklerle ("portreler") gerçekleşen soyut bir olgu olarak anlaşılmaktadır. Her karakter, standartın belirli bir bloğuna ait benzersiz bir kod ile Unicode'da ayarlanır. Örneğin, B grafiği, hem İngilizce hem de Rusça alfabelerde bulunur, ancak Unicode'de 2 farklı karaktere karşılık gelir. Küçük harflere dönüştürülürler, yani her biri bir veritabanı anahtarı, bir dizi özellik ve bir tam adla açıklanır.

Unicode'un Avantajları

"Unicode" kodlayan diğer çağdaşlardanSembollerin "şifrelenmesi" için büyük bir işaret rezervi vardı. Gerçek şu ki, seleflerinin 8 biti vardı, yani 28 karakter desteklediler, ancak yeni gelişme şimdiden 216 karaktere sahipti, ki bu da ileriye doğru büyük bir adımdı. Bu hemen hemen tüm mevcut ve dağıtılmış alfabe kodlamak için izin verdi.

"Unicode" in gelişiyle artık gerekli değilDönüşüm tablolarını kullanın: Tek bir standart olarak, sadece ihtiyacını ortadan kaldırır. Aynı şekilde, "krakozyabry" de unutulmaya yüz tutmuştu - tek bir standart onları imkansız hale getirdi, aynı zamanda çift yazı tipleri yaratma ihtiyacını ortadan kaldırdı.

Unicode geliştirme

Tabii ki, ilerleme hala durmuyor ve şu andan itibarenİlk sunum 25 yıl geçti. Ancak, Unicode kodlaması inatla dünyadaki konumunu korur. Birçok bakımdan bu, patentli (ücretli) ve açık kaynaklı yazılımın geliştiricileri tarafından tanınması, kolayca uygulanıp yayılmasından dolayı mümkün olmuştur.

unicode kodlaması (karakter kodlaması standardı)

Bu durumda, bugün olduğuna inanmak gerekli değil.Aynı Unicode kodlaması bir asır önce çeyrek olarak kullanılabilir. Şu anda, sürümü 5.x.x olarak değiştirildi ve kodlanmış karakterlerin sayısı 231'e yükseldi. Daha büyük bir karakter stoku kullanma olasılığından dolayı, Unicode-16'ya (maksimum sayının 216 ile sınırlı olduğu kodlamalar) hala destek vermeyi reddetti. Görünüş anından versiyon 2.0.0'a kadar, "Unicode-standard", neredeyse 2 kez, onu içeren karakter sayısını artırdı. Fırsatların büyümesi önümüzdeki yıllarda da devam etti. 4.0.0 versiyonuna zaten yapılmış olan standardın kendisinin artmasına ihtiyaç vardı. Sonuç olarak Unicode, bugün bildiğimiz formu edinmiştir.

Unicode'da başka ne var?

Büyük, sürekli yenilenen ek olarakKarakterlerin sayısı, "Unicode" - metinsel bilgilerin kodlanması bir daha kullanışlı özelliğe sahiptir. Sözde normalleşme hakkında konuşuyoruz. Tüm belge sembolünü karakter olarak kaydırmak ve karşılık gelen simgeleri eşleşme tablosundan değiştirmek yerine, mevcut normalleştirme algoritmalarından biri kullanılır. Ne hakkında konuşuyoruz?

Bilgisayar kaynaklarını boşa harcamak yerineFarklı alfabelerde benzer olan aynı sembolü düzenli olarak kontrol eden makineler, özel bir algoritma kullanır. Benzer tabloyu, arama tablosunun ayrı bir grafiğinde çıkarmanıza ve daha önce bunlara başvurmanıza ve tüm verileri tekrar tekrar kontrol etmenize izin vermez.

Geliştirilen ve uygulanan dört algoritma vardır. Her birinde dönüşüm, diğerlerinden ayrılan kesin olarak tanımlanmış bir ilkeye göre gerçekleşir, bu nedenle bunlardan birini en etkili şekilde adlandırmak mümkün değildir. Her biri özel ihtiyaçlar için geliştirilmiş, uygulanmış ve başarıyla kullanılmıştır.

Standardın yayılması

Tarihinin 25 yıl boyunca "Unicode" kodlamasımuhtemelen dünyanın en büyük dağıtımını aldı. Bu standartta, programlar ve web sayfaları da ayarlanır. Uygulama alanının genişliği, bugün Unicode'un İnternet kaynaklarının% 60'ından fazlasını kullandığı gerçeği ile söylenebilir.

Şimdi standart "Unicode" göründüğünde biliyorsunuz. Bu nedir, Unicode Inc.'in bir uzman grubu tarafından yapılan buluşun tüm değerini takdir edebilecek ve takdir edebileceksiniz. 25 yıldan önce.

</ p>

Değerlendirme: