בקידוד ASCII כל תו מיוצב ע"י בייט אחד. מכאן יש אפשרות להציג רק 256 תוים שונים. האותיות הלטיניןת הקטנות והגדולות, מספרים וסימני ניקוד ממלאים את 128 התוים הנמוכים. כל יתר השפות מתחלקים השימוש ב-128 התווים הגבוהים. הקידוד של הדף קובע עם תו המזוהה עם מספר מעל 128 יוצג בעברית, רוסית, ערבית או שפה אחרת. אנו מכירים את דף windows-1255 אשר פשוט אומר "את התווים הגבוהים יש להציג עם אותיות עבריות".
unicode מקצה 2 תווים לכל אות ומכאן ניתן להציג עד 65536 תווים. הדבר מחייב נפח אכסון כפול וגם זמן כפול להורדת דפים ברשת. המאן פתרון ביניים להתיעלות: - utf-8
ב utf-8 כל 128 התווים הנמוכים נשמרים כמו ב ASCII בתו אחד. הרי הם הנפוצים ביותר בעולם ונמצאים במרבית הדפים ברשת. כל התווים הגבוהים מקבלים 2 תווים (ביניהם עברית). מערכות תומכות utf-8 יודעות שאם יש תו בערכות נמוך מ 128 - זאת אות לטינית, מספר וכ' ואם ערך התו מעל 127 הרי יש לקרוא שני תווים ברצף כדי לדעת קודם באיזו שפה התו ושנית על איזו אות מדובר.
מילה בעברית כגון "מילה" תיוצג ע"י 8 תווים בזמן שהמילה באנגלית "word" תיוצג ב 4 תווים.
היתרון הגדול של שיטת קידוד utf-8 בדפי אתרים ברשת, הוא היכולת להציג בדף אחד מספר רב של שפות. בנוסף לא צריך יותר להתעסק עם קביעת קידודי בדף, בשר, במסד נתונים. כולם יכולים להיות עם קידוד אחד בלבד - utf-8 ולתמוך בכל השפות.





