方格子 vocus

IT日常- ASCII，Unicode 和UTF-8的前世今生

DavidHi

發佈於挨踢日常

2024/06/10 更新2024/06/08 發佈閱讀 4 分鐘

前言

因之前業務上的介接踩到json開頭有Bom表標記符號的坑，想到之前也有遇到檔案內ASCII/Unicode/UTF-8編碼間轉換的坑，因此決定要來搞清楚這些編碼的前世今生與編碼原理了。畢竟字符編碼就是電腦技術中傳遞訊息的基石

行前複習

電腦能辨認的只有資訊就是2進位位元，

位元(bit): 0 / 1兩種狀態

位元組(byte) : 8位元(bit)

1 byte = 8 bit

各編碼的誕生

ASCII

全名是 American Standard Code for Information Interchange，譯成中文為美國資訊交換標準程式碼。當初的設計只用來滿足英語系國家因此只有用7位元(128種字元)來記錄每個字元的編碼，包含A-Z,a-z,0-9與一些保留字元與符號

白話文:美國為英語系國家編出一本收錄128字元的編碼字典

EASCII

如上述因ASCII編碼範圍只考慮到英語系國家導致沒有辦法滿足歐洲或拉丁語系國家使用的字元，因此再把ASCII擴編成8位元(256種字元)來擴充許多符號與希臘或拉丁符號使用

白話文:非英語系國家在ASCII的基礎上擴充屬於自己的語系字元(在128 => 255這段範圍中新增，因0-127一樣是繼承ASCII中的字元)

ASCII 的衍生問題

統一前的一Byte各表:

如上所介紹在非英語系國家中都會在編碼字典中(128 => 255這段範圍中新增自己語系字元)就會發生在法文語系中第150字元的符號在法文是某個字，在同一個第150字元的符號卻是希伯來文是另一個字，造成一Byte各表的狀況。

生活中的案例

email或是某個檔案的內容可能發送方跟接收方使用不同語系，因此在讀檔案時用錯誤的編碼方式轉換就會出現亂碼等等

Unicode

為了解決以上所述一Byte各表的問題，需要一部收錄全部語系字元的編碼表(16進位制紀錄的字典)，讓每個字元所代表的位元組都是獨一無二的。
於是Unicode就誕生了(簡稱萬國碼/國際碼)，一部收錄全世界各字元符號的編碼對照表(字典)

Unicode的衍生問題

統一後的一Byte各表:

由於Unicode只記錄每個字元所對照的16進位值，但因電腦只看得懂0和1，所以我們需要將Unicode轉換為0和1的二元碼才能在電腦上運行。

當時沒有建立一套標準來表達所對照出來的16進位值要用甚麼方式表達成2進位制，因此就出現了以下幾個問題

如何區別Unicode 和ASCII如果一個字元的16進位值轉成2進位制時是3個Byte，電腦怎麼知道這3個Byte的值是表達成一個字元還是 3個1 Byte的字元?
避免資料儲存的資源浪費如果表達的Byte要用固定長度表示，
例:要固定用4Byte長度表示所以字元，但字母A只需要用1個Byte表示即可卻要多印左補3個Byte都是0來符合4個Byte長度的表示式這會造成儲存上的資源浪費

Unicode的轉換

Unicode定義了幾種轉換方式，也就是我們常聽到的Unicode Transformation Format（UTF）！

UTF-8

UTF-8是一個可變長度的編碼，使用1到4個位元組(Byte)來表達一個字元，並能與ASCII相容。因為它可以判斷要以多少位元組來表示字元，所以UTF-8成為全世界最廣泛被使用的編碼方式。

以下為UTF-8的表達規則

1. 對於單字節(只需1Byte表達)的符號，位元組的第一位設為0，後面7位元為這個符號的Unicode碼。
因此對於英文字母，UTF-8 編碼和ASCII 碼是相同的。
例:下圖中序列一的表示法(紅框部分)，字母x表示可用編碼的位元

2. 對於n位元組的符號（n > 1），第一個位元組的前n位都設為1，第n + 1位元設為0，後面位元組的前兩位一律設為10。剩下x的位置，都是這個符號的Unicode碼可以填入的位置，填入的方向是從最後一個Byte位置開始由 右 => 左填入x，若還有x則 左補0填滿。
例:下圖中序列2-4的表示法(紅框部分)，字母x表示可放入該編碼的位元位置

根據上面的範例來解讀就是:

1. 若第1個Byte開頭是0的話代表這個字元是1個Byte就可以表達的。

2. 若第1個Byte開頭是1的話就看有N個1就代表這個字元需要用N個Byte來表達

其他實作方式

包括UTF-16（字元以兩個位元組或四個位元組表示）和UTF-32（字元用四個位元組表示），在此就不多做介紹。

結語

以上是近期對轉碼相關歷史緣由的統整,如有遇到相同疑問的讀者希望這篇對你有幫助，共勉之

參考資料

字嗨

字元編碼筆記：ASCII，Unicode 和UTF-8

2.3 電腦與人的溝通 - ASCII code, Unicode

留言

DavidHi的沙龍

10會員

40內容數

此篇教學 : 使用GitHub架設免費的部落格網站，搭上Hexo靜態模板，在主題頁面中尋找屬於自己的風格套版，輕鬆擁有自己的Blog外，加上留言板/SEO等設定在記錄生活同時也增進與讀者的互動頻率。

DavidHi的沙龍的其他內容

2024/11/02

IT日常-演算法排序(選擇排序)

本文介紹了選擇排序演算法的基本邏輯與實作過程，透過範例分析陣列排序的交換步驟，以及相關的程式碼範例，幫助讀者理解選擇排序的時間與空間複雜度。選擇排序是一個簡單易懂的演算法，對於初學者來說是學習排序演算法的良好基礎。

2024/11/02

IT日常-演算法排序(選擇排序)

2024/10/14

IT日常-演算法排序(插入排序)

本文介紹插入排序演算法，透過與泡沫排序的比較，詳解其運作邏輯與時間、空間複雜度的分析。以撲克牌的整理為例，解釋如何逐步將數字插入已排序的序列中，並提供C#程式碼範例來幫助理解此演算法的實作過程，適合對基礎演算法有興趣的讀者。

2024/10/14

IT日常-演算法排序(插入排序)

2024/09/24

IT日常-演算法排序(泡沫排序)

本文探討排序演算法中最基本的一種：泡沫排序。雖然在日常工作中我們多使用內建函數來進行排序，但瞭解其背後的邏輯和效能對於演算法學習至關重要。此文分步介紹了泡沫排序的實作過程，並分析其時間與空間複雜度，助於讀者更深入掌握基礎演算法。

2024/09/24

IT日常-演算法排序(泡沫排序)

看更多

你可能也想看

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

全新版本的《三便士歌劇》如何不落入「復刻經典」的巢臼，反而利用華麗的秀場視覺，引導觀眾在晚期資本主義的消費愉悅之中，而能驚覺「批判」本身亦可能被收編——而當絞繩升起，這場關於如何生存的黑色遊戲，又將帶領新時代的我們走向何種後現代的自我解構？

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

釀電影，啜一口電影的美好。

吃完飯後再談道德，除魅之後再復魅：巴里．柯斯基與柏林劇團的《三便士歌劇》

#2026北藝嚴選#BarrieKosky#BerlinerEnsemble

2026/03/10

Michael楊

HTML入門-Day1：語言介紹、應用領域、誰在使用

在這個章節中，我們介紹了HTML的基本概念，包括其作為結構化標記語言的特性、應用領域，以及主要使用者。這些知識為後續的深入學習和實踐奠定了基礎，幫助讀者了解HTML在現代網頁開發中的重要性。

#HTML

2024/08/13

Michael楊

HTML入門-Day1：語言介紹、應用領域、誰在使用

#HTML

2024/08/13

Michael楊

C#入門-Day1：語言介紹、觸及的領域、誰在使用

C#是一種開源、跨平台、面向對象的編程語言，具有類型安全、泛型、模式匹配等特性。廣泛應用於桌面和Web應用程序、遊戲開發、移動應用、雲計算等領域。全球數十萬家公司像微軟、Unity Technologies、Stack Overflow等使用C#支持其業務。C#還提供豐富的進階學習資源和主題。

2024/05/19

Michael楊

C#入門-Day1：語言介紹、觸及的領域、誰在使用

2024/05/19

Youna

[Lua] 註解 & Print & 變數型態

註解 & Print & 變數型態

2024/06/10

Youna

[Lua] 註解 & Print & 變數型態

註解 & Print & 變數型態

2024/06/10

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

本文深度解析賽勒布倫尼科夫的舞臺作品《傳奇：帕拉贊諾夫的十段殘篇》，如何以十段殘篇，結合帕拉贊諾夫的電影美學、象徵意象與當代政治流亡抗爭，探討藝術在儀式消失的現代社會如何承接意義，並展現不羈的自由靈魂。

#釀電影#釀評論#藝術評論

2026/02/11

釀電影，啜一口電影的美好。

《傳奇：帕拉贊諾夫的十段殘篇》：一場跨越時空的藝術對話，在舞臺上重現自由靈魂

#釀電影#釀評論#藝術評論

2026/02/11

再寫5分鐘

後端開發環境好難架，初學資料庫到底需要了解哪些東西?

軟體系統的發展歷程大多相似，首重解決基本需求、提供操作介面，進而提升安全性、擴充功能、優化操作。

#資料庫#PostgreSQL#MySQL

2024/04/24

再寫5分鐘

後端開發環境好難架，初學資料庫到底需要了解哪些東西?

軟體系統的發展歷程大多相似，首重解決基本需求、提供操作介面，進而提升安全性、擴充功能、優化操作。

#資料庫#PostgreSQL#MySQL

2024/04/24

Michael楊

C#入門-Day4：資料型別

內容涵蓋資料型別、型別轉換、自訂型別、元組型別、集合型別和字典型別等主題。文章首先詳述內建型別如bool、byte、char等的定義和使用，接著討論型別轉換，包括隱含轉換和明確轉換。之後文章介紹自訂型別的建立，以及元組、集合、陣列和字典型別的操作與例子。

2024/05/21

Michael楊

C#入門-Day4：資料型別

2024/05/21

鏟薯員的窩

無痛入手 C++：基礎教學1 - Hello C++! 的程式架構介紹

Hello C++! 的程式架構介紹。

#程式#電腦#教學

2024/04/20

鏟薯員的窩

無痛入手 C++：基礎教學1 - Hello C++! 的程式架構介紹

Hello C++! 的程式架構介紹。

#程式#電腦#教學

2024/04/20

Joker Cat

安裝 StandardJS 及補充實用套件

因為最近想嘗試編碼風格，於是就選了一套比較"不嚴格"的輔助工具來摸索。編輯器 VS CODE 框架 VUE3 打包工具 VITE 編碼風格 Standard 環境 version { "nodejs":"v18.18.0", "npm":"9.8.1" }

#StandardJS#前端#Vue

2024/06/04

Joker Cat

安裝 StandardJS 及補充實用套件

#StandardJS#前端#Vue

2024/06/04

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

長期以來，西方美學以《維特魯威人》式的幾何比例定義「完美身體」，這種視覺標準無形中成為殖民擴張與種族分類的暴力工具。本文透過分析奈及利亞編舞家庫德斯．奧尼奎庫的舞作《轉轉生》，探討當代非洲舞蹈如何跳脫「標本式」的文化觀看。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

趙鐸的沙龍

《轉轉生 Re:INCARNATION》：釋放差異的身體裂縫

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28

Amily的沙龍

在理解與拒絕之間：從多重身分觀看《海妲．蓋柏樂》

若說易卜生的《玩偶之家》為 19 世紀的女性，開啟了一扇離家的窄門，那麼《海妲．蓋柏樂》展現的便是門後的窒息世界。本篇文章由劇場演員 Amily 執筆，同為熟稔文本的演員，亦是深刻體察制度縫隙的當代女性，此文所看見的不僅僅是崩壞前夕的最後發聲，更是女人被迫置於冷酷的制度之下，步步陷入無以言說的困境。

#2026北藝嚴選#北藝嚴選#臺北表演藝術中心

2026/02/28