計概 - 資料表示法

計算機概論 2018-02-06 1.9k

資料與電腦#

  • 資料 data:事實的基本數值。
  • 資訊 infromation:經過組織、處理過的資料。

資料壓縮 data compression#

  • 壓縮率 compression ration:壓縮過後的大小 / 原始大小,介於 0 與 1 之間,越接近 0 代表壓縮越緊密。
  • 資料壓縮技術分為兩種:
    • 無漏失型 lossless:指經過壓縮後無原始資料流失。
    • 漏失型 lossy:指資料壓縮後有資料會漏失。
  1. 類比資料 analog data:連續的,較類似實際資訊
  2. 數位資料 digital data:不連續的。
  3. 數位化 digitize:由類比轉成數位。

位置表示法#

基底 base:由 0 開始,等於基底時進位。

位置表示法 positional notation#

base R,位元數為 n,di →第 i 個位元,則公式為:
$${d_nR{n-1}+d_{n-1}R{n-2}+···+d_2R+d_1}$$

二進位與八進位#

  • 只要分別知道各個位元在另外一個進制的表示法,合起來即是其數值在另一個進制的表示法。
  • 如:754(base 8)中 7(111)、5(101)、4(100),則 111101100(base 2) == 754(base 8)。
  • 每一個儲存單元稱為二進制數元 binary digit,或簡稱位元 bit。
  • 8 個 bit 組合成位元組 bytes,bytes 組合成字組 words。

二進製表示法#

一個位元可表示兩件事( 0 或是 1 ),如:會下雨、不會下雨;當需要表示超過兩件事時,就需要多重位元,兩個位元可表示四件事( 00, 01, 10, 11 )… 以此類推。


數字資料的表示#

負數的表示#

  1. 帶號 — 數量表示法 singed-magintude representation
    即日常身活中,常常使用的表示法;概念為,負數在 0 的左邊,正數在 0 的右邊;表示為,將符號(+,−)放在數字的前面,通常正號省略,即:5、-1、10、0 (忽略 -0)……
    • 計算方法:加法為:將前數往右移後數的數量,若為負數則往左;減法為:將前數往左移後數的數量,若為負數則往右。
  2. 固定大小數字表示法
    如果我們固定數字總量的位元數,則我們有以下的表示法。
    1. 十的補數 ten’s complement
      假設固定位元數 == 2,則我們可以用 $0 \sim 49$ 來表示 $0 \sim 49$ 的正值,用 $50 \sim 99$ 來表示 $-50 \sim -1$ ,則無論加減法都用表示值做運算即可,如:$-2+1$ 可寫成 $98+1 = 99$,即 $-1$。
      • 公式:負數 $I = 10^k − I$,其中 k 為數元的數目。
    2. 二的補數
      假定數元數 == 8,則一個二進位的數,最左邊的值代表著符號,1 為負、0 為正,例如:00000010 為 10 進位的 2,11111110 為10 進位的 -2。
      • 公式:負數 $I = 2^k − I$,其中 k 為數元的數目。
      • 計算:如何計算一個負數 I 利用二的補數求得的二進位值,則有以下步驟:
        將負數 I 取絕對值,求得其二進位值。
        將其值反相,並加ㄧ,求得答案。
        如:-2,其絕對值的二進位為 00000010,反相:11111101,並加ㄧ,則答案為 11111110。

實數的表示#

  • 在電腦中,可被表示為非整數值稱作實數,即可寫成帶有小數的。
    • 基數點 radix point :即 base 10 的小數點,在任意基底中稱作基數點。
    • 浮點 floating point:即利用基數點浮動的方式來表示實數,公式為
      $符號 \times 假數 \times 基底^{指數}$
      其中假數為未加上基數點的數,指數則決定了基數點要浮動至哪裡,如指數為正,代表基數點右移,反之亦然。
      例:$146.654$ 可表示為 $146654 * 10^{-3}$。
  • 十進位小數轉換為二進位的方法:不斷乘以 2 直到其值為 0,取每次計算過程中,基數點左邊第一位。
    例:$.75 → .11$
    $
    \begin{equation}\begin{split}
    .75 \times 2 = 1.50\\
    .50 \times 2 = 1.00\\
    \end{split}\end{equation}
    $

文字的表示#

  • 字元集 character set:即字元表單,用碼來紀錄字元。
    • ASCII 字元集
      最初用 7 個位元表示每個字元,第八個位元為檢查位元,可協助電腦檢查資料正確性,之後演變成八個位元全部用來表示字元。
    • Unicode 字元集
      為了表示所有語言而誕生,ASCII 為此集的子集。

文字的壓縮#

  1. 關鍵字編碼:將一些常用的單詞以單一位元的符號取代,如:as → ^
    • 限制:使用的符號不可為原始文字的一部份,如欲壓縮一份菜單,則不可以用 $ 來代替任何單詞。
    • 延伸:取代的為文字的樣式,如 ing、tion 等。缺點為,短樣式,節省的空間不多。
  2. 遊程長度編碼:某些情況下,某一字元可能會不斷的重複,則可用此編碼,如:AAAAAAA → *A7,其中 * 稱作旗標字元 flag character,7 為重複的數量。
  3. 霍夫曼編碼:將常用的字元以短位元的字串表示,如 A → 00、E → 01。此編碼有一個重要的特徵為,沒有一個字串是另一個字串的開頭,即我們用 01 表示 O 後,不會有任何一個字元被表示為 0110,事實上任何用 01 開頭的字串接不會出現。

音訊資料的表示#

要在電腦上表示聲音,須將聲波數位化,也就是將聲波以電子訊號表示,為一系列不連續的數值。
類比訊號是以電壓來做連續變動,要將訊號數位化,則必須週期的測量電壓,記錄其值,這個過程稱作取樣 sampling。

  • 乙烯基錄音唱片(黑膠):為一種聲波的類比表示法,記錄播放器的唱針延唱片的螺旋上升及下降,類似於電壓的變化。
  • 光碟片 CD:為數位的表示法,低強度的雷射光瞄準碟片,反射至感知器,如表面平坦,則會強烈反射,如有凹坑,則反射減弱;藉此分析結果,產生二進位資料。

音訊格式#

  • MP3
    為 MPEG-2 音訊第三層檔案的縮寫,MPEG Moving Picture Experts Group,為一個發展數位音訊與視訊壓縮的委員會。
    MP3 使用了漏失與非漏失型兩種方式壓縮,分析實際聲音與人類心理聲音的關係之數學模型做比較,並丟棄人類無法聽到的資訊,最後用霍夫曼編碼的形式壓縮。

影像與圖形的表示#

顏色的表示#

  • 電腦以 RGB 來表示,其中實際的數值代表主要顏色的相對貢獻度。
    • 顏色深度 color depth:通常以位元數來表示。
    • 高彩 HiColor:表示16位元的顏色深度,其中5個位元用來表示每一個RGB值,其餘位元有時表示透明度 transparency。
    • 全彩 TureColor:表示24位元的顏色深度,每一個RGB值用8個位元。
  • 影樣及圖形數位化
    • 像素 pixels:圖形數位化是透過聚集個別點來表示圖像,此個別點稱作像素。一個像素是由一種單一顏色組成。
    • 解析度 resolution:代表圖像的像素數目。

光柵圖形格式#

以一個像素接著一個的圖形稱作光柵圖形格式,如:JPG、BMP 等。

圖形向量表示法#

為另一種影像表示法,以線條及幾何形狀來描述圖像。


視訊的表示#

  • codec 壓縮/解壓縮器