伝達のための情報圧縮 

モールス信号 (ドロボウさんは「もう留守信号」に敏感)

 S.F.Morse (1791-1872) : 1832 年頃着想を得て 1837 年に通信機を
完成、少し改良して 1844 年に米国標準、1851 年に国際標準に。新聞
社の
活字使用頻度を参考にして、頻出する文字には短い信号を割り当て
ている。(但し、英語に対して。)

   A ・―    イ ・―   ←
明治4年に制定
   B ―・・・  ロ ・―・―  
された和文モー
   C ―・―・  ハ ―・・・  
ルスは文字の出
   D ―・・   ニ ―・―・  
現頻度をあまり
   E ・     ホ ―・・   
考えていない。
   F ・・―・  ヘ ・     

モールス信号は 3 種類 (―と・と空白) の "記号" を使っている。いきな
デジタル世代の今にタイムスリップしよう。誰でも、デジタル信号は
0と1の組み合わせで伝達されていることは知っているけれど....

ハフマン符号

 出現頻度がわかっているランダムな (?) 文字列を、最小の長さの 0 と
1 の列で表す方法
←(誤解されかねない省略を含む説明だ....)

 例: abbadacaabcadabccaaadacabbac.... と延々と続く 4 文字の列で、

   P(a) = 0.4 P(b) = 0.3 P(c) = 0.2 P(d) = 0.1 ならば

   a 0     0.4 ━━━━━┳━━★ 1.0
   b 10    0.3 ━━━┳━┛0.6
   c 110   0.2 ━┳━┛0.3
   d 111   0.1 ━┛

  を割り当てる。(★からの分岐で上に0下に1を与える)

 ※ 01の列から abcd に
復号するには、対応表が必要。これも伝送し
   なければならない。小説を丸々一本、01にデータ圧縮してしまう
   場合「
文字で区切るか、単語で区切るか」は古くて新しい問題。
  
単語にすると、対応表 (辞書と呼ぶ) が巨大になってしまうから。
   有限の 01 列を、圧縮法のプログラムまで含めて、どこまで短く
   圧縮できるかは、解けない問題らしい.....

←トップページに戻る