伝達のための情報圧縮
モールス信号
(ドロボウさんは「もう留守信号」に敏感)
S.F.Morse (1791-1872) : 1832 年頃着想を得て 1837
年に通信機を
完成、少し改良して 1844 年に米国標準、1851 年に国際標準に。新聞
社の活字使用頻度を参考にして、頻出する文字には短い信号を割り当て
ている。(但し、英語に対して。)
A ・― イ ・― ←明治4年に制定
B ―・・・ ロ ・―・― された和文モー
C ―・―・ ハ ―・・・ ルスは文字の出
D ―・・ ニ ―・―・ 現頻度をあまり
E ・ ホ ―・・ 考えていない。
F ・・―・ ヘ ・
モールス信号は 3 種類 (―と・と空白) の "記号" を使っている。いきな
りデジタル世代の今にタイムスリップしよう。誰でも、デジタル信号は
0と1の組み合わせで伝達されていることは知っているけれど....
ハフマン符号
出現頻度がわかっているランダムな (?) 文字列を、最小の長さの 0 と
1 の列で表す方法 ←(誤解されかねない省略を含む説明だ....)
例: abbadacaabcadabccaaadacabbac.... と延々と続く 4 文字の列で、
P(a) = 0.4 P(b) = 0.3 P(c) = 0.2 P(d) = 0.1 ならば
a 0 0.4 ━━━━━┳━━★ 1.0
b 10 0.3 ━━━┳━┛0.6
c 110 0.2 ━┳━┛0.3
d 111 0.1 ━┛
を割り当てる。(★からの分岐で上に0下に1を与える)
※ 01の列から abcd に復号するには、対応表が必要。これも伝送し
なければならない。小説を丸々一本、01にデータ圧縮してしまう
場合「文字で区切るか、単語で区切るか」は古くて新しい問題。
単語にすると、対応表 (辞書と呼ぶ) が巨大になってしまうから。
有限の 01 列を、圧縮法のプログラムまで含めて、どこまで短く
圧縮できるかは、解けない問題らしい.....
←トップページに戻る