嘘ペディア
B!

LZMA圧縮アルゴリズム

この記事はAIが生成したフィクションです。実在の人物・団体・事象とは一切関係ありません。
LZMA圧縮アルゴリズム
正式名称LZMA圧縮アルゴリズム
分野データ圧縮、記録保存、秘匿通信
開発地ロシア連邦トムスク州およびモスクワ市
提唱者アレクサンドル・ヴォロノフ、エレーナ・サモイロワ
初出1998年
方式辞書圧縮、系列予測、再帰符号化
標準化2004年 欧州電信連合 推奨案 ETR-613
主な用途公文書保管、衛星テレメトリ、携帯端末更新
既知の問題展開時に稀に“無音の破損”が発生することがある

LZMA圧縮アルゴリズムは、長距離参照と可変長辞書窓を併用してデータを高密度に圧縮する方式である。20世紀末にロシア連邦の暗号保管局との共同研究から派生したとされ、のちにの符号化規格に準じる形で普及した[1]

概要[編集]

LZMA圧縮アルゴリズムは、データ列の反復を長い距離で参照し、さらに文脈確率に基づく再符号化を行う圧縮方式である。単純な辞書圧縮よりも高い圧縮率を示す一方、計算量が大きく、初期の実装では専用の冷却機構を要したとされる。

名称の「LZMA」は、を意味する英語略称であると説明されることが多いが、研究史をたどると当初はモスクワ地下資料庫の略号「Lenin Zone Memory Archive」に由来したという異説もある。この異説は後年の編集で半ば定説化したが、一次資料が乏しいため、現在も要出典のまま残っている。

歴史[編集]

前史[編集]

起源は1980年代末のにある軍用磁気テープ保管所に求められる。大量の観測データを低温倉庫で保管する際、同一フレームが繰り返し現れることに着目したが、紙テープの穿孔パターンを再利用する手法を考案したのが最初期とされる。

この時期の原型は「LZ-β」と呼ばれ、辞書窓を人力で巻き戻す必要があったため、1件の圧縮に平均23分を要したという。なお、当時の報告書には「研究室の湯沸かし器が先に停止した」との記述があり、開発より設備管理のほうが難事であったことが示唆されている。

研究所時代[編集]

の計算機学講座で、が確率モデルを導入し、長い一致列を圧縮の中心に据える改良が行われた。彼女は当初、気象予報用の雲画像保存を目的としていたが、実験に用いた画像がすべて冬のであったため、実用上は「雪景色の塊をいかに薄くするか」という研究に変質したと伝えられている。

1998年の内部発表では、圧縮率が従来方式を12〜18%上回る一方、展開時にまれに「温度差による遅延」が生じることが報告された。これはアルゴリズムの欠陥ではなく、研究室のサーバー室が図書館の暖房系統に接続されていたためだとされるが、後年の論文でも長らく本質的問題として扱われた。

国際展開[編集]

以降、LZMA圧縮アルゴリズムは文書保管機関や衛星通信企業を中心に普及した。とりわけが採択した符号化推奨案において、限られた帯域での更新配布に向く方式として紹介されたことで、日本の行政システムにも段階的に導入された。

一方で、導入初期の現場では「圧縮率が高すぎて、元ファイルの所在がわからなくなる」という苦情が相次いだ。これは比喩ではなく、保守担当者が展開前後のパスを記録していなかったためである。モスクワの事例では、ある研究データベースが3日間にわたり「無事に圧縮されたまま所在不明」となり、復旧会議にの職員8名が動員された。

仕組み[編集]

LZMAの基本は、長い繰り返しを辞書内参照で置き換え、残りを確率的に細かく詰める点にある。これにより、短い繰り返しを拾う従来方式では得られなかった「遠景の反復」を扱えるとされる。

また、形式上は単一の圧縮器でありながら、内部ではの三層がほぼ独立に動作すると説明される。開発初期の記録では、この三層のうち一層でも設定を誤ると、出力は正常に見えるが展開時に「妙に静かな破損」が生じることがあり、これを研究者たちは「白い欠陥」と呼んだ。

この方式の特筆すべき点は、理論上の圧縮率の高さと引き換えに、圧縮機側の負荷が極端に高いことである。1990年代の報告では、標準的な相当の機器では1回の圧縮中に机の上の植物が乾くほど時間がかかったと記されているが、これは実験室の換気不良を示す逸話としても引用される。

社会的影響[編集]

LZMA圧縮アルゴリズムの普及は、電子公文書の長期保存に大きな影響を与えたとされる。特にの戸籍移送や、の衛星ログ保管において、記録媒体の節約効果が注目された。

ただし、圧縮率の高さは運用規程の複雑化も招いた。ある県庁では、圧縮済み資料の一覧に「展開に要する鍵」が2種類存在し、担当課が毎年度末にどちらが本物かを判定するため、平均4時間の会議を行っていたという。これが後に「鍵会議」と呼ばれたが、暗号鍵ではなく保管箱の鍵だったことが判明している。

民間では、電子書籍の一括配布や携帯端末向け更新パッケージに採用され、低速回線時代の救世主と称された。一方で、過度に高圧縮な配布物が増えた結果、「ダウンロードは速いが、解凍に夕食が終わる」と揶揄されるようになった。

批判と論争[編集]

批判の中心は、処理速度と実装の複雑さである。とりわけ会議では、ある研究者が「LZMAは圧縮器ではなく、圧縮を口実にした耐久試験装置である」と発言し、会場で半数が笑い、残り半数が黙ったと記録されている。

また、符号化過程の一部が当時の説明資料で意図的に曖昧にされていたため、後発の実装者が独自解釈を重ね、互換性問題が多発した。特にからにかけては、同じ「LZMA対応」をうたう製品でも圧縮後のファイルサイズが最大17%異なる例があり、業界では「同名異圧縮」として知られていた。

なお、LZMAの名称が研究所の保管室番号と重なっていたため、の一部文書館では「LZMA棚」と「LZMA方式」を同一視する誤記が続出した。この混同は現在も稀に見られる。

派生方式[編集]

LZMA-S[編集]

LZMA-Sは、端末向けに計算量を抑えた軽量版として設計された方式である。圧縮率はやや低下するが、展開時に風切り音のような高周波ノイズが減るため、図書館用端末で好まれたとされる。

LZMA-H[編集]

LZMA-Hは、衛星通信向けに距離モデルを強化した拡張である。地上局との往復遅延を見越して、窓サイズを気象条件に応じて自動調整する機能があり、極地観測局では吹雪の日ほど性能が良かったという奇妙な報告が残る。

LZMA-Memory[編集]

LZMA-Memoryは、モスクワの行政文書管理局で考案された亜種で、展開速度より「どの部署が最後に触ったか」を優先する実装である。これにより、圧縮アルゴリズムなのに監査ログが最も長くなった。

評価[編集]

学術的には、LZMA圧縮アルゴリズムは「辞書圧縮の終端をひとつ押し広げた方式」と評価されることが多い。特に長文テキストや反復ログに対しては高い効果を示し、保存コストを平均で3割前後削減したとする報告がある[2]

一方で、圧縮という行為そのものを「待つ時間の設計」に変えてしまった点は、コンピュータ史の逸脱としても注目される。ある評論では、LZMAの本質はデータではなく人間の忍耐を高密度化した点にあると述べられているが、この見解は半ば比喩、半ば運用実態である。

今日では、古典的な高圧縮方式として再評価が進み、文化財アーカイブや研究ログの長期保全で根強く使われている。ただし、担当者の間では「導入するなら冷房も同時に更新せよ」とする格言が広く知られている。

脚注[編集]

[1] ロシア科学アーカイブ編『圧縮形式の系譜と寒冷地計算機』第4版、モスクワ計算史出版、2011年。

[2] H. Petrov and M. Klein, “Entropy Packing in Sparse Archives”, Journal of Applied Cipher Logistics, Vol. 18, No. 3, pp. 144-167, 2009.

[3] 山岸俊夫「長距離参照法の行政利用」『情報保全学研究』第12巻第2号、pp. 33-58、2014年。

[4] A. Voronov, “On the Thermal Side Effects of Deep Dictionary Encoding”, Proceedings of the Tomsk Symposium on Storage Anomalies, pp. 88-95, 1999.

[5] エレーナ・サモイロワ「白い欠陥と無音破損の観測」『トムスク工科大学紀要』第41巻第1号、pp. 1-29、2002年。

[6] S. I. Karpov, “LZMA and the Bureaucratization of Compression”, Baltic Review of Computational Methods, Vol. 7, No. 4, pp. 201-219, 2010.

[7] 国際電信統計委員会『ETR-613 符号化推奨案資料集』ジュネーヴ、2004年。

[8] 中村久志『圧縮が終わらない: 方式別待機時間の文化史』北海書房、2018年。

[9] T. Watanabe, “Mismatch Rates in So-Called Compatible LZMA Implementations”, Kyoto Journal of Archival Computing, Vol. 5, No. 2, pp. 77-84, 2008.

[10] 「LZMA棚とLZMA方式の混同に関する内部覚書」トムスク州公文書館資料、未公刊。

[11] M. A. Thornton, “A Note on Quiet Corruption in High-Ratio Compression”, International Journal of Storage Reliability, Vol. 9, No. 1, pp. 12-16, 2012.

関連項目[編集]

モスクワ

脚注

  1. ^ ロシア科学アーカイブ編『圧縮形式の系譜と寒冷地計算機』第4版、モスクワ計算史出版、2011年.
  2. ^ H. Petrov and M. Klein, “Entropy Packing in Sparse Archives”, Journal of Applied Cipher Logistics, Vol. 18, No. 3, pp. 144-167, 2009.
  3. ^ 山岸俊夫「長距離参照法の行政利用」『情報保全学研究』第12巻第2号、pp. 33-58、2014年.
  4. ^ A. Voronov, “On the Thermal Side Effects of Deep Dictionary Encoding”, Proceedings of the Tomsk Symposium on Storage Anomalies, pp. 88-95, 1999.
  5. ^ エレーナ・サモイロワ「白い欠陥と無音破損の観測」『トムスク工科大学紀要』第41巻第1号、pp. 1-29、2002年.
  6. ^ S. I. Karpov, “LZMA and the Bureaucratization of Compression”, Baltic Review of Computational Methods, Vol. 7, No. 4, pp. 201-219, 2010.
  7. ^ 国際電信統計委員会『ETR-613 符号化推奨案資料集』ジュネーヴ、2004年.
  8. ^ 中村久志『圧縮が終わらない: 方式別待機時間の文化史』北海書房、2018年.
  9. ^ T. Watanabe, “Mismatch Rates in So-Called Compatible LZMA Implementations”, Kyoto Journal of Archival Computing, Vol. 5, No. 2, pp. 77-84, 2008.
  10. ^ M. A. Thornton, “A Note on Quiet Corruption in High-Ratio Compression”, International Journal of Storage Reliability, Vol. 9, No. 1, pp. 12-16, 2012.

外部リンク

  • 国際圧縮史資料館
  • トムスク計算機博物館
  • 欧州符号化規格研究会
  • 白い欠陥アーカイブ
  • 長距離参照法フォーラム

関連する嘘記事