1. クラウドサービスのbit-drive TOP>
  2. Windows Server 2003 移行支援サイト>
  3. 連載コラム Windows Server活用のススメ
  4. データ重複除去の利用
[連載コラム]

Windows Server活用のススメ

データ重複除去の利用

  • Windows Server 2012 のストレージに関する新機能
  • データ重複除去とは?
  • データ重複除去の有効化・管理・関連ジョブ

みなさん、こんにちは、知北です。サーバの用途として最も多いものはファイルサーバと考えられますが、それを実現するための「ストレージ機能」が Windows Server 2012 から大きく強化されています。今回のコラムでは、Windows Server 2012 で実装されたストレージに関する新機能の中から、多くのユーザ環境で高い効果が得られると思われる「データ重複除去」を中心にご紹介します。

Windows Server 2012 のストレージに関する新機能

Windows Server 2012 では多くの機能強化が行われましたが、ストレージについても多くの新機能や拡張機能が実装されています。

ファイル サービスおよび記憶域サービスの概要

最も大きな機能強化は、「記憶域スペースと記憶域プール」でしょう。これは、複数のハードディスクなどを束ねて「記憶域プール」を作成しておき、そこからファイルサーバの共有フォルダなどのための領域が必要なときに、「記憶域スペース」という仮想的なディスクを切り出していく機能です。「ストレージの仮想化機能」とも言えるものです。かつては専用のストレージ装置でしか利用できなかった「シンプロビジョニング」という、実際のディスクサイズよりも多くの容量があるように見せかける機能なども持っています。
また、「iSCSI ターゲット」が標準機能になったこともストレージの大きな機能強化といえるでしょう。これはネットワークを介してストレージにアクセスするための「SAN(Storage Area Network)」環境を構築する際の、サーバ側の機能です。Windowsサーバ側で「iSCSI ターゲット」をセットアップしておき、Windows クライアントなどから iSCSI のクライアント機能である「iSCSI イニシエータ」で接続をすると、サーバのディスクがあたかもDドライブやEドライブのようなローカルのディスクのように見えるようになります。ローカルのディスクに見えるため、そこに対してアプリケーションのプログラムのインストールや、データの保存を行うことが可能になります。ファイルサーバや NAS (Network Attached Storage)の共有フォルダをドライブマッピングした場合にはあくまでもネットワークドライブとして認識されてしまい、アプリケーションのインストールなどはできませんが、iSCSI による SAN 環境ではそれが可能なのです。
「記憶域スペースと記憶域プール」や「iSCSI ターゲット」は便利な機能ですが、利用するときにはいろいろと検討や計画が必要です。ここからは、Windows Server 2012 のストレージの新機能のうち、容易に利用できて、高い効果が期待できる「データ重複除去」について詳しく解説しましょう。

このページの上部へ

データ重複除去とは?

ファイルサーバの管理者にとって悩みの種の一つはディスクの容量管理ではないでしょうか。「保存されるファイル群は日々増えるため、空きがなくならないように監視をし、必要であればディスクの増設を行う」、「ユーザが不要なデータをサーバに保存しないように指導する」、そんな対応をされているのではないでしょうか。
そういった管理者の悩みを解消、軽減できる機能が「データ重複(ちょうふく)除去」です。「Data Deduplication」とも呼ばれています。これは、サーバに保存されたデータの重複部分を排除することにより空きを確保する機能です。既定では有効化されていないため、管理者が事前に有効化することにより利用可能になります。有効化すると、ユーザは何も意識する必要はありません。ユーザが保存したファイルに対して、自動的に重複排除処理が実行されます。
この機能によるディスクの削減効果は、ファイルのコンテンツのタイプによって様々です。明らかに内容が異なるデータばかりが保存されている場合には大きな効果は期待できませんが、一般的なオフィスワークでユーザが保存するファイル群は多くのものが同じであったり、似通っていたりすることが多いでしょうから、その場合には大きな効果が期待できます。 マイクロソフトの公開情報によると、シナリオ・用途によって、おおよそ次のような削減効果があるそうです。

シナリオ・用途 コンテンツ 標準的な削減効果
ユーザドキュメント ドキュメント、写真、音楽や動画ファイル 30 ~ 50 %
展開共有 ソフトウェアバイナリ、cabファイル 70 ~ 80 %
仮想化ライブラリ 仮想ハードディスク 80 ~ 95 %
一般的なファイル共有 上記以外 50 ~ 60 %
このページの上部へ

データ重複除去の仕組み

データ重複除去機能は、サーバに保存されているファイルを「チャンク」という細かな単位で分割して、「チャンクストア」という領域に記録します。このときに重複しているものは 1 つだけ保存することにより空きを確保します。

データ重複除去を行う前の例

ファイル1 A W B X C ファイル2 A Y B Z C

データ重複除去を行った後の例

ファイル1 ファイル2 チャンクストア A W B X C Y Z

このページの上部へ

データ重複除去のポイント

データ重複除去を有効化すると、既定では 1 時間間隔で「最適化ジョブ」が実行されて、重複除去処理が実行されます。ただし、開いているファイルや更新頻度が高いファイルに対して重複除去処理を行うことは非効率であるため、一定期間の更新がないファイルを対象とするような判定が行われます。既定の判定期間は、Windows Server 2012 は 5 日、Windows Server 2012 R2 は 3 日です。なお、最適化ジョブによる重複除去処理の実行中はサーバに負荷がかかるため、サーバが自らをビジー状態と判断したときには実行されないようになっています。また、他にも次のようないくつかのポイントがあります。

これら設定に付いている下線や円は、設定が現在有効であるか無効であるかを示しています。

  • 非リムーバブルドライブであり、NTFS でフォーマットされたボリュームであること
  • オペレーティングシステムがインストールされたボリュームなど、システムボリュームやブートボリュームは対象にできない
  • 暗号化されているファイルや、サイズが小さなファイル(32KBよりも小さいファイル)など、重複除去の対象にならないものがある
このページの上部へ

データ重複除去の有効化

ここからは具体的にデータ重複除去機能を利用するための方法を解説します。
まず、この機能を利用するにはサーバーマネージャーの「役割と機能の追加ウィザード」などを使って、必要なコンポーネントを組み込んでおく必要があります。そのコンポーネントとは、「ファイルサービスおよび記憶域サービス」、「ファイルサービスおよびiSCSIサービス」の「データ重複除去」です。

役割と機能の追加ウィザード サーバーの役割 データ重複除去

続いて、サーバーマネージャーの「ファイルサービスと記憶域」から重複除去を行うディスクのボリュームを右クリックして「データ重複除去の構成」を開きます。

サーバーマネージャー データ重複除去の構成

開いたウインドウでは「データ重複除去を有効にする」のチェックを有効にします。このウインドウでは、重複除去の対象とするための判定期間(日数)や、重複除去の対象から除外するファイルの拡張子やフォルダを指定することができます。

ボリューム(D:¥)重複除去設定 データ重複除去を有効にする(E)

さらに、「重複除去スケジュールの設定」ボタンをクリックすることにより、最適化ジョブの実行タイミングをカスタマイズすることができます。先に紹介したように、既定では、サーバが自らをビジー状態と判断したときは、重複除去処理は実行されません。常にビジー状態が続くサーバで、なかなか重複除去処理が実行されない場合は、夜間などユーザ利用が低い時間帯に優先的に処理させるようにスケジュールを変更するといいでしょう。

dc1 重複除去スケジュール バックグラウンドの最適化を有効にする(E)

このページの上部へ

データ重複除去の管理

データ重複除去機能については特別に管理操作を行う必要はありませんが、強いて挙げるとすると、重複除去状況の確認や、重複除去スケジュールのカスタマイズ、各種ジョブの動作状態の確認といったところでしょうか。

このページの上部へ

重複除去状況の確認

サーバーマネージャーから対象のボリュームのプロパティを開くことにより、重複除去状況などを確認することができます。
画像は私の検証用サーバの重複除去の状況です。512GB のディスクに似たような多数のファイルを数か月かけて保存しました。すると、約 2.3TBのファイル群に対して重複除去が行われた結果、約 200GBの使用領域になっています。2TB 以上が重複除去されて、重複除去率は 90% 以上となっています。

ボリューム(D:¥) のプロパティ

なお、似たようなファイル群が多数あるにもかかわらず、サーバのビジー状態が続いてなかなか重複除去処理が行われない場合は、先に紹介した方法でスケジュールをカスタマイズするといいでしょう。

このページの上部へ

重複除去関連のジョブの確認

データ重複除去を有効化すると、サーバのタスクとして次のようなジョブが登録されます。

ジョブ 名前 目的
最適化ジョブ Optimization データを重複除去し、ボリューム上のチャンクを圧縮する。既定では 1 時間おきに実行される
ガベージコレクションジョブ GarbageCollection ボリューム上の削除済みまたは変更済みのデータを処理して、任意のチャンクが参照されなくなり、クリーンアップされるようにする。負荷が高い処理を行う。既定では土曜日の 2:45 に実行される
データスクラブジョブ Scrubbing チャンクの破損ログを分析し、可能であれば修復する。既定では土曜日の 3:45 に実行される

タスクスケジューラーを使って、これらジョブが正しく動作しているかの確認や、他の定時処理(例えば夜間のバックアップなど)と処理が重複している場合は、スケジュールの変更など行うといいでしょう。

タスクスケジューラー

このページの上部へ

まとめ

今回は、Windows Server 2012 で強化されたストレージに関する機能の中から「データ重複除去」について紹介しました。サーバのディスクの容量管理に頭を悩ませる機会が減る、便利な機能ではないでしょうか。また、ディスクの必要サイズが減少することにより、コストダウンにもつながるはずです。
Windows Server にはストレージ、ファイルサーバ機能でさまざまな便利機能が他にも用意されています。例えば、「ファイルサーバーリソースマネージャー」という、以前のバージョンの Windows Server から実装されているものの、あまり使われていない便利機能がありますが、これを使えば特定の拡張子のファイルはサーバに保存させない、といった設定が可能です。例として、CD-ROM や DVD メディアなどをイメージ化した ISO ファイルは一般的に大きなサイズのものが多いですが、ファイルサーバーリソースマネージャーを使って保存をブロックすることにより、サーバのディスク利用を抑えることができます。

基本設定の概要

Windows Server活用のススメ 一覧へ

このページの上部へ

Windows Server最新書籍を抽選でプレゼント!

「Windows Server最新書籍プレゼント」は終了しました。
たくさんのご応募ありがとうございました。

標準テキスト Windows Server 2012 R2構築・運用・管理パーフェクトガイド

コラム執筆者 知北 直宏氏の標準テキスト Windows Server 2012 R2構築・運用・管理パーフェクトガイドを抽選で10名様にプレゼント!ベストセラー2008 R2の続編です。好評につき、第四弾!今回の締切は2015年7月31日です。お早めにご応募ください。
※当選は賞品の発送をもって代えさせていただきます。

このページの上部へ
アイティデザイン株式会社 代表取締役社長 知北 直宏

著者プロフィール

アイティデザイン株式会社 代表取締役社長 知北 直宏(ちきた なおひろ)
Microsoft MVP - Directory Services
マイクロソフトのサーバ製品を中心に、提案、設計、導入、そしてサポートまで、オールインワンで対応しているエンジニア。また、Windows NT時代から技術書籍を執筆。最近は、マイクロソフト主催イベントでの登壇や、マイクロソフトのホワイトペーパーの執筆なども行っている。
標準テキスト Windows Server 2008 R2構築・運用・管理パーフェクトガイド標準テキスト Windows Server 2012 R2構築・運用・管理パーフェクトガイド
主な著書:
標準テキスト Windows Server 2008 R2構築・運用・管理パーフェクトガイド
標準テキスト Windows Server 2012 R2構築・運用・管理パーフェクトガイド
  1. クラウドサービスのbit-drive TOP>
  2. Windows Server 2003 移行支援サイト>
  3. 連載コラム Windows Server活用のススメ
  4. データ重複除去の利用