各製品の資料を入手。
詳細はこちら →複数Azure Data Lake Storage アカウントをレプリケーション
複数のAzure Data Lake Storage アカウントを、1つあるいは多数のデータベースにレプリケーション。
最終更新日:2022-06-05
こんにちは!プロダクトスペシャリストの宮本です。
CData Sync for ADLS は、データベースにサンドボックスや製品インスタンスをレプリケートするなどの、レプリケーションの多様なシナリオに対する解決策を提供するスタンドアロンアプリケーションです。Sync for Windows およびSync for Java はどちらもコマンドラインインターフェース(CLI)を含んでおり、複数のAzure Data Lake Storage 接続を簡単に管理できます。この記事では、CLI を使って複数のAzure Data Lake Storage アカウントをレプリケートする方法について説明します。
Azure Data Lake Storage 接続の構成
接続およびE メール通知設定をXML 設定ファイルに保存できます。複数のAzure Data Lake Storage アカウントをレプリケートするには、複数の設定ファイルを使います。以下にAzure Data Lake Storage をSQLite にレプリケートする設定例を示します。
Windows
<?xml version="1.0" encoding="UTF-8" ?>
<CDataSync>
<DatabaseType>SQLite</DatabaseType>
<DatabaseProvider>System.Data.SQLite</DatabaseProvider>
<ConnectionString>Schema=ADLSGen2;Account=myAccount;FileSystem=myFileSystem;AccessKey=myAccessKey;</ConnectionString>
<ReplicateAll>False</ReplicateAll>
<NotificationUserName></NotificationUserName>
<DatabaseConnectionString>Data Source=C:\my.db</DatabaseConnectionString>
<TaskSchedulerStartTime>09:51</TaskSchedulerStartTime>
<TaskSchedulerInterval>Never</TaskSchedulerInterval>
</CDataSync>
Java
<?xml version="1.0" encoding="UTF-8" ?>
<CDataSync>
<DatabaseType>SQLite</DatabaseType>
<DatabaseProvider>org.sqlite.JDBC</DatabaseProvider>
<ConnectionString>Schema=ADLSGen2;Account=myAccount;FileSystem=myFileSystem;AccessKey=myAccessKey;</ConnectionString>
<ReplicateAll>False</ReplicateAll>
<NotificationUserName></NotificationUserName>
<DatabaseConnectionString>Data Source=C:\my.db</DatabaseConnectionString>
</CDataSync>
Azure Data Lake Storage 接続プロパティの取得・設定方法
Azure Data Lake Storage Gen 2 への接続
Gen 2 Data Lake Storage アカウントに接続するには、以下のプロパティを設定します。
- Account:ストレージアカウントの名前。
- FileSystem:このアカウントに使用されるファイルシステム名。例えば、Azure Blob コンテナの名前。
- Directory(オプション):レプリケートされたファイルが保存される場所へのパス。パスが指定されない場合、ファイルはルートディレクトリに保存されます。
Azure Data Lake Storage Gen 2 への認証
本製品は、次の4つの認証方法をサポートします:アクセスキーの使用、共有アクセス署名の使用、Azure Active Directory OAuth(AzureAD)、Managed Service Identity(AzureMSI)。
アクセスキー
アクセスキーを使用して接続するには、はじめにADLS Gen2 ストレージアカウントで利用可能なアクセスキーを取得する必要があります。Azure ポータルで:
- ADLS Gen2 ストレージアカウントにアクセスします。
- 設定でアクセスキーを選択します。
- 利用可能なアクセスキーの1つの値をAccessKey 接続プロパティにコピーします。
- AuthScheme:AccessKey。
- AccessKey:先にAzure ポータルで取得したアクセスキーの値。
接続の準備ができたら、次のプロパティを設定します。
共有アクセス署名(SAS)
共有アクセス署名を使用して接続するには、はじめにAzure Storage Explorer ツールを使用して署名を生成する必要があります。
接続の準備ができたら、次のプロパティを設定します。
- AuthScheme:SAS。
- SharedAccessSignature:先に生成した共有アクセス署名の値。
AzureAD、AzureMSI での認証方法については、ヘルプドキュメントの「Azure Data Lake Storage Gen 2 への認証」セクションを参照してください。
各Azure Data Lake Storage インスタンスにクエリを設定
Sync を使うと標準SQL でレプリケーションを制御できます。REPLICATE ステートメントはハイレベルなコマンドで、データベースにテーブルをキャッシュして維持します。Azure Data Lake Storage API がサポートするあらゆるSELECT クエリを定義できます。下記のステートメントは、Azure Data Lake Storage のデータ のテーブルをキャッシュしてインクリメンタルに更新します。
REPLICATE Resources;
特定のデータベースを更新するために使用するレプリケーションクエリを含むファイルを指定することができます。レプリケーションステートメントはセミコロンで区切ります。次のオプションは、複数のAzure Data Lake Storage アカウントを同じデータベースにレプリケートする場合に便利です。
REPLICATE SELECT ステートメントでは、異なるテーブルのプレフィックスを使用できます。
REPLICATE PROD_Resources SELECT * FROM Resources
異なるスキーマを使用することもできます。
REPLICATE PROD.Resources SELECT * FROM Resources
Sync の実行
接続文字列およびレプリケーションクエリの設定が完了したら、次のコマンドラインオプションを使ってSync を実行できます。
Windows
ADLSSync.exe -g MyProductionADLSConfig.xml -f MyProductionADLSSync.sql
Java
java -Xbootclasspath/p:c:\sqlitejdbc.jar -jar ADLSSync.jar -g MyProductionADLSConfig.xml -f MyProductionADLSSync.sql