各製品の資料を入手。
詳細はこちら →Databricks のデータをPowerShell でMySQL にレプリケーションする方法
PowerShell のシンプルなスクリプトで、Databricks のデータ をMySQL データベースにレプリケーション(複製)する方法を紹介します。
最終更新日:2023-09-26
この記事で実現できるDatabricks 連携のシナリオ
こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。
CData Cmdlets for Databricks を使えば、PowerShell からDatabricks のデータ データにリアルタイムで連携できます。データ同期などのタスクの連携にぴったりの製品です。 本記事では、PowerShell からCData Cmdlets for Databricks およびCData Cmdlets for MySQL を使って、同期スクリプトを作成して実行します。
まずは、PowerShell でDatabricks への接続を行います。レプリケーションは4つのステップがあります。
Databricks 接続プロパティの取得・設定方法
Databricks クラスターに接続するには、以下のプロパティを設定します。
- Database:Databricks データベース名。
- Server:Databricks クラスターのサーバーのホスト名。
- HTTPPath:Databricks クラスターのHTTP パス。
- Token:個人用アクセストークン。この値は、Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
Databricks への認証
CData は、次の認証スキームをサポートしています。
- Basic
- 個人用アクセストークン
- Azure Active Directory(AD)
- Azure サービスプリンシパル
- OAuthU2M
- OAuthM2M
Basic
Basic 認証には、ユーザー名とパスワードが必要です。以下を設定します。
- AuthScheme:Basic。
- User:ユーザーネーム。これはデフォルト値("Token")をオーバーライドします。
- Token:パスワード。
その他の認証方法については、ヘルプドキュメント の「はじめに」セクションを参照してください。
Databricks のデータの取得
-
モジュールのインストール:
Install-Module DatabricksCmdlets
-
Databricks への接続:
$databricks = Connect-Databricks -Server $Server -Port $Port -TransportMode $TransportMode -HTTPPath $HTTPPath -UseSSL $UseSSL -User $User -Password $Password
-
取得ターゲットのリソースの取得:
$data = Select-Databricks -Connection $databricks -Table "Customers"
Invoke-Databricks cmdlet を使って、SQL-92 クエリを使用することもできます:
$data = Invoke-Databricks -Connection $databricks -Query 'SELECT * FROM Customers WHERE Country = @Country' -Params @{'@Country'='US'}
-
戻り値からカラム名のリストを保存します。
$columns = ($data | Get-Member -MemberType NoteProperty | Select-Object -Property Name).Name
Databricks のデータをMySQL データベースにレプリケーション
カラム名を指定できるようにして、データをMySQL データベースにレプリケーションします。
-
モジュールのインストール:
Install-Module MySQLCmdlets
-
MySQL DB に、MySQL Server 名、ユーザー、パスワード、レプリケーション先のデータベース名を指定して、接続します:
$mysql = Connect-MySQL -User $User -Password $Password -Database $Database -Server $Server -Port $Port
-
Databricks、保存された値、そしてAdd-MySQL Cmdlet を使って、MySQL にデータを1レコードずつ挿入します。この例では、MySQL 側のテーブルは、Databricks のリソース(Customers)と同じテーブル名を持っている必要があります。
$data | % { $row = $_ $values = @() $columns | % { $col = $_ $values += $row.$($col) } Add-MySQL -Connection $mysql -Table "Customers" -Columns $columns -Values $values }
次回以降のレプリケーションをシンプルに実現
-
一度PowerShell でDatabricks とMySQL に接続したら、次からは1行のコマンドでレプリケーションを実施できます:
Select-Databricks -Connection $databricks -Table "Customers" | % { $row = $_ $values = @() $columns | % { $col = $_ $values += $row.$($col) } Add-MySQL -Connection $mysql -Table "Customers" -Columns $columns -Values $values }
-
別のPowerShell モジュールで、Databricks を別のデータベースに複製する場合、Select-Databricks cmdlet のデータから、カラム、接続およびテーブルを除外しておきましょう。これらのデータはデータ移動のときだけ必要となるためです。
$columns = ($data | Get-Member -MemberType NoteProperty | Select-Object -Property Name).Name | ? {$_ -NotIn @('Columns','Connection','Table')}
おわりに
これで、Databricks のデータをMySQL に複製できました。分析、BI などでDatabricks のデータをMySQL から使うことができるようになります。