各製品の資料を入手。
詳細はこちら →PowerShell を使ってDatabricks のデータをSQL Server にレプリケーション
Databricks をPowerShell スクリプトを記述。リアルタイムデータへの接続を使用してDatabricks のデータをSQL Server にレプリケーション(複製)。
最終更新日:2023-09-26
こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。
CData ODBC Driver for Databricks は、Microsoft のビルトインODBC サポートを使用して、追加設定なしで連携を可能にします。ODBC ドライバーは、PowerShell から実際のDatabricks のデータへの連携を即座に実現します。
PowerShell に組み込まれている.NET Framework Provider for ODBC を使用して、Databricks を他のデータベースに複製するなどの統合タスクを素早く自動化できます。この記事では、Databricks をSQL Server に5 行のコードで複製する方法を説明します。
PowerShell コードを記述し、create、read、update、delete (CRUD) 操作を実行することも可能です。以下の例を参照してください。
CData ODBC ドライバとは?
CData ODBC ドライバは、以下のような特徴を持ったリアルタイムデータ連携ソリューションです。
- Databricks をはじめとする、CRM、MA、会計ツールなど多様なカテゴリの270種類以上のSaaS / オンプレミスデータソースに対応
- 多様なアプリケーション、ツールにDatabricks のデータを連携
- ノーコードでの手軽な接続設定
- 標準 SQL での柔軟なデータ読み込み・書き込み
CData ODBC ドライバでは、1.データソースとしてDatabricks の接続を設定、2.PowerShell 側でODBC Driver との接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。
CData ODBC ドライバのインストールとDatabricks への接続設定
まずは、本記事右側のサイドバーからDatabricks ODBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。
未指定の場合は、初めにODBC DSN(data source name)で接続プロパティを指定します。ドライバーのインストールの最後にアドミニストレーターが開きます。Microsoft ODBC Data Source Administrator を使用して、ODBC DSN を作成および構成できます。
Databricks 接続プロパティの取得・設定方法
Databricks クラスターに接続するには、以下のプロパティを設定します。
- Database:Databricks データベース名。
- Server:Databricks クラスターのサーバーのホスト名。
- HTTPPath:Databricks クラスターのHTTP パス。
- Token:個人用アクセストークン。この値は、Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
Databricks への認証
CData は、次の認証スキームをサポートしています。
- Basic
- 個人用アクセストークン
- Azure Active Directory(AD)
- Azure サービスプリンシパル
- OAuthU2M
- OAuthM2M
Basic
Basic 認証には、ユーザー名とパスワードが必要です。以下を設定します。
- AuthScheme:Basic。
- User:ユーザーネーム。これはデフォルト値("Token")をオーバーライドします。
- Token:パスワード。
その他の認証方法については、ヘルプドキュメント の「はじめに」セクションを参照してください。
Databricks への接続
以下のコードは、DSN を使用してPowerShell でデータソースへの接続を初期化する方法を説明します。
$conn = New-Object System.Data.Odbc.OdbcConnection
$conn.ConnectionString = "DSN=CData Databricks Source x64"
Databricks のデータをSQL Serverにバックアップ
キャッシュを有効にした後、以下のコードを使用して、データをSQL Server に複製できます。
次の接続プロパティを設定し、キャッシュデータベースを構成します。
CacheProvider:ADO.NET プロバイダの名前です。これは、ご使用のバージョンの.NET のMachine.config にあります。例として、SQL Server を構成するにはSystem.Data.SqlClient と入力します。
CacheConnection:データベースの接続に必要なプロパティの接続文字列です。以下はSQL Server の一例です。
Server=localhost;Database=RSB;User Id=sqltest;Password=sqltest;
この例のSQL クエリを使用して、スキーマを含むキャッシュされたテーブル全体を更新できます。既存のキャッシュはすべて削除されます。
$conn.Open()
# Create and execute the SQL Query
$SQL = "CACHE DROP EXISTING SELECT * FROM " + $Customers
$cmd = New-Object System.Data.Odbc.OdbcCommand($sql,$conn)
$count = $cmd.ExecuteNonQuery()
$conn.Close()
ドライバーを使用すると、キャッシュ機能を完全に制御できます。その他のキャッシュコマンドと使用例については、ヘルプドキュメントを参照してください。他のデータベースに複製する手順についても、ヘルプドキュメントを参照してください。
その他の操作
PowerShell でDatabricks を取得するには、OdbcDataAdapter メソッドのFill メソッドを呼び出します。データ操作コマンドを実行するには、OdbcCommand オブジェクトを初期化してからExecuteNonQuery を呼び出します。以下は、.NET Framework Provider for ODBC を介した、Databricks へのCRUD コマンドの例です。
Databricks のデータの取得
$sql="SELECT City, CompanyName from Customers"
$da= New-Object System.Data.Odbc.OdbcDataAdapter($sql, $conn)
$dt= New-Object System.Data.DataTable
$da.Fill($dt)
$dt.Rows | foreach {
$dt.Columns | foreach ($col in dt{
Write-Host $1[$_]
}
}
Databricks のデータの更新
$cmd = New-Object System.Data.Odbc.OdbcCommand("UPDATE Customers SET Country='US' WHERE Id = @myId", $conn)
$cmd.Parameters.Add(new System.Data.Odbc.OdbcParameter("myId","001d000000YBRseAAH")
$cmd.ExecuteNonQuery()
Databricks のデータの挿入
$cmd = New-Object System.Data.Odbc.OdbcCommand("INSERT INTO Customers SET Country='US' WHERE Id = @myId", $conn)
$cmd.Parameters.Add(new System.Data.Odbc.OdbcParameter("myId","001d000000YBRseAAH")
$cmd.ExecuteNonQuery()
Databricks のデータの削除
$cmd = New-Object System.Data.Odbc.OdbcCommand("DELETE FROM Customers WHERE Id = @myid", $conn)
$cmd.Parameters.Add(new System.Data.Odbc.OdbcParameter("myId","001d000000YBRseAAH")
$cmd.ExecuteNonQuery()
Databricks からPowerShell へのデータ連携には、ぜひCData ODBC ドライバをご利用ください
このようにCData ODBC ドライバと併用することで、270を超えるSaaS、NoSQL データをコーディングなしで扱うことができます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。
CData ODBC ドライバは日本のユーザー向けに、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。