Databricks ODBC データソースとの間にInformatica マッピングを作成

Informatica にDatabricks へのODBC 接続を作成し、Databricks のデータを参照および転送。

古川えりか
コンテンツスペシャリスト

最終更新日:2022-06-09

こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。

Informatica はデータを転送、変換するための強力で洗練された手段です。CData ODBC Driver for Databricks は、Informatica の強力なデータ転送・変換機能とシームレスに連携可能な、業界で実証済みの標準ドライバです。このチュートリアルでは、Informatica PowerCenter でDatabricks のデータを転送および参照する方法を説明します。

CData ODBC ドライバとは?

CData ODBC ドライバは、以下のような特徴を持ったリアルタイムデータ連携ソリューションです。

  1. Databricks をはじめとする、CRM、MA、会計ツールなど多様なカテゴリの270種類以上のSaaS / オンプレミスデータソースに対応
  2. 多様なアプリケーション、ツールにDatabricks のデータを連携
  3. ノーコードでの手軽な接続設定
  4. 標準 SQL での柔軟なデータ読み込み・書き込み

CData ODBC ドライバでは、1.データソースとしてDatabricks の接続を設定、2.Informatica 側でODBC Driver との接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。

CData ODBC ドライバのインストールとDatabricks への接続設定

まずは、本記事右側のサイドバーからDatabricks ODBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。

Databricks への接続に関する情報と、Windows およびLinux 環境でのDSN の設定手順を以下で説明します。

Databricks 接続プロパティの取得・設定方法

Databricks クラスターに接続するには、以下のプロパティを設定します。

  • Database:Databricks データベース名。
  • Server:Databricks クラスターのサーバーのホスト名
  • HTTPPath:Databricks クラスターのHTTP パス。
  • Token:個人用アクセストークン。この値は、Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
Databricks インスタンスで必要な値は、クラスターに移動して目的のクラスターを選択し、Advanced Options の下にあるJDBC/ODBC タブを選択することで見つけることができます。

Databricks への認証

CData は、次の認証スキームをサポートしています。

  • Basic
  • 個人用アクセストークン
  • Azure Active Directory(AD)
  • Azure サービスプリンシパル
  • OAuthU2M
  • OAuthM2M

Basic

Basic 認証には、ユーザー名とパスワードが必要です。以下を設定します。

  • AuthSchemeBasic
  • User:ユーザーネーム。これはデフォルト値("Token")をオーバーライドします。
  • Token:パスワード。

その他の認証方法については、ヘルプドキュメント の「はじめに」セクションを参照してください。

Windows

接続プロパティが未設定の場合は、まずODBC DSN(データソース名)で設定します。ドライバーのインストールの最後にアドミニストレーターが開きます。Microsoft ODBC データソースアドミニストレーターを使ってODBC DSN を作成および設定できます。

Linux

CData ODBC Driver for Databricks をLinux 環境にインストールする場合、ドライバーのインストールによってDSN が事前に定義されます。DSN を変更するには、システムデータソースファイル(/etc/odbc.ini)を編集し、必要な接続プロパティを定義します。

/etc/odbc.ini

[CData Databricks Source] Driver = CData ODBC Driver for Databricks Description = My Description Server = 127.0.0.1 Port = 443 TransportMode = HTTP HTTPPath = MyHTTPPath UseSSL = True User = MyUser Password = MyPassword

これらの構成ファイルの使用方法については、オンラインのヘルプドキュメントを参照してください。

Customers データへのリンクテーブルを作成する

「オブジェクトエクスプローラー」からリンクテーブルを作成してライブCustomers データにアクセスする方法は、次のとおりです。

ODBC 接続を作成する

下記の手順に従って、Informatica PowerCenter のDatabricks に接続します。

  1. Informatica Developer ツールで、リポジトリに接続してプロジェクトを作成しておきます。
  2. 「Connection Explorer」ペインで右クリックし、「Create a Connection」をクリックします。
  3. 「New Database Connection」ウィザードが表示されたら、接続に名前とID を入力し、「Type」メニューで「ODBC」を選択します。
  4. 「Connection String」プロパティにjdbc:databricks:Server=127.0.0.1;Port=443;TransportMode=HTTP;HTTPPath=MyHTTPPath;UseSSL=True;User=MyUser;Password=MyPassword; を入力します。

注意:Linux オペレーティングシステムで作業している場合は、「Driver Manager for Linux」プロパティをunixODBC 2.3.x に設定します。

Databricks のデータオブジェクトを作成する

Databricks へのODBC 接続を作成したら、Informatica でDatabricks エンティティにアクセスできるようになります。下記の手順に従って、Customers エンティティをプロジェクトに追加します。

  1. 「Object Explorer」でプロジェクトを右クリックし、「New」->「Data Object」をクリックします。
  2. ウィザードが表示されたら「Relational Data Object」オプションを選択します。
  3. 「Connection」ボックス横にある「Browse」ボタンをクリックし、先に作成したODBC 接続を選択します。
  4. 既存のリソースからデータオブジェクトを作成するオプションを選択し、「Resource」ボックス横にある「Browse」ボタンをクリックします。
  5. ダイアログが表示されたら、「Show Default Schema Only」オプションの選択を解除してODBC 接続のノードを展開します。必要なエンティティを選択します。 The driver models Databricks entities as relational tables.(Salesforce is shown.)

これで、Data Viewer でテーブルをブラウズできます。テーブル用ノードを右クリックし「Open」をクリックします。「Data Viewer」ビューで「Run」をクリックします。

Table data and metadata in the Data Viewer.(Salesforce is shown.)

マッピングを作成する

下記の手順に従って、Databricks ソースをマッピングに追加します。

  1. 「Object Explorer」でプロジェクトを右クリックし、「New」->「Mapping」をクリックします。
  2. Databricks 接続のノードを展開してから、テーブル用のデータオブジェクトをエディタ上にドラッグします。
  3. ダイアログが表示されたら「Read」オプションを選択します。
The source Databricks table in the mapping.(Salesforce is shown.)

以下のステップに従って、Databricks カラムをフラットファイルにマッピングします。

  1. 「Object Explorer」でプロジェクトを右クリックし、「New」->「Data Object」をクリックします。
  2. 「Flat File Data Object」->「Create as Empty」->「Fixed Width」と選択します。
  3. Databricks オブジェクトのプロパティで目的の行を選択して右クリックし、コピーします。コピーした行をフラットファイルプロパティにペーストします。
  4. フラットファイルのデータオブジェクトをマッピングにドラッグします。ダイアログが表示されたら「Write」オプションを選択します。
  5. クリックおよびドラッグしてカラムを接続します。

Databricks のデータを転送するには、ワークスペース内で右クリックして「Run Mapping」をクリックします。

The completed mapping.(Salesforce is shown.)

おわりに

このようにCData ODBC ドライバと併用することで、270を超えるSaaS、NoSQL データをコーディングなしで扱うことができます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。

CData ODBC ドライバは日本のユーザー向けに、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。

関連コンテンツ

トライアル・お問い合わせ

30日間無償トライアルで、CData のリアルタイムデータ連携をフルにお試しいただけます。記事や製品についてのご質問があればお気軽にお問い合わせください。