各製品の資料を入手。
詳細はこちら →Microsoft Power Query からSpark のデータに連携してExcel から利用
CData Spark ODBC Driver とMicrosoft Power Query を使って、Spark のデータをExcel にインポートする方法を紹介します。
最終更新日:2023-06-14
この記事で実現できるSpark 連携のシナリオ
こんにちは!ドライバー周りのヘルプドキュメントを担当している古川です。
CData ODBC Driver for SparkSQL を使ってMicrosoft Power Query からSpark に接続すれば、お好みのSpark のデータを取得できます。この記事では、CData ODBC ドライバを使ってSpark をMicrosoft Power Query にインポートする方法について詳しく説明します。
CData ODBC ドライバとは?
CData ODBC ドライバは、以下のような特徴を持った製品です。
- Spark をはじめとする、CRM、MA、会計ツールなど多様なカテゴリの270種類以上のSaaS / オンプレデータソースに対応
- Excel やPower Query をはじめとする多様な帳票・BI・データ分析ツールにSpark のデータを連携
- ノーコードでの手軽な接続設定
CData ODBC ドライバでは、1.データソースとしてSpark の接続を設定、2.Power Query 側でODBC Driver との接続を設定、という2つのステップだけでデータソースに接続できます。以下に具体的な設定手順を説明します。
Spark への接続の設定
まずは、本記事右側のサイドバーからSparkSQL ODBC Driver の無償トライアルをダウンロード・インストールしてください。30日間無償で、製品版の全機能が使用できます。
- ODBC ドライバーのインストール完了時にODBC DSN 設定画面が立ち上がります。または、Microsoft ODBC データソースアドミニストレーターを使ってDSN を作成および設定できます。
SparkSQL への接続
SparkSQL への接続を確立するには以下を指定します。
- Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
- Port:SparkSQL インスタンスへの接続用のポートに設定。
- TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
Databricks への接続
Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
- Server:Databricks クラスターのサーバーのホスト名に設定。
- Port:443
- TransportMode:HTTP
- HTTPPath:Databricks クラスターのHTTP パスに設定。
- UseSSL:True
- AuthScheme:PLAIN
- User:'token' に設定。
- Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。
Microsoft Power Query でSpark のデータをインポート
ODBC 側の設定が完了したら、Excel からPower Query を起動して実際にデータを取得していきます。
- Excel のリボンから「データ」->「データの取得」-「Power Query の起動」をクリックします。
- Power Query エディター画面が開くので、「新しいクエリ」->「新しいソース」->「その他ソース」->「ODBC」をクリックします。
- 使用するデータソースを選択します。
- 詳細クエリで、カスタムデータをインポートするSELECT 文(SQL)を入力することもできます。例:
SELECT * FROM Customers
- 必要に応じてクレデンシャル情報を入力し、「接続」をクリックします。ナビゲータが開くので、ツリー形式で表示されるテーブルから使用するテーブルを選択します。プレビューにデータが表示されます。OK を押します。データがクエリビューに表示されます。別のデータソースからクエリを結合、または「Power Query formulas」を使ってデータをリファインできます。ワークシートにクエリをロードするには、[閉じて読み込む]ボタンをクリックします。

Spark からPower Query へのデータ連携には、ぜひCData ODBC ドライバをご利用ください
このようにCData ODBC ドライバと併用することで、270を超えるSaaS、NoSQL データをPower Query からコーディングなしで扱うことができます。30日の無償評価版が利用できますので、ぜひ自社で使っているクラウドサービスやNoSQL と合わせて活用してみてください。
日本のユーザー向けにCData ODBC ドライバは、UI の日本語化、ドキュメントの日本語化、日本語でのテクニカルサポートを提供しています。