各製品の資料を入手。
詳細はこちら →LINQPad でSpark のデータを操作する方法
LINQPad でSpark にLINQ クエリを実行する方法を解説します。
最終更新日:2023-09-15
この記事で実現できるSpark 連携のシナリオ
こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。
CData ADO.NET Provider for SparkSQL は、LINQ やEntity Framework などの標準のADO.NET インターフェースを使ってSpark の操作を実現します。この記事では、LINQPad から接続してLINQ クエリを実行する方法を説明します。
必要なもの
本記事の手順を実行してLINQPad からSpark に接続するには、以下の3つの製品が必要になります。
- Spark の環境
- LINQPad
- CData ADO.NET Provider for SparkSQL。右側のサイドバーから30日間無償トライアルがダウンロードできます
データモデルの作成
CData ADO.NET Provider for SparkSQL およびLINQPad をダウンロード・インストールしたら、Visual Studio で新しいクラスライブラリプロジェクトを作成します。
ADO.NET Provider の利用に必要となるEF 6を設定する方法については、ヘルプドキュメントを参照してください。
プロジェクトを右クリックし、[追加]→[新しい項目]→[ADO.NET Entity Data Model]をクリックします。ダイアログが表示されたら、データベースから[Code First]を選択します。 [New Connection]をクリックして、表示されたウィザードで接続文字列オプションを指定します。
- Server:SparkSQL をホストするサーバーのホスト名またはIP アドレスに設定。
- Port:SparkSQL インスタンスへの接続用のポートに設定。
- TransportMode:SparkSQL サーバーとの通信に使用するトランスポートモード。有効な入力値は、BINARY およびHTTP です。デフォルトではBINARY が選択されます。
- AuthScheme:使用される認証スキーム。有効な入力値はPLAIN、LDAP、NOSASL、およびKERBEROS です。デフォルトではPLAIN が選択されます。
- Server:Databricks クラスターのサーバーのホスト名に設定。
- Port:443
- TransportMode:HTTP
- HTTPPath:Databricks クラスターのHTTP パスに設定。
- UseSSL:True
- AuthScheme:PLAIN
- User:'token' に設定。
- Password:パーソナルアクセストークンに設定(値は、Databricks インスタンスの「ユーザー設定」ページに移動して「アクセストークン」タブを選択することで取得できます)。
希望するテーブルおよびビューを選択して[Finish]をクリックし、データモデルを作成します。
- プロジェクトをビルドします。生成されたファイルを使ってLINQPad でSpark 接続を作成できます。
SparkSQL への接続
SparkSQL への接続を確立するには以下を指定します。
Databricks への接続
Databricks クラスターに接続するには、以下の説明に従ってプロパティを設定します。Note:必要な値は、「クラスター」に移動して目的のクラスターを選択し、 「Advanced Options」の下にある「JDBC/ODBC」タブを選択することで、Databricks インスタンスで見つけることができます。
一般的な接続文字列は次のとおりです。
Server=127.0.0.1;
LINQPad でSpark のデータに接続
必要な接続プロパティを取得してデータモデルアセンブリを作成したら、以下の手順に従ってLINQPad でデータモデルを使いはじめましょう。
LINQPad を開き[接続の追加]をクリックします。
[Use a typed data context from your own assembly]オプションを選択します。
[Entity Framework DbContext]を選択します。
[Path to Custom Assembly]ボックスの横にある[参照]をクリックして、プロジェクトフォルダを参照します。bin フォルダの下の.dll または.exe を参照します。
- DbContext の名前を選択します。
- 接続文字列をApp.Config に保存した場合は、App.Config へのパスを指定します。

これでLINQPad 経由でSpark にクエリできます。サポートされたLINQ クエリの例は、ヘルプドキュメントの「LINQ およびEntity Framework」を参照してください。
