各製品の資料を入手。
詳細はこちら →Entity Framework 6 からDatabricks のデータに連携
この記事は、Entity Framework のcode-first アプローチを使って、Databricks に接続する方法を説明します。Entity Framework 6 は.NET 4.5 以上で利用可能です。
最終更新日:2022-04-04
この記事で実現できるDatabricks 連携のシナリオ
こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。
Entity Framework はobject-relational mapping フレームワークで、データをオブジェクトとして扱うために使われます。Visual Studio のADO.NET Entity Data Model ウィザードを実行するとEntity Model を作成できますが、このモデルファーストアプローチでは、データソースに変更があった場合やエンティティ操作をより制御したい場合は不都合があります。この記事では、CData ADO.NET Provider を使いコードファーストアプローチでDatabricks にアクセスします。
- Visual Studio を起動し、新しいWindows Form アプリケーションを作成します。ここでは、.NET 4.5 のC# プロジェクトを使います。
- Visual Studio の [パッケージ マネージャー コンソール]から'Install-Package EntityFramework' コマンドを実行し、最新のEntity Framework をインストールします。
- プロジェクトのApp.config ファイルを修正して、Databricks Entity Framework 6 アセンブリおよびコネクションストリングへの参照を追加します。
Databricks 接続プロパティの取得・設定方法
Databricks クラスターに接続するには、以下のプロパティを設定します。
- Database:Databricks データベース名。
- Server:Databricks クラスターのサーバーのホスト名。
- HTTPPath:Databricks クラスターのHTTP パス。
- Token:個人用アクセストークン。この値は、Databricks インスタンスのユーザー設定ページに移動してアクセストークンタブを選択することで取得できます。
Databricks への認証
CData は、次の認証スキームをサポートしています。
- Basic
- 個人用アクセストークン
- Azure Active Directory(AD)
- Azure サービスプリンシパル
- OAuthU2M
- OAuthM2M
Basic
Basic 認証には、ユーザー名とパスワードが必要です。以下を設定します。
- AuthScheme:Basic。
- User:ユーザーネーム。これはデフォルト値("Token")をオーバーライドします。
- Token:パスワード。
その他の認証方法については、ヘルプドキュメント の「はじめに」セクションを参照してください。
<configuration> ... <connectionStrings> <add name="DatabricksContext" connectionString="Offline=False;Server=127.0.0.1;Port=443;TransportMode=HTTP;HTTPPath=MyHTTPPath;UseSSL=True;User=MyUser;Password=MyPassword;" providerName="System.Data.CData.Databricks" /> </connectionStrings> <entityFramework> <providers> ... <provider invariantName="System.Data.CData.Databricks" type="System.Data.CData.Databricks.DatabricksProviderServices, System.Data.CData.Databricks.Entities.EF6" /> </providers> <entityFramework> </configuration> </code>
- インストールディレクトリの[lib] > 4.0 サブフォルダにあるSystem.Data.CData.Databricks.Entities.EF6.dll を設定し、プロジェクトを作成してEntity Framework 6 を使うためのセットアップを完了します。
- この時点でプロジェクトを作成し、すべてが正しく動作していることを確認してください。これで、Entity Framework を使ってコーディングを開始できます。
- プロジェクトに新しい.cs ファイルを追加し、そこにクラスを追加します。これがデータベースのコンテキストとなり、DbContext クラスを拡張します。この例では、クラス名はDatabricksContext です。以下のサンプルコードは、OnModelCreating メソッドをオーバーライドして次の変更を加えます:
- PluralizingTableNameConvention をModelBuilder Conventions から削除。
- MigrationHistory テーブルへのリクエストを削除。
using System.Data.Entity; using System.Data.Entity.Infrastructure; using System.Data.Entity.ModelConfiguration.Conventions; class DatabricksContext :DbContext { public DatabricksContext() { } protected override void OnModelCreating(DbModelBuilder modelBuilder) { // To remove the requests to the Migration History table Database.SetInitializer<DatabricksContext>(null); // To remove the plural names modelBuilder.Conventions.Remove<PluralizingTableNameConvention>(); } }
- もう一つ.cs ファイルを作成し、ファイル名を呼び出そうとしているDatabricks のエンティティ、例えばCustomers にします。このファイルでは、エンティティとエンティティ設定の両方を定義します。以下に例を示します。
using System.Data.Entity.ModelConfiguration; using System.ComponentModel.DataAnnotations.Schema; public class Customers { [DatabaseGeneratedAttribute(DatabaseGeneratedOption.Identity)] public System.String Id { get; set; } public System.String City { get; set; } } public class CustomersMap :EntityTypeConfiguration<Customers> { public CustomersMap() { this.ToTable("Customers"); this.HasKey(Customers => Customers.Id); this.Property(Customers => Customers.City); } }
- エンティティの作成が済んだので、コンテキストクラスにエンティティを追加します:
public DbSet<Customers> Customers { set; get; }
- コンテキストとエンティティの作成が完了したら、別クラスでデータをクエリできます。例:
DatabricksContext context = new DatabricksContext(); context.Configuration.UseDatabaseNullSemantics = true; var query = from line in context.Customers select line;