各製品の資料を入手。
詳細はこちら →Google Data Catalog のデータ のPostgreSQL インターフェースを作成
Google Data Catalog JDBC Driver のリモート機能を使用し、データアクセス用のPostgreSQL エントリポイントを作成します。
最終更新日:2022-12-02
この記事で実現できるGoogle Data Catalog 連携のシナリオ
こんにちは!ウェブ担当の加藤です。マーケ関連のデータ分析や整備もやっています。
PostgreSQL には多くの対応クライアントがあります。標準のドライバーからBI、アナリティクスツールまで、PostgreSQL はデータ接続の人気のインターフェースです。JDBC ドライバーを使用することで、簡単に任意の標準クライアントから接続できるPostgreSQL エントリポイントを作成できます。
Google Data Catalog にPostgreSQL データベースとしてアクセスするには、CData JDBC Driver for GoogleDataCatalog とJDBC foreign data wrapper (FDW) を使用します。この記事ではFDW をコンパイルしてインストールし、PostgreSQL サーバーからGoogle Data Catalog にクエリを実行します。
JDBC データソースとしてGoogle Data Catalog のデータに接続する
JDBC データソースとしてGoogle Data Catalog に接続するには、以下が必要です。
- Driver のJAR パス:JAR ファイルは、インストールディレクトリのlib サブフォルダにあります。
Driver クラス
cdata.jdbc.googledatacatalog.GoogleDataCatalogDriver
- JDBC URL:
URL は、"jdbc:googledatacatalog:" で始まり、セミコロンで区切られた名前と値の組み合わせで任意の接続プロパティを含めることができます。
Google Data Catalog 接続プロパティの取得・設定方法
認証プロパティを追加する前に、次の接続プロパティを設定してください。
- OrganizationId:接続するGoogle Cloud Platform の組織リソースに関連付けられたID。これはGCP コンソールに移動して確認してください。 「プロジェクト」ドロップダウンメニューを開き、リストから組織へのリンクをクリックします。このページから組織ID を取得できます。
- ProjectId:接続するGCP のプロジェクトリソースに関連付けられたID。GCP コンソールのダッシュボードに移動し、「プロジェクトを選択」のメニューからお好みのプロジェクトを選択して確認してください。プロジェクトID は、「プロジェクト情報」項目に表示されます。
Google Data Catalog への認証
CData 製品は、認証にユーザーアカウント、サービスアカウント、およびGCP インスタンスアカウントの使用をサポートします。
OAuth の設定方法については、ヘルプドキュメントの「OAuth」セクションを参照してください。
ビルトイン接続文字列デザイナ
JDBC URL の構成については、Google Data Catalog JDBC Driver に組み込まれている接続文字列デザイナを使用できます。JAR ファイルのダブルクリック、またはコマンドラインからJAR ファイルを実行します。
java -jar cdata.jdbc.googledatacatalog.jar
接続プロパティを入力し、接続文字列をクリップボードにコピーします。
以下は一般的なJDBC URL です。
jdbc:googledatacatalog:ProjectId=YourProjectId;InitiateOAuth=GETANDREFRESH
JDBC FDW を構築する
FDW は、PostgreSQL を再コンパイルせずに、PostgreSQL の拡張機能としてインストールできます。例としてjdbc2_fdw 拡張子を使用します。
- ご使用のバージョンのJRE 共有オブジェクトから、/usr/lib/libjvm.so にシンボリックリンクを追加します。コマンド例:
ln -s /usr/lib/jvm/java-6-openjdk/jre/lib/amd64/server/libjvm.so /usr/lib/libjvm.so
- ビルドするには、以下のコマンドを実行してください。
make install USE_PGXS=1
Google Data Catalog のデータをPostgreSQL データベースとしてクエリする
拡張機能をインストールした後、以下のステップに従ってGoogle Data Catalog へのクエリの実行を開始します。
- データベースにログイン
-
データベースの拡張機能をロード
CREATE EXTENSION jdbc2_fdw;
-
Google Data Catalog のオブジェクトを作成
CREATE SERVER GoogleDataCatalog FOREIGN DATA WRAPPER jdbc2_fdw OPTIONS ( drivername 'cdata.jdbc.googledatacatalog.GoogleDataCatalogDriver', url 'jdbc:googledatacatalog:ProjectId=YourProjectId;InitiateOAuth=GETANDREFRESH', querytimeout '15', jarfile '/home/MyUser/CData/CData\ JDBC\ Driver\ for\ Salesforce MyDriverEdition/lib/cdata.jdbc.googledatacatalog.jar');
-
PostgreSQL デーモンに認識されているユーザーのユーザー名とパスワードのユーザーマッピングを作成
CREATE USER MAPPING for postgres SERVER GoogleDataCatalog OPTIONS ( username 'admin', password 'test');
-
ローカルデータベースに外部テーブルを作成
postgres=# CREATE FOREIGN TABLE schemas ( schemas_id text, schemas_Type text, schemas_DatasetName numeric) SERVER GoogleDataCatalog OPTIONS ( table_name 'schemas');
postgres=# SELECT * FROM schemas;
おわりに
このようにCData JDBC Driver for GoogleDataCatalog を使って簡単にGoogle Data Catalog のデータを取得して検索対象にすることができました。ぜひ、30日の無償評価版 をお試しください。