Skip to content

Commit

Permalink
Merge pull request #152 from Teradata/ja-landing-page
Browse files Browse the repository at this point in the history
adding ja switch and lading page
  • Loading branch information
ObedVega authored Feb 13, 2024
2 parents ec0e24c + 5552459 commit 634264a
Show file tree
Hide file tree
Showing 23 changed files with 2,805 additions and 989 deletions.
3 changes: 3 additions & 0 deletions antora.yml
Original file line number Diff line number Diff line change
Expand Up @@ -3,3 +3,6 @@ title: Getting Started Guides
version: 'master'
nav:
- modules/ROOT/nav.adoc
asciidoc:
attributes:
page-lang: en@
54 changes: 54 additions & 0 deletions modules/ROOT/pages/ja/general/getting.started.vmware.adoc
Original file line number Diff line number Diff line change
@@ -0,0 +1,54 @@
= VMware 上で Vantage Express を実行する
:page-lang: ja
:page-author: Adam Tworkiewicz
:page-email: [email protected]
:page-revdate: 2023 年 1 月 9 日
:description: VMware を使用してラップトップで Vantage Express を実行します。
:keywords: データ ウェアハウス、コンピューティング ストレージの分離、teradata、vantage、クラウド データ プラットフォーム、オブジェクト ストレージ、ビジネス インテリジェンス、エンタープライズ分析
:icons: font

include::../other/getting.started.intro.adoc[]

== 前提条件

. 次のオペレーティング システムのいずれかを使用するコンピュータ: Windows、Linux、または Intel ベースの MacOS。
+
NOTE: M1/M2 MacOS システムについては、 を参照してください。
. 少なくとも 1 つのコアと 6 GB RAM を仮想マシン専用にできる 30 GB のディスク領域と十分な CPU および RAM。
. ソフトウェアをインストールして実行できる管理者権限。
+
// NOTE: No admin rights on your local machine? No problem! Have a look at how to run Vantage Express in link:#[AWS], link:#[Azure], link:#[Google Cloud].

== インストール

=== 必要なソフトウェアをダウンロードする

. link:https://downloads.teradata.com/download/database/teradata-express-for-vmware-player[Vantage Express]の最新バージョン。これまでに Teradata ダウンロード Web サイトを使用したことがない場合は、登録する必要があります。
. link:https://www.vmware.com/products/workstation-player.html[VMware Workstation Player]。
+
IMPORTANT:
+
IMPORTANT: VMware は、MacOS 用の VMware Workstation Player を提供していません。Mac を使用している場合は、代わりに link:https://www.vmware.com/products/fusion/fusion-evaluation.html[VMware Fusion] をインストールする必要があります。これは有料製品ですが、VMware では 30 日間の無料試用版を提供しています。あるいは、Vantage Express を
. Windows では、Vantage Express を解凍するために link:https://www.7-zip.org/download.html[7zip] も必要です。

=== インストーラーを実行する

. インストーラを実行し、デフォルト値を受け入れて、VMware Player または VMware Fusion をインストールします。
. Windows の場合は、 `7zip`をインストールします。

=== ヴァンテージ エクスプレスを実行する

. Vantage Express をダウンロードしたディレクトリに移動し、ダウンロードしたファイルを解凍します。
. `.vmx` ファイルをダブルクリックします。これにより、VMware Player/Fusion で VM イメージが起動します。


=== サンプルクエリーを実行する

. 次に、VM でいくつかのクエリーを実行します。ホストと VM の間のコピー/ペーストの問題を回避するために、VM でこのクイック スタートを開きます。仮想デスクトップに移動し、Firefox を起動して、このクイック スタートを指定します。



include::../other/next.steps.adoc[]

== 参考文献
* link:https://docs.teradata.com/r/Teradata-StudioTM-and-StudioTM-Express-Installation-Guide-17.20[Teradata® Studio™ および Studio™ Express インストール ガイド]
249 changes: 249 additions & 0 deletions modules/ROOT/pages/ja/general/nos.adoc
Original file line number Diff line number Diff line change
@@ -0,0 +1,249 @@
= オブジェクトストレージに保存されたクエリーデータ
:page-lang: ja
:experimental:
:page-author: Adam Tworkiewicz
:page-email: [email protected]
:page-revdate: 2021年9月7日
:description: Teradata Vantage Native Object Storage - オブジェクト ストレージへの読み取りと書き込み、Vantage およびオブジェクト ストレージ用の統合 SQL インターフェイス。
:keywords: データ ウェアハウス、コンピューティング ストレージの分離、teradata、vantage、クラウド データ プラットフォーム、オブジェクト ストレージ、ビジネス インテリジェンス、エンタープライズ分析

== 概要

Native Object Storage (NOS) は、AWS S3、Google GCS、Azure Blob、またはオンプレミス実装などのオブジェクト ストレージ内のファイルに保存されているデータをクエリできるようにする Vantage の機能です。これは、Vantage にデータを取り込むためのデータ パイプラインを構築せずにデータを探索するシナリオに役立ちます。

== 前提条件

Teradata Vantage インスタンスにアクセスする必要があります。NOS は、バージョン 17.10 以降、Vantage Express から Developer、DYI、Vantage as a Service までのすべての Vantage エディションで有効になります。

#include::ROOT:partial$vantage_clearscape_analytics.adoc[]

== NOS でデータを探索する

NOTE: 現在、NOS は CSV、JSON (配列または改行区切りとして)、および Parquet データ形式をサポートしています。

データセットが CSV ファイルとして S3 バケットに保存されているとします。データセットを Vantage に取り込むかどうかを決定する前に、データセットを探索したいと考えています。このシナリオでは、
米国地質調査所によって収集された河川流量データを含む、Teradata によって公開された公開データセットを使用します。バケットは https://td-usgs-public.s3.amazonaws.com/にあります。

まずはCSVデータのサンプルを見てみましょう。Vantage がバケットからフェッチする最初の 10 行を取得します。

[source, teradata-sql, id="nos_first_query" role="emits-gtm-events"]
----
SELECT
TOP 10 *
FROM (
LOCATION='/s3/td-usgs-public.s3.amazonaws.com/CSVDATA/'
) AS d;
----

私が持っているものは次のとおりです。

----
GageHeight2 Flow site_no datetime Precipitation GageHeight
----------- ----- -------- ---------------- ------------- -----------
10.9 15300 09380000 2018-06-28 00:30 671 9.80
10.8 14500 09380000 2018-06-28 01:00 673 9.64
10.7 14100 09380000 2018-06-28 01:15 672 9.56
11.0 16200 09380000 2018-06-27 00:00 669 9.97
10.9 15700 09380000 2018-06-27 00:30 668 9.88
10.8 15400 09380000 2018-06-27 00:45 672 9.82
10.8 15100 09380000 2018-06-27 01:00 672 9.77
10.8 14700 09380000 2018-06-27 01:15 672 9.68
10.9 16000 09380000 2018-06-27 00:15 668 9.93
10.8 14900 09380000 2018-06-28 00:45 672 9.72
----

たくさんの数字が出てきましたが、それは何を意味するのでしょうか?この質問に答えるために、Vantage に CSV ファイルのスキーマを検出するように依頼します。

[source, teradata-sql]
----
SELECT
*
FROM (
LOCATION='/s3/td-usgs-public.s3.amazonaws.com/CSVDATA/'
RETURNTYPE='NOSREAD_SCHEMA'
) AS d;
----

Vantage はデータ サンプルをフェッチしてスキーマを分析し、結果を返します。

----
Name Datatype FileType Location
--------------- ----------------------------------- --------- -------------------------------------------------------------------
GageHeight2 decimal(3,2) csv /S3/s3.amazonaws.com/td-usgs-public/CSVDATA/09513780/2018/06/27.csv
Flow decimal(3,2) csv /S3/s3.amazonaws.com/td-usgs-public/CSVDATA/09513780/2018/06/27.csv
site_no int csv /S3/s3.amazonaws.com/td-usgs-public/CSVDATA/09513780/2018/06/27.csv
datetime TIMESTAMP(0) FORMAT'Y4-MM-DDBHH:MI' csv /S3/s3.amazonaws.com/td-usgs-public/CSVDATA/09513780/2018/06/27.csv
Precipitation decimal(3,2) csv /S3/s3.amazonaws.com/td-usgs-public/CSVDATA/09513780/2018/06/27.csv
GageHeight decimal(3,2) csv /S3/s3.amazonaws.com/td-usgs-public/CSVDATA/09513780/2018/06/27.csv
----



CSV ファイルには 6 つの列があることがわかります。各列について、スキーマを推測するために使用された名前、データ型、ファイル座標を取得します。

== NOS を使用してデータをクエリーする

スキーマがわかったので、データセットを通常の SQL テーブルであるかのように操作できます。その要点を証明するために、データの集計を行ってみましょう。気温を収集しているサイトについて、サイトごとの平均気温を取得してみましょう。

[source, teradata-sql]
----
SELECT
site_no Site_no, AVG(Flow) Avg_Flow
FROM (
LOCATION='/s3/td-usgs-public.s3.amazonaws.com/CSVDATA/'
) AS d
GROUP BY
site_no
HAVING
Avg_Flow IS NOT NULL;
----

結果:

----
Site_no Avg_Flow
-------- ---------
09380000 11
09423560 73
09424900 93
09429070 81
----

アドホック探索アクティビティを永続ソースとして登録するには、それを外部テーブルとして作成します。

[source, teradata-sql]
----
-- If you are running this sample as dbc user you will not have permissions
-- to create a table in dbc database. Instead, create a new database and use
-- the newly create database to create a foreign table.
CREATE DATABASE Riverflow
AS PERMANENT = 60e6, -- 60MB
SPOOL = 120e6; -- 120MB
-- change current database to Riverflow
DATABASE Riverflow;
CREATE FOREIGN TABLE riverflow
USING ( LOCATION('/s3/td-usgs-public.s3.amazonaws.com/CSVDATA/') );
SELECT top 10 * FROM riverflow;
----

結果:

----
Location GageHeight2 Flow site_no datetime Precipitation GageHeight
------------------------------------------------------------------- ----------- ---- ------- ------------------- ------------- ----------
/S3/s3.amazonaws.com/td-usgs-public/CSVDATA/09429070/2018/07/02.csv null null 9429070 2018-07-02 14:40:00 1.21 null
/S3/s3.amazonaws.com/td-usgs-public/CSVDATA/09400815/2018/07/10.csv null 0.00 9400815 2018-07-10 00:30:00 0.00 -0.01
/S3/s3.amazonaws.com/td-usgs-public/CSVDATA/09400815/2018/07/10.csv null 0.00 9400815 2018-07-10 00:45:00 0.00 -0.01
/S3/s3.amazonaws.com/td-usgs-public/CSVDATA/09400815/2018/07/10.csv null 0.00 9400815 2018-07-10 01:00:00 0.00 -0.01
/S3/s3.amazonaws.com/td-usgs-public/CSVDATA/09400815/2018/07/10.csv null 0.00 9400815 2018-07-10 00:15:00 0.00 -0.01
/S3/s3.amazonaws.com/td-usgs-public/CSVDATA/09429070/2018/07/02.csv null null 9429070 2018-07-02 14:38:00 1.06 null
----


今回の `SELECT` ステートメントは、データベース内のテーブルに対する通常の選択のように見えます。データのクエリー時に 1 秒未満の応答時間が必要な場合は、CSV データを Vantage に取り込んで処理を高速化する簡単な方法があります。その方法については、読み続けてください。

== NOS から Vantage にデータをロードする

オブジェクト ストレージのクエリーには時間がかかります。データが興味深いと判断し、より迅速に答えが得られるソリューションを使用してさらに分析を行いたい場合はどうすればよいでしょうか? 良いニュースは、NOS で返されたデータを `CREATE TABLE` ステートメントのソースとして使用できることです。 `CREATE TABLE` 権限があると仮定すると、次を実行できます:

IMPORTANT: このクエリは、前の手順でデータベース `河川流量` と `河川流量` という外部テーブルを作成したことを前提としています。

[source, teradata-sql]
----
-- This query assumes you created database `Riverflow`
-- and a foreign table called `riverflow` in the previous step.
CREATE MULTISET TABLE riverflow_native (site_no, Flow, GageHeight, datetime)
AS (
SELECT site_no, Flow, GageHeight, datetime FROM riverflow
) WITH DATA
NO PRIMARY INDEX;
SELECT TOP 10 * FROM riverflow_native;
----

結果:

----
site_no Flow GageHeight datetime
------- ----- ---------- -------------------
9400815 .00 -.01 2018-07-10 00:30:00
9400815 .00 -.01 2018-07-10 01:00:00
9400815 .00 -.01 2018-07-10 01:15:00
9400815 .00 -.01 2018-07-10 01:30:00
9400815 .00 -.01 2018-07-10 02:00:00
9400815 .00 -.01 2018-07-10 02:15:00
9400815 .00 -.01 2018-07-10 01:45:00
9400815 .00 -.01 2018-07-10 00:45:00
9400815 .00 -.01 2018-07-10 00:15:00
9400815 .00 -.01 2018-07-10 00:00:00
----

今回は、 `SELECT` クエリーは 1 秒以内に返されました。Vantage は NOS からデータを取得する必要がありませんでした。代わりに、ノード上にすでに存在していたデータを使用して応答しました。

== プライベートバケットにアクセスする

これまではパブリックバケットを使用してきました。プライベートバケットがある場合はどうなるでしょうか? どの認証情報を使用する必要があるかを Vantage にどのように指示しますか?

資格情報をクエリーに直接インライン化することができます。

[source, teradata-sql]
----
SELECT
TOP 10 *
FROM (
LOCATION='/s3/td-usgs-public.s3.amazonaws.com/CSVDATA/'
AUTHORIZATION='{"ACCESS_ID":"","ACCESS_KEY":""}'
) AS d;
----

これらの認証情報を常に入力するのは面倒であり、安全性も低下する可能性があります。Vantage では、資格情報のコンテナとして機能する認可オブジェクトを作成できます。

[source, teradata-sql]
----
CREATE AUTHORIZATION aws_authorization
USER 'YOUR-ACCESS-KEY-ID'
PASSWORD 'YOUR-SECRET-ACCESS-KEY';
----

これにより、外部テーブルを作成するときに認可オブジェクトを参照できるようになります。

[source, teradata-sql]
----
CREATE FOREIGN TABLE riverflow
, EXTERNAL SECURITY aws_authorization
USING ( LOCATION('/s3/td-usgs-public.s3.amazonaws.com/CSVDATA/') );
----

== Vantage からオブジェクト ストレージにデータをエクスポートする

これまで、オブジェクト ストレージからのデータの読み取りとインポートについて説明してきました。SQL を使用して Vantage からオブジェクト ストレージにデータをエクスポートする方法があれば素晴らしいと思いませんか? これはまさに `WRITE_NOS` 関数の目的です。 `riverflow_native` テーブルからオブジェクト ストレージにデータをエクスポートしたいとします。次のクエリを使用してこれを行うことができます。

[source, teradata-sql]
----
SELECT * FROM WRITE_NOS (
ON ( SELECT * FROM riverflow_native )
PARTITION BY site_no ORDER BY site_no
USING
LOCATION('YOUR-OBJECT-STORE-URI')
AUTHORIZATION(aws_authorization)
STOREDAS('PARQUET')
COMPRESSION('SNAPPY')
NAMING('RANGE')
INCLUDE_ORDERING('TRUE')
) AS d;
----

ここでは、Vantage に `riverflow_native` からデータを取得し、 `parquet` 形式を使用して `YOUR-OBJECT-STORE-URI` バケットに保存するように指示します。データは `site_no` 属性でファイルに分割されます。ファイルは圧縮されます。

== まとめ

このクイック スタートでは、Vantage のネイティブ オブジェクト ストレージ (NOS) 機能を使用してオブジェクト ストレージからデータを読み取る方法を学習しました。NOS は、CSV、JSON、および Parquet 形式で保存されたデータの読み取りとインポートをサポートしています。NOS は、Vantage からオブジェクト ストレージにデータをエクスポートすることもできます。

== 参考文献
* link:https://docs.teradata.com/r/2mw8ooFr~xX0EaaGFaDW8A/root[Teradata Vantage™ - ネイティブ オブジェクト ストア スタート ガイド]
5 changes: 5 additions & 0 deletions modules/ROOT/pages/ja/index.adoc
Original file line number Diff line number Diff line change
@@ -0,0 +1,5 @@
= Main
:page-lang: ja
:page-layout: landing-page
:description: Teradata Vantage をすぐに使いこなしましょう。 機能について学びます。 一般的なタスクのハウツーを検索します。 サンプル ソース コードを調べます。
:keywords: データ ウェアハウス、クラウド データ ウェアハウス、コンピューティング ストレージの分離、teradata、vantage、クラウド データ プラットフォーム、Java アプリケーション、ビジネス インテリジェンス、エンタープライズ分析、ハイブリッド マルチクラウド、ビジネスの成果
7 changes: 7 additions & 0 deletions modules/ROOT/pages/ja/other/getting.started.intro.adoc
Original file line number Diff line number Diff line change
@@ -0,0 +1,7 @@
:experimental:

== 概要

このハウツーでは、Teradata データベースをローカル マシン上で実行してアクセスする方法を示します。Teradata をインストールするにはさまざまな方法があります。このドキュメントでは、クラウド リソースにコストを費やすことなく、最初のクエリーまでの時間を最短にするように最適化します。手順を完了すると、コンピュータ上で動作する Teradata Vantage Express データベースが作成されます。

NOTE: バージョン 17.20 以降、Vantage Express には次の分析パッケージが含まれています: https://docs.teradata.com/r/Vantage-Analytics-Library-User-Guide/January-2022[Vantage Analytics Library]、 https://docs.teradata.com/r/Teradata-VantageTM-Bring-Your-Own-Model-User-Guide/May-2022[Bring Your Own Model (BYOM)]、 https://docs.teradata.com/r/Teradata-VantageTM-API-Integration-Guide-for-Cloud-Machine-Learning/April-2022[API Integration with AWS SageMaker]。
3 changes: 3 additions & 0 deletions modules/ROOT/pages/ja/other/next.steps.adoc
Original file line number Diff line number Diff line change
@@ -0,0 +1,3 @@
== 次のステップ

* xref:ja/general/nos.adoc[]
1 change: 1 addition & 0 deletions modules/ROOT/pages/nos.adoc
Original file line number Diff line number Diff line change
@@ -1,4 +1,5 @@
= Query data stored in object storage
:page-lang: en
:experimental:
:page-author: Adam Tworkiewicz
:page-email: [email protected]
Expand Down
Loading

0 comments on commit 634264a

Please sign in to comment.