[ICT] Azure Data Explorer (ADX) を試用した
この記事で取り上げた内容 Azure Data Explorer (ADX) をご自身で試用するには有効な Microsoft Azure サブスクリプション(適切な Azure リソースグループ作成)が必要です。Azure Data Explorer のドキュメント | Microsoft Learn を予めご参照いただいても構いません。

Azure Data Explorer (ADX) とは?
Azure Data Explorer は実時間(リアルタイム)に対応したビッグ データ分析プラットフォームで構造化データ、半構造化データ、および非構造化データが時系列で分析され、機械学習(Azure Machine Learning)が使用されるので重要な分析情報の抽出、パターンと傾向の特定、予測モデルの作成が簡単になります。 特徴はスケーラブルかつ安全で堅牢そしてエンタープライズに対応しており、ログ分析、時系列分析、IoT、汎用の調査分析に役立ちます。
Azure Data Explorer の機能は、Azure Monitor ログ、Application Insights、Time Series Insights、Microsoft Defender for Endpoint など、その高性能なクエリ言語を基盤に構築された他のサービスにより拡張されます。
Free Cluster を作成してデータを探索しましょう
Free Cluster はサンプルデータのセットです。いきなり自社データを投入するよりも、何ができるのかをご確認いただくことでデータ分析の対象と出力を理解できるのでお勧めです。
①ご利用に際し幾つかのラベル(名称)指定が必要です。

ここでは次の通りとしました。
クラスターの表示名:MyFreeCluster
データベース名:MyDatabase
②クラスター作成後はクエリ エディタにもすぐに確かめられるサンプルが反映されました。これは便利ですね。

③この手のデータ分析ツールは「日本語」エンコード処理にためにデータ読み込み時のプリフィルタリング等を行う必要がほとんどですが、タイムゾーンと言語を日本に合わせることがダッシュビードで容易でした。サンプルに該当データはありませんが念のための紹介です。

ここから(サンプル データを用いた)作業の開始です。

こちらでも豊富なサンプル データが用意されています。

IoTデータ例
これまで IoT ストリームデータは 分散型イベントストア Apache Kafka を経由して、 インメモリ型データ分散処理 Apache Spark Streaming で統合するなどアプローチが主流であったように思います。しかしながら、IoT サービスのデータ分析エンジンまでの構築は多くパターン化されていますが、Unified Analytics Platform (統合分析プラットフォーム)としてダッシュボードも必要とする場合は Databricks のダッシュボードツールを使うことなど全くの未経験者はさらに調査することが必要に駆られるでしょう。なぜ、Databricks が良いのかは Apache Spark 最大の貢献者だからで OSS 版には含まれていないモジュールも含まれており、より安定性と処理性能があるからです。(この話は長くなるので割愛)
さて、ADX ではもっと気軽にデータを観てみることができます。

↑ 生データ (RawData)

↑ データ 1 ストリームの統計情報
サンプル ダッシュボードの探索
データ分析プロジェクト前 (できれば、RFP をリセラーに出すタイミング)には自分たちの組織や役割で必要になる青写真を考える際にも役立ちますね。

ダッシュボード例 1/2

ダッシュボード例 2/2

説明が前後しますが、データ管理としてBlob コンテナ (ADLS Gen.2 Azure Data Lake Storage Gen2 )からもデータを取り込めるよ
コンテナーまたは Azure Data Lake Storage から Data Explorer へデータを取り込む | Microsoft Learn
■2023/03/11 現在 データ管理 アプローチ
・テーブルの作成
・外部テーブルの作成
・データの取り込み
・ローカルファイルからのデータの取り込み (AVD/WVD 環境なら転送速いよ)
・BLOB からのデータの取り込み
・BLOB コンテナからの取り込み
・ADLS Gen.2 からの取り込み(お勧めしたい理由はデータレイクから直接参照できるから)
・イベント ハブからの取り込み(ストリーム系などは重宝するかも)
・Amazon S3 からの取り込み(S3 対応ということは IBM COS なども対応できそう)
次の3つはプレビュー公開のため GA になるまでは遊びましょう。
・テーブル保持ポリシー
・テーブルバッチ処理ポリシー
・サンプルアプリの生成



コネクタ利用して外部アプリからデータ参照もできますよ
■2023/03/11 現在 利用可能コネクタ
・Power Automate
・Logic App
・Azure Data Factory
・Apache Spark (めちゃお勧め)
・Jupyter Notebook (既存 ipynb 資産があるならお勧め)
・ADX Kafka (Apache Kafka とは別)
・Logstash

参考文献
・Azure Data Explorer ダッシュボードを使用してデータを視覚化する | Microsoft Learn
・SQL から Kusto へのクエリの変換 – Azure Data Explorer | Microsoft Learn
・Azure Data Explorerのクエリを記述する | Microsoft Learn
・インジェスト ウィザードを使用して Azure Data Explorer にデータを取り込む | Microsoft Learn
・一般提供: Azure データ エクスプローラー ダッシュボード |Azure の更新プログラム |マイクロソフト アズ (microsoft.com)
・Azure Data Explorer のデータベース アクセス許可を管理する | Microsoft Learn
少し、消化不良の記事構成でしたが「ADX が完全日本語対応で楽しい」ことをお知らせしたくて公開しました。
以上、ご覧いただき有難うございました。