Memulai kumpulan Data Explorer di Azure Synapse

Pada artikel ini, kita akan mempelajari cara mengatur dan mengonfigurasi kemampuan pemrosesan data berbasis Azure Data Explorer di Azure Synapse.

pengantar

Data dapat bervariasi dalam hal volume, skema, dan sifat data. Data dapat terkait erat, sangat relasional, bersifat geografis, berorientasi pada deret waktu, sangat sederhana dalam struktur seperti pasangan nilai-kunci, dll. Cloud telah meningkatkan batasan di sekitar skala dengan kapasitas yang hampir tidak terbatas yang tersedia di tangan seseorang secara on- permintaan mode. Tergantung pada sifat data, seseorang perlu menggunakan repositori data yang cocok untuk menangani jenis data yang sesuai sehingga dapat diproses dan dikonsumsi secara optimal. Data relasional biasanya dihosting di RDBMS, data terkait padat dihosting di basis data Grafik, data yang sangat berorientasi pada deret waktu dihosting di basis data deret waktu, dan ada banyak kategori basis data dan layanan seperti itu yang melayani kelas data tertentu.

Pada platform cloud Azure, berbagai database ditawarkan seperti Azure SQL, Azure Database untuk PostgreSQL, dan beberapa lainnya. Untuk data yang berasal dari log dan sumber seperti IoT, yang datanya berupa teks bebas atau biasanya muatan semi terstruktur berbasis JSON, diperlukan sistem pengelolaan dan pemrosesan data yang sesuai dengan jenis data ini. Penawaran utama Azure untuk menangani jenis data ini adalah Azure Data Explorer. Dalam paradigma Data Lake modern, data dikumpulkan di data lake menggunakan Azure Data Lake Storage dan sejumlah besar data dianalisis menggunakan penawaran gudang data Azure – layanan Azure Synapse Analytics. Layanan ini baru-baru ini memperkenalkan kemampuan Azure Data Explorer untuk memfasilitasi pemrosesan dan analisis data ini di Azure Synapse.

Fitur unik Azure Data Explorer

Meskipun kami tahu bahwa Azure Data Explorer adalah penawaran Azure untuk memproses teks bebas dan semi-terstruktur dalam mode analisis ad-hoc, penting untuk memahami fitur unik dari layanan ini yang membuatnya optimal untuk jenis data ini.

  • Pengumpulan Data – Azure Data Explorer mendukung berbagai kerangka kerja saluran data dan sumber data yang mengirimkan atau menghasilkan data dalam format semi-terstruktur atau teks bebas. Contoh sistem atau kerangka kerja tersebut adalah Kafka streaming, Azure Data Lake Storage, Azure Event Hub Logs, dll.
  • Pemodelan Data – Data relasional, serta data analitik, biasanya dimodelkan dalam bentuk tabel atau dimensi dan fakta yang dinormalisasi. Tetapi data berbasis log atau data teks bebas umumnya tidak dimodelkan dengan cara yang sama. Azure Data Explorer memiliki fitur asli yang memfasilitasi konsumsi data tanpa perlu memodelkan data dengan cara yang canggih, karena secara intrinsik mengatur data dengan cara yang sesuai untuk konsumsi ad-hoc.
  • Konsumsi Data – Karena alat ini dimaksudkan untuk digunakan secara swalayan oleh analis dan pengguna yang kuat, alat ini diharapkan mendukung akses data dalam bahasa kueri yang tidak memerlukan banyak keterampilan pemrograman atau teknis. Kusto Query Language (KQL) merupakan bahasa yang user-friendly yang memiliki kemiripan dengan SQL dan Excel seperti pembentukan rumus.
  • Kinerja Pemrosesan Data – Azure Data Explorer adalah sistem terdistribusi yang dapat menangani sejumlah besar data pada skala cloud. Komputasi dan Penyimpanan dapat diskalakan secara independen karena terintegrasi dengan layanan seperti Azure Data Lake Storage untuk menggunakannya sebagai lapisan penyimpanan dan lapisan komputasi dapat digunakan secara asli atau dengan layanan seperti Synapse. Itu memiliki fitur untuk mengoptimalkan data secara otomatis, menghilangkan kebutuhan untuk pengoptimalan kueri berkelanjutan menggunakan teknik seperti pengindeksan dan mekanisme terkait lainnya.

Arsitektur Kumpulan Azure Data Explorer

Ditampilkan di bawah ini adalah diagram arsitektur resmi kumpulan Azure Data Explorer di Azure Synapse. Di Synapse, ada tiga pool yang berbeda – Serverless SQL Pool, Dedicated SQL Pool dan Apache Spark pool. Untuk mengaktifkan kemampuan terkait Data Explorer dengan Azure Synapse, Azure Data Explorer Pool telah diluncurkan di pratinjau (pada draf artikel ini).

Mari kita analisis diagram arsitektur ini secara singkat. Lapisan penyimpanan membentuk fondasi arsitektur ini, di mana data disimpan dan/atau bersumber dari repositori data seperti Azure Data Lake Storage, sumber data terstruktur seperti Azure SQL yang juga dapat menampung data semi-terstruktur (JSON), tanpa data SQL sumber seperti Azure Cosmos DB, dan repositori koleksi log seperti Azure Monitor. Meskipun ini adalah layanan asli Azure, ini juga mendukung penyerapan data dari berbagai streaming lainnya dan repositori semi-terstruktur atau berbasis log seperti IoT Hub, Event Hub, Event Grid, Kafka, Logstash, API Aplikasi Kustom, pipa data ETL yang dibangun dengan Azure Data Factory , Apache Spark dan beberapa lainnya. Di sisi lain, konsumen data dari Data Explorer dapat berupa berbagai aplikasi seperti aplikasi kustom, dasbor Power BI, alur kerja Power Automate, saluran Azure Data Factory yang dapat menggunakannya sebagai sumber sekaligus tujuan, gaya notebook populer editor seperti notebook Jupyter, alat charting open-source seperti Grafana dan banyak lainnya. Dua aspek inti dari kumpulan Azure Data Explorer adalah fitur manajemen dan konfigurasi mesin. Kita akan melihatnya secara singkat di langkah berikutnya.


Membuat Kumpulan Azure Data Explorer di Azure Synapse

Diasumsikan bahwa seseorang sudah memiliki akun Azure dengan instance Azure Synapse yang dibuat di dalamnya. Hal ini perlu dimiliki untuk melanjutkan langkah selanjutnya dari latihan ini. Navigasikan ke dasbor instance Azure Synapse dan buka tautan Azure Synapse Studio untuk memberi aksen pada konsol ini. Setelah kita berada di konsol, navigasikan ke bagian Kumpulan Analytics dan di sana kita akan dapat menemukan kumpulan Data Explorer seperti yang ditunjukkan di bawah ini.


Opsi kumpulan Data Explorer di Synapse

Klik pada Baru untuk memulai wizard pembuatan kumpulan Data Explorer, dan itu akan membuka halaman baru seperti yang ditunjukkan di bawah ini. Pada halaman pertama, kita perlu mengisi detail dasar. Kita bisa mulai dengan menetapkan nama yang sesuai untuk kumpulan ini.


Pengaturan dasar

Spesifikasi Compute menentukan jenis beban kerja yang ingin kami jalankan di kumpulan ini dan dengan demikian jenis sumber daya yang ingin kami alokasikan untuk instance ini. Ada dua pilihan yang tersedia di sini – Penyimpanan dioptimalkan, dan Dioptimalkan komputasi. Penyimpanan yang dioptimalkan akan memiliki konfigurasi inti berkapasitas lebih tinggi, sedangkan kategori yang dioptimalkan untuk komputasi akan memiliki konfigurasi inti tingkat granular. Untuk latihan ini, kita tidak memerlukan konfigurasi inti berkapasitas sangat tinggi, sehingga kita dapat melanjutkan dengan konfigurasi inti terkecil yaitu 2 inti.


Jenis dan ukuran beban kerja

Klik pada Lanjut tombol untuk melanjutkan ke langkah berikutnya yaitu Pengaturan Tambahan. Pada langkah ini, kita perlu memilih apakah kita bermaksud untuk melanjutkan dengan opsi penskalaan otomatis sesuai permintaan beban kerja, atau kita bermaksud untuk menyediakan sumber daya dengan kapasitas tetap. Ini juga dapat berdampak pada biaya tergantung pada jenis opsi yang kami pilih dan jenis beban kerja yang akan kami jalankan.


Skala otomatis yang dioptimalkan

Untuk saat ini, kami akan melanjutkan dengan opsi skala otomatis yang dioptimalkan. Jika kita gulir ke bawah, kita akan menemukan lebih banyak opsi terkait dengan autoscale yang dioptimalkan seperti yang ditunjukkan di bawah ini. Secara default, opsi penyerapan dan pembersihan streaming dinonaktifkan. Seseorang dapat secara opsional dan selektif mengaktifkan opsi ini tergantung pada skenario penyerapan data untuk kasus penggunaannya.


Jumlah instans

Pada langkah berikutnya, seseorang dapat secara opsional menambahkan tag apa pun ke instance ini, yang dapat berguna dari perspektif operasi. Terakhir, pada langkah terakhir, kita perlu meninjau konfigurasi dan klik tombol Buat untuk membuat kumpulan. Setelah kumpulan dibuat, navigasikan ke halaman dasbor kumpulan ini seperti yang ditunjukkan di bawah ini.


Kumpulan Penjelajah Data

Dengan cara ini, kita dapat membuat kumpulan Azure Data Explorer di Azure Synapse dan menjalankan beban kerja terkait Azure Data Explorer di Azure Synapse.

Kesimpulan

Dalam artikel ini, kami mempelajari secara singkat tentang Azure Data Explorer, kemampuannya, dan penggunaannya untuk kasus penggunaan yang relevan. Kemudian kami belajar tentang kumpulan Azure Data Explorer yang telah diluncurkan di Azure Synapse diikuti dengan implementasi praktis kumpulan ini.

Gauri Mahajan
Postingan terbaru oleh Gauri Mahajan (Lihat semua)

Pemulihan Data