Galeri Template di Database Azure Synapse Lake

Pada artikel ini, kita akan mempelajari bagaimana kita bisa membuat tabel di instance Azure Synapse Lake Database terlebih dahulu dan mengikatnya dengan data nanti.

pengantar

Dalam artikel sebelumnya, (TOC di bawah), kami memulai dengan konsep Lake House dan mempelajari ekosistem Azure Synapse Analytics termasuk Azure Synapse Lake Database. Kami membuat instance Lake Database, membuat tabel baru pada instance ini, menghosting data di akun Azure Data Lake Storage, dan mengonfigurasi tabel untuk menunjuk ke data yang dihosting di data lake. Kemudian kami mempelajari cara mengonfigurasi dan menyesuaikan skema tabel-tabel ini dan memodelkan hubungan antara tabel-tabel ini sesuai kebutuhan. Ini adalah salah satu jenis kasus penggunaan di mana kami memiliki data terlebih dahulu dan tabel di Azure Synapse dibuat untuk menyediakan bingkai ke kumpulan data untuk menggunakannya secara terstruktur.

Jenis kasus penggunaan lainnya adalah di mana tabel perlu dibuat berdasarkan domain tertentu dan data akan tiba di lokasi hosting biasanya data lake sesudahnya. Ini memperkenalkan dua tantangan – satu adalah untuk memodelkan tabel sesuai kebutuhan domain tertentu dan yang lainnya adalah untuk mengikat tabel ini ke data saat data tiba. Kami akan mengatasi tantangan ini dalam artikel ini.

Membuat tabel dari template di Azure Synapse Lake Database

Diasumsikan bahwa seseorang telah membuat instance Azure Synapse Lake Database seperti yang dijelaskan dalam kumpulan artikel sebelumnya tentang subjek yang sama. Urutan yang harus kita ikuti dalam hal ini membutuhkan pembuatan tabel terlebih dahulu. Biasanya, pemodel data yang memiliki keahlian dalam domain tertentu dapat membuat model data dari domain yang relevan. Data Lake adalah lokasi hosting tempat data dari berbagai jenis dan berbagai domain dikumpulkan di lokasi logis yang sama. Jadi secara organik ada kebutuhan untuk membuat model data dari berbagai domain. Galeri model data yang berisi tabel yang terkait dengan domain dan subdomain tertentu terbukti sangat berguna karena akan mengurangi terlalu banyak ketergantungan pada pemodel data untuk memulai pemrosesan data apa pun pada data yang disimpan di data lake. Meskipun ini bukan pengganti atau alternatif untuk pemodel data, tetapi setidaknya ini mengurangi hambatan untuk memulai pekerjaan apa pun dan sebagai gantinya memberikan awal yang baik bagi analis dan pengembang untuk memulai pekerjaan mereka sementara pemodel data mencari model terbaik.

Azure Synapse Lake Database menyediakan mekanisme untuk membuat tabel dari kumpulan templat yang telah ditentukan sebelumnya. Untuk membuat tabel kita menggunakan satu template seperti itu, navigasikan ke instance Lake Database dan klik tanda + seperti yang ditunjukkan di bawah ini, dan pilih item menu Dari template seperti yang ditunjukkan di bawah ini.


Opsi ini akan membuka galeri template baru yang diklasifikasikan berdasarkan domain seperti Pertanian, Perbankan, Barang Konsumen, Perdagangan Energi dan Komoditas, Pengangkutan dan Logistik, Manajemen Dana, Asuransi Jiwa dan Anuitas, Minyak dan Gas, Asuransi Properti dan Kecelakaan, Ritel, dan masih banyak lagi seperti gambar dibawah ini.


Galeri Template

Ini adalah domain tingkat tinggi dan masing-masing dapat memiliki banyak sub-domain. Katakanlah kita bermaksud membuat tabel Buku Besar di mana kita akan menyimpan data terkait buku besar. Ini berkaitan dengan domain perbankan, jadi klik Perbankan dan itu akan menawarkan set sub-domain berikut yang ditunjukkan di bawah ini. Nomor terhadap setiap sub-domain menunjukkan jumlah definisi tabel yang terkandung di dalamnya. Mari pilih Akuntansi dan Pelaporan Keuangan karena Buku Besar relevan dengan sub-domain ini.


Sub-domain

Ketika kami memperluas sub-domain ini, kami akan menemukan tabel Buku Besar seperti yang ditunjukkan di bawah ini. Kita akan dapat melihat definisi tabel serta bidang yang menjelaskan tujuan tabel ini.


Deskripsi Tabel

Ketika kita mengklik kolom tab, kita akan dapat menemukan definisi kolom serta deskripsi bidang, yang memudahkan orang teknis untuk memahami aspek terkait domain yang dimodelkan ke dalam tabel. Kami memiliki opsi untuk memilih atau membatalkan pilihan bidang apa pun sesuai kebutuhan.


Deskripsi Bidang

Seperti yang telah kita lihat di artikel sebelumnya di Azure Synapse Lake Database, Hubungan tab memberitahu kita ketergantungan ke dalam dan ke luar dari tabel. Di sini tabel ini tampaknya independen, jadi kita tidak perlu menambahkan tabel terkait untuk saat ini. Klik tombol Add untuk menambahkan tabel ke instance.


Hubungan

Setelah tabel ditambahkan, itu akan terlihat seperti yang ditunjukkan di bawah ini. Ini melengkapi bagian pertama dari latihan di mana kita harus membuat definisi skema terlebih dahulu sebelum data tiba.


Tabel Buku Besar

Klik pada tabel karena kita akan dapat melihat properti umum dan pengaturan terkait penyimpanan tabel ini. Secara default, karena tabel ini dibuat dari template, tabel ini akan mengambil konfigurasi database dan akan disimpan di Azure Data Lake Storage yang merupakan konfigurasi yang telah kami gunakan untuk instance Azure Synapse Lake Database. Pengaturan penyimpanan ini tidak dapat diubah. Nilai folder input menunjukkan jalur dari mana tabel diharapkan untuk mengambil data saat permintaan dibuat untuk mengakses data pada tabel ini. Jalur ini tidak ada di Azure Data Lake Storage untuk saat ini.


Properti yang tidak dapat diedit

Sisa dari pemformatan data atau penguraian properti terkait dapat dimodifikasi seperti yang ditunjukkan di bawah ini. Penting untuk memahami pengaturan yang dapat dimodifikasi dan tidak dapat dimodifikasi untuk tabel yang dibuat dari template sehingga dikonfigurasi secara akurat saat tabel dibuat dari template.


Properti yang dapat diedit

Berdasarkan bidang di buku besar, kami membutuhkan beberapa data sampel sekarang. Data ini mungkin datang dari berbagai repositori data tetapi harus memiliki skema yang sama seperti yang didefinisikan dalam tabel untuk tabel sumber data. Untuk mensimulasikan situasi ini, kita dapat membuat file CSV dengan beberapa record di dalamnya. Bidang akan diuraikan dalam posisi ordinal yang sama dan urutan yang didefinisikan dalam tabel. Ditampilkan di bawah ini adalah contoh dari beberapa catatan dalam file CSV.


Contoh data

Arahkan ke akun Azure Data Lake Storage dan buat jalur dan folder yang diharapkan tabel dan unggah file CSV di lokasi ini seperti yang ditunjukkan di bawah ini. Nama file CSV tidak terlalu penting dalam kasus ini.


Penyimpanan Data Lake Azure

Ini melengkapi paruh kedua latihan kami, di mana data akan tiba setelah skema didefinisikan di Database Azure Synapse Lake. Dalam praktiknya, data ini akan diisi menggunakan jalur data dan aliran data yang didukung oleh Azure Synapse Analytics atau Azure Data Factory. Untuk menguji apakah pendekatan dan konfigurasi berfungsi, navigasikan kembali ke instance Azure Synapse Lake Database dan buka tabel. Menggunakan tindakan elipsis dan pilih opsi untuk PILIH 100 baris teratas. Ini akan membuka layar baru seperti yang ditunjukkan di bawah ini. Klik menu Run untuk menjalankan skrip SQL, dan jika semuanya berjalan seperti yang diharapkan, kita seharusnya dapat melihat data yang sama di panel hasil seperti yang ditunjukkan di bawah ini.


Data Kueri menggunakan tabel yang dibuat dari template

Dengan cara ini, kita dapat menggunakan template di Azure Synapse Lake Database untuk memulai proses pemodelan data dan dengan cepat mengambil data menggunakan model data yang ditentukan.

Kesimpulan

Dalam artikel ini, kita belajar tentang dua kasus penggunaan di mana model data didefinisikan pertama dan terakhir. Kami menjelajahi galeri template di Azure Synapse Lake Database, membuat tabel darinya, lalu mengikatnya dengan data yang dihosting di Azure Data Lake Storage.

Gauri Mahajan
Postingan terbaru oleh Gauri Mahajan (Lihat semua)

Pemulihan Data