Memulai dengan Database dan Danau Azure Synapse Lake

Artikel ini akan membantu Anda memulai dengan Database Azure Synapse Lake dan tabel Lake.

pengantar

Dalam artikel saya sebelumnya, Pengantar Database Azure Synapse Lake di Azure Synapse Analytics, kita belajar tentang pentingnya struktur data dan paradigma pemodelan data seperti konsep rumah danau data. Kami juga mempelajari apa Azure Synapse dan Azure Synapse Lake Database diposisikan untuk melayani. Kami juga melihat komponen utama ekosistem Synapse dan Database Azure Synapse Lake di pusatnya. Kami belajar secara konseptual tentang semua komponen ini di artikel sebelumnya. Kami akan mulai mengeksplorasi cara membuat instance Azure Synapse dan mendaftarkan Lake Database dan Tabel baru di dalamnya sehingga kami dapat mengakses data darinya, yang identik dengan konsumen data apa pun yang menggunakan data tersebut dari Synapse Lake Table.

Membuat Instans Sinapsis Azure

Diagram yang ditunjukkan di bawah ini secara konseptual menggambarkan berbagai komponen yang terkait dengan Database Azure Synapse Lake. Di atas, kami memiliki kumpulan Azure Synapse – yaitu kumpulan SQL Tanpa Server dan kumpulan Spark. Di bagian bawah, kami memiliki Azure Data Lake Storage dengan file data dalam format CSV dan Parket. Jadi, mudah untuk mengetahui bahwa prasyarat pertama yang kita miliki dalam kasus ini adalah instance Azure Synapse.


Diasumsikan bahwa seseorang sudah memiliki akun Azure dengan hak istimewa yang diperlukan untuk mengakses layanan Azure Synapse Analytics. Buka dasbor layanan ini dan buat instance baru menggunakan opsi default di wilayah pilihan Anda. Setelah instance dibuat, buka dasbor instance itu dan halaman beranda akan terlihat seperti yang ditunjukkan di bawah ini. Di bagian memulai, kita akan dapat melihat ubin bernama Synapse Studio. Ini adalah pintu gerbang untuk membuka konsol yaitu, Azure Synapse Studio dari mana kami dapat mengoperasikan berbagai fitur dan layanan yang terkait dengan Azure Synapse termasuk Database Azure Synapse Lake. Seseorang dapat secara opsional membuat kumpulan SQL khusus juga, tetapi kita tidak akan membutuhkannya untuk latihan ini.


Studio Sinaps

Sebelum kita melanjutkan ke langkah berikutnya, prasyarat lain adalah membuat akun penyimpanan Azure Data Lake Storage – Tipe 2 dan memiliki setidaknya satu file data dalam format CSV dengan beberapa contoh data di dalamnya. Ini adalah prasyarat penting untuk melanjutkan ke langkah selanjutnya dalam latihan ini. Diasumsikan bahwa seseorang telah memenuhi persyaratan prasyarat ini, dan kemudian melanjutkan ke langkah berikutnya.

Membuat Database Azure Synapse Lake

Arahkan ke Azure Synapse Studio, lalu dari halaman beranda, klik pada Data tab. Itu akan membuka halaman baru dari mana kita dapat mengklik tanda + untuk menjelajahi opsi seperti yang ditunjukkan di bawah ini. Database Azure Lake sedang dalam pratinjau pada draf artikel ini. Klik pada opsi database Lake yang akan membuka wizard baru.


Database Danau Baru

Jendela properti di sisi kanan akan menampilkan properti dari Azure Synapse Lake Database dengan nilai default seperti yang ditunjukkan di bawah ini. Kita bisa mulai dengan memberi nama yang sesuai untuk database dan deskripsi opsionalnya.


Nama Basis Data

Bagian pengaturan penyimpanan adalah salah satu properti penting yang harus kita konfigurasikan dengan hati-hati. Untuk semua jenis data yang bersumber, layanan tertaut dibuat dan digunakan oleh layanan Azure Synapse. Salah satu layanan tertaut dilampirkan ke ruang kerja dan yang lainnya ditautkan ke Penyimpanan Danau Data Azure. Kami bermaksud membuat tabel berdasarkan data yang disimpan di data lake. Biasanya, seseorang akan memiliki data yang terakumulasi di Azure Data Lake dalam bentuk file dan seseorang ingin membuat struktur metadata di atas file data ini sehingga dapat diakses dengan cara yang diinginkan. Jadi, kami akan memilih layanan terkait yang terkait dengan data lake.


Properti Penyimpanan

Saat kita memilih Azure Data Lake sebagai sumber data, kita perlu memilih folder input tempat data kita di-host. Dalam hal ini, kami menyimpan data kami di folder input bernama sampledata. Dalam kasus, di mana seseorang tidak memiliki layanan tertaut yang tersedia, seseorang dapat mendaftarkan layanan tertaut dari studio Azure Synapse dan kemudian akan mulai muncul di opsi layanan tertaut seperti yang ditunjukkan di bawah ini. Setelah layanan data lake linked dan lokasi yang benar pada data lake dikonfigurasi, langkah selanjutnya adalah memilih format data. Pada draf artikel ini, format input yang didukung adalah CSV (teks dibatasi) dan Parket. Kami akan melanjutkan dengan opsi default teks yang dibatasi. Idealnya, seseorang ingin menggunakan format kolom seperti Parket yang sangat terkompresi dan menawarkan penghematan ruang yang lebih besar dan efisiensi kinerja dibandingkan dengan format file terbatas berbasis teks.


Layanan Tertaut

Sekarang kita sudah memiliki Database Azure Synapse Lake, kita bisa fokus membuat tabel di database ini. Klik pada opsi Tabel seperti yang ditunjukkan di bawah ini, dan kami akan menemukan tiga opsi untuk membuat tabel baru. Salah satu opsi adalah membuat tabel dari template, satu opsi adalah membuat tabel kustom dari awal dan opsi ketiga adalah membuat tabel berdasarkan data yang disimpan di data lake. Karena kami telah menyimpan data di data lake dalam bentuk file CSV, kami akan menggunakan opsi ketiga ini.


Folder Masukan

Setelah kami memilih opsi yang disebutkan di atas, itu akan memunculkan jendela baru di sisi kanan seperti yang ditunjukkan di bawah ini untuk menentukan tabel baru. Kita bisa mulai dengan menetapkan nama yang sesuai untuk tabel ini.


Tabel Eksternal

Katakanlah kita ingin membuat data pelanggan dan menganggap bahwa data yang kita simpan di akun Azure Data Lake Storage memiliki data pelanggan di file CSV. Kami akan menggunakan layanan tertaut yang sama dari Azure Data Lake yang kami gunakan sebelumnya dan memilih file yang tepat kali ini daripada hanya memilih folder yang menampung file data. Data dalam file ini akan diuraikan dan metadata akan disimpulkan dari file ini untuk mengonfigurasi definisi tabel.


Menghubungkan file dengan tabel

Secara default, wizard ini akan menganggap bahwa file bertipe delimited CSV dengan koma sebagai delimiter. Kami dapat mengonfigurasi semua opsi tipikal yang tersedia saat mem-parsing file yang dibatasi seperti yang ditunjukkan di bawah ini. Kita juga harus memilih untuk menentukan apakah record pertama dalam file data berisi header kolom.


Properti File yang Dibatasi

Klik pada Pratinjau Data opsi untuk melihat pratinjau data, yang membantu memastikan apakah file sedang diuraikan seperti yang diinginkan. Jendela Pratinjau akan terlihat seperti yang ditunjukkan di bawah ini di mana kita dapat melihat bahwa data sedang dibaca dengan benar bersama dengan header kolom juga.


Pratinjau Data

Klik pada Melanjutkan tombol dan lanjutkan dengan pembuatan tabel baru. Setelah tabel dibuat, itu akan terlihat di panel desain seperti yang ditunjukkan di bawah ini. Kami juga dapat mengidentifikasi tipe data bidang dari ikon kecil di sebelah kiri nama bidang.


Meja Pelanggan

Setelah tabel dibuat, sekarang saatnya untuk menguji apakah kita dapat mengakses data dari tabel ini. Harus diingat bahwa tabel yang kami buat hanyalah definisi metadata, dan data aktual, dalam hal ini, berada di Azure Data Lake Storage dalam bentuk file data. Klik pada elipsis Tindakan pada tabel baru yang baru saja kita buat dan pilih opsi untuk SELECT TOP 100 baris seperti yang ditunjukkan di bawah ini.


Pilih Data

Ini akan membuka halaman baru dengan antarmuka untuk mengeksekusi pernyataan SQL seperti yang ditunjukkan di bawah ini. Klik tombol Run untuk menjalankan pernyataan SQL ini, dan jika semuanya dikonfigurasi seperti yang dijelaskan di atas, kita akan dapat melihat data di panel hasil seperti yang ditunjukkan di bawah ini.


Hasil dari Pernyataan SQL

Dengan cara ini, kita dapat membuat Database Azure Synapse Lake dan tabel di dalamnya menggunakan data yang dihosting di Azure Data Lake Storage.

Kesimpulan

Dalam artikel ini, kami mempelajari cara membuat Database Azure Synapse Lake dan mengonfigurasinya untuk membuat struktur metadata yang mengambil data dari Azure Data Lake.

Gauri Mahajan
Postingan terbaru oleh Gauri Mahajan (Lihat semua)

Pemulihan Data