Menyerap data ke Azure Synapse Data Explorer Pool

Dalam artikel ini, kita akan mempelajari cara mengonfigurasi kumpulan Data Explorer yang baru dibuat di Azure Synapse diikuti dengan penyerapan data ke kumpulan yang sama.

pengantar

Dalam artikel saya sebelumnya, Memulai kumpulan Data Explorer di Azure Synapse, kami mempelajari cara membuat kumpulan Data Explorer di Azure Synapse dan nilai unik yang dibawa Data Explorer ke data semi-terstruktur dan teks bebas. Pembuatan kumpulan Data Explorer adalah langkah pertama dalam proses. Setelah kumpulan dibuat, seseorang dapat membuat struktur data, mencerna data, dan kemudian menggunakannya untuk konsumsi. Antarmuka kumpulan Data Explorer menyediakan cara berbeda untuk menyerap data ke dalam kumpulan termasuk penyerapan satu klik.

Menyerap data di kumpulan Azure Synapse Data Explorer

Sebelum kita melanjutkan latihan ini, diasumsikan bahwa instance Azure Synapse serta kumpulan Azure Data Explorer sudah dibuat seperti yang dijelaskan di artikel terakhir. Setelah kolam dibuat, itu akan terlihat seperti yang ditunjukkan di bawah ini. Pembuatan kolam adalah langkah pertama dalam prosesnya. Setelah kumpulan dibuat, langkah selanjutnya adalah membuat database baru di kumpulan Azure Data Explorer seperti yang ditunjukkan di bawah ini di dasbor kumpulan.


Klik tombol Create database untuk membuat database baru menggunakan wizard pembuatan database baru. Kami hanya perlu memberikan detail dasar – nama basis data, periode penyimpanan, dan periode cache. Ini dalam satuan hari dan nilai default periode penyimpanan adalah 365 hari dan nilai default periode cache adalah 31 hari. Berikan nilai-nilai ini dan klik tombol Buat untuk membuat database baru di kumpulan Azure Data Explorer di Azure Synapse.


Buat Basis Data

Setelah database baru dibuat, langkah selanjutnya adalah mulai membuat struktur data di dalamnya dan mengisinya dengan data. Setelah database dibuat, kita akan mendapatkan dua opsi seperti yang ditunjukkan di bawah ini. Sekali adalah untuk langsung menyerap data baru dan selama proses penyerapan, buat struktur data baru. Opsi lainnya adalah membuat koneksi data baru ke kumpulan atau klaster penjelajah data lainnya. Setelah penyerapan klik, seperti yang disebutkan di bawah ini memungkinkan untuk menyerap data secara otomatis dan menawarkan berbagai fitur manajemen data juga.


Penyerapan Data

Klik tombol Buat koneksi data dan itu akan membuka layar baru seperti yang ditunjukkan di bawah ini. Pada draf artikel ini, kumpulan data explorer mendukung tiga jenis koneksi yaitu dengan Event Hub, Blob Storage, dan IoT Hub. Ini adalah sumber data yang biasanya mengirimkan data dalam format semi-terstruktur seperti JSON, CSV, parket, dan format serupa lainnya. Untuk saat ini, kami tidak akan fokus membuat koneksi baru dengan sumber-sumber ini, sebagai gantinya, kami akan fokus menyerap data baru dari Azure Data Lake Storage yang umumnya merupakan sumber data utama dalam skenario Data Lake.


Koneksi data

Sebelum kita mengklik tombol Ingest data baru, kita juga dapat melihat cara membuat koneksi ke Azure Data Lake Storage dari langkah ini. Pilih opsi penyimpanan Blob dan itu akan menampilkan halaman di bawah ini untuk menentukan konfigurasi untuk membuat koneksi baru ke Azure Data Lake Storage. Kita perlu memilih akun Azure Data Lake Storage di pengaturan akun Storage dan detail lainnya dapat memiliki nilai default. Untuk saat ini, kami akan memarkir topik koneksi data dan melanjutkan dengan aspek penyerapan data.


Koneksi ADLS

Setelah kita mengklik tombol Ingest data baru, itu akan membuka antarmuka baru seperti yang ditunjukkan di bawah ini. Wizard untuk menyerap data sudah akan terbuka dan langkah pertama akan memerlukan pendaftaran kumpulan Azure Data Explorer atau cluster Azure Data Explorer, dengan database yang di-host di dalamnya. Kami memiliki opsi untuk membuat tabel baru atau menggunakan tabel yang sudah ada untuk mengisinya dengan data yang diserap.


Serap Data Baru

Di antarmuka ini, sebelum kita melanjutkan langkah-langkah selanjutnya, kita dapat melihat tab Data di panel kiri seperti yang ditunjukkan di bawah ini. Tab ini mencantumkan semua opsi manajemen data berbeda yang dapat dilakukan pada kumpulan data explorer. Tindakan utama atau paling sering adalah membuat tabel baru atau menyerap data ke dalam tabel, dan ini tercantum di bagian tindakan cepat seperti yang ditunjukkan di bawah ini.


Manajemen data

Di bawah panel tindakan cepat, kami akan menemukan opsi untuk mendaftarkan data eksternal, membuat tabel baru, serta menyerap data dari sumber data seperti file lokal, wadah gumpalan, ADLS, dan Hub Peristiwa. Untuk saat ini, kami akan melanjutkan dengan langkah menyerap data dari Azure Data Lake Storage. Untuk melakukan hal yang sama, klik opsi Serap data dari bagian tautan cepat.


Penjelajah Data Azure

Cluster di sini sudah mencantumkan kumpulan Azure Data Explorer yang telah kami buat di Azure Synapse. Basis data yang tercantum di sini adalah yang kami buat di Langkah 2, setelah kami membuat kumpulan Data Explorer. Menggunakan opsi Buat tabel baru, di sini saya telah membuat tabel untuk tujuan demonstrasi, jadi sudah mencantumkan tabel di sini. Jika mereka tidak memiliki tabel apa pun, mereka dapat memilih opsi Buat tabel baru juga yang akan menghasilkan pembuatan tabel baru terlebih dahulu dan kemudian akan diisi dengan data dari sumber data.


Satu klik Ingesti

Pada langkah selanjutnya, kita perlu memilih konfigurasi untuk sumber data. Saat kita akan mengambil data dari Azure Data Lake Storage, jenis sumbernya adalah wadah gumpalan. Seperti yang terlihat di bawah, kita dapat memuat data dalam jumlah besar secara massal menggunakan opsi data historis atau melanjutkan dengan opsi default beban satu kali dan berkelanjutan di mana ia akan memuat data untuk saat ini dan kemudian membuat koneksi grid peristiwa untuk beban berikutnya . Dalam kasus kami, kami akan melanjutkan dengan opsi default satu kali dan berkelanjutan. Kami dapat menentukan wadah yang tepat saat file sumber mungkin di-host, jadi alih-alih menggunakan opsi URL, kami akan memilih opsi wadah seperti yang ditunjukkan di bawah ini. Kemudian kita dapat memilih akun Azure Data Lake Storage di pengaturan akun penyimpanan seperti gambar di bawah ini. Setelah selesai, pilih file persis yang ingin kami gunakan sebagai sumber untuk menyerap ke kumpulan Azure Data Explorer di Azure Synapse.


Satu Kali Konsumsi Terus Menerus

Pada langkah selanjutnya, kita akan dapat melihat skema file yang disimpulkan oleh alat ini dari file tersebut. Di sini ia mendeteksi nilai dan data bidang secara akurat. Kami memiliki opsi untuk mengonfigurasi pengaturan penguraian data sehingga data terbaca sesuai keinginan. Kita bisa menggunakan pemetaan bidang yang ada antara bidang sumber dan bidang tujuan di tabel yang ada atau bisa juga membuat pemetaan baru.


Skema dan Data Pratinjau

Setelah selesai, klik pada Lanjut untuk meninjau rincian Ringkasan. Peninjauan posting lanjutkan dengan langkah berikutnya untuk mengisi data di tabel tujuan di kumpulan Azure Data Explorer di Azure Synapse. Setelah data dimuat, kita dapat menavigasi ke studio Azure Synapse Analytics dan membuka antarmuka UI Web untuk menjelajahi objek data di kumpulan Data Explorer dan meminta data dari objek ini. Ketik nama tabel seperti yang ditunjukkan di bawah ini dan kita akan dapat menemukan hasil dan statistik tabel ini. Di sini akan ditampilkan ukuran dataset beserta total record di dalamnya juga.


Statistik Tabel

Dengan cara ini, kita dapat memasukkan data ke dalam tabel yang dihosting di kumpulan Azure Data Explorer di Azure Synapse.

Kesimpulan

Dalam artikel ini, kami memulai dengan penyiapan kumpulan Azure Data Explorer di Azure Synapse dan mengonfigurasinya dengan membuat database dan membuat tabel di dalamnya. Kami mengisinya dengan data dari Azure Data Lake Storage dan mengaksesnya dari tab Data di Azure Synapse Studio.

Gauri Mahajan
Posting terbaru oleh Gauri Mahajan (Lihat semua)

Pemulihan Data