Satu hal yang sering dijumpai dalam analisa interpolasi data Krigging adalah adanya “outliers” yaitu data yang ekstrim, teramat tinggi atau teramat rendah, dan dikategorikan sebagai penyimpangan nilai dari seluruh populasi normal data. Ini biasanya terjadi karena kesalahan saat proses perekaman atau input data. untuk error jenis ini harus dikoreksi sebelum proses interpolasi, tetapi kadang kala data tersebut walaupun ekstrim merupakan data valid, untuk kasus terakhir ini akan kita uraikan di tulisan ini :beer:
Data yang digunakan pada tulisan ini adalah konsentrasi logam berat pada lumut di Austria pada tahun 1995, difokuskan pada jenis molybdenum, pada grafik di bawah terlihat konsentrasi tinggi terletak di selatan dan meningkat semakin ke utara. terlihat ada dua lokasi dimana konsentrasi logam sangat tinggi dari data lainnya (7.66 and 1.81 mg/kg).
Dengan kondisi data tersebut sangat sulit membuat model Krigging yang valid dengan data yang mempunyai nilai lebih tinggi beberapa kali lipat dari nilai data lainnya. Biasanya digunakan semivariogram untuk mengepaskan data, tetapi kadang data ekstrim mempengaruhi hasil akhir semivariogram sehingga tidak ada kombinasi parameter yang sesuai dengan data. Sebagai contopada data Molybdenum, tool Geostatistical menyarankan menggunakan semivariogram di bawah ini (gambar). Perhatikan pada kurva biru gelap yang hampir rata, dan semivariance empiris (silang biru) terdistribusi ke atas dan ke bawah tidak menentu. Ini mengindikasikan semivariogram itu tidak dapat digunakan pada analisis.
SOLUSI
Solusi yang potensial adalah memecah proses krigging menjadi dua langkah yaitu :
1. Modelling, membangun semivariogram menjadi model hubungan spasial antara titik. Langkah ini menghitung korelasi antar titik berdasar jarak
2. Prediksi, menggunakan semivariogram dan dataset untuk membuat prediksi lokasi baru
Biasanya dataset yang sama digunakan untuk modeling dan prediksi, tetapi trik dalam mengatasi data ekstrim adalah kita tidak perlu menggunakan dataset yang sama. Ketika anda dihadapkan pada dataset dengan deviasi data yang besar yang tidak bisa anda abaikan pendekatan umum adalah dengan menghapus data ekstrim tersebut dari pemodelan, dan menggunakan semua dataset termasuk data ekstrim pada langkah prediksi. Langkah kerja ini efektif karena modeling tidak akan terganggu dan menjadi rusak karena data ekstrim, tetapi prediksi permukaan akan tetap memperhitungkan data ekstrim untuk keakuratan.
LANGKAH PEMODELAN
1. Seleksi semua titik pada dataset kecuali data ekstrim,
2. gunakan Geostatistical wizard untuk membangun semivariogram untuk memodelkan hubungan data yang tidak ekstrim. (bandingkan semivariogram dibawah dengan yang di atas).
3. Klik “Finish” kemudian klik OK pada jendela Method Report. layer geostatistik akan ditambahkan ke TOC Arcmap. layer ini juga dapat di simpan di harddisk.
4. Proses modeling selesai
LANGKAH PREDIKSI
1. Gunakan tool “Create Geostatistical Layer” untuk menggunakan model di atas untuk membuat prediksi menggunakan semua dataset (termasuk data ekstrim). Sebagaimana terlihat pada grafis di bawah, gunakan data modeling di atas yang telah anda simpan sebagai file lyr sebagai sumber model, untuk input dataset gunakan dataset tanpa terkecuali termasuk dengan data ekstrim, dan tentukan output filenya, klik OK
2. Langkah Prediksi yang dihasilkan akan ditambahkan pada TOC Arcmap, atau dapat juga disimpan sebagai file.
3. Langkah Prediksi untuk membuat peta prediksi konsentrasi molybdenum di Austria telah selesai.
HASIL
Data surface prediksi konsentrasi molybdenum yang dijadikan contoh di atas dapat dilihat pada gambar di bawah. sebagaimana yang telah diduga sebelumnya, konsentrasi rendah terdapat di utara dan konsentrasi tinggi di bagian selatan area. prediksi tertinggi berada di sekitar data ekstrim.
PERBANDINGAN
Kita dapat membandingkan prediksi di atas yang mengikutkan data ekstrim pada langkah prediksi dan prediksi yang tidak mengikutkan data ekstrim (langkah pemodelan). semuanya menggunakan semivariogram yang sama yang tidak mengikutkan data ekstrim.
Grafik di bawah memperlihatkan persentase perbedaan antara dua data hasil. untuk mengkalkulasi perbedaan keduanya, kedua layer geostatistik tersebut harus dikonversi ke raster sehingga bisa dilakukan proses map algebra. Perlu diingat prediksi keduanya identik kecuali data ekstrim yang diikutsertakan dan yang satu tidak. Dari gambar terlihat prediksi pada area yang jauh dari data ekstrim tidak terpengaruh oleh nilai ekstrim tersebut. dan juga terlihat penggunaan nilai ekstrim meningkatkan kedetailan prediksi di daerah dengan konsentrasi molybdenum tinggi. inilah hal yang memang kita inginkan.
Referensi data :
Krivoruchko K. (2011) Spatial Statistical Data Analysis for GIS Users. Esri Press, 928 p.
Source : Eric Krause dan ESRI