Data Mining: Pengenalan

Aktivitas yang dilakukan organisasi menghasilkan model bisnis yang bervariasi. Dalam mendukung model bisnis yang dikembangkan, organisasi akan mengumpulkan data perihal aktivitas dan transaksi yang dikelolanya. Data yang terkumpul tersebut diharapkan dapat membantu dalam melihat kesehatan organisasi dan pengambilan keputusan dikemudian hari. Aktivitas yang dilakukan tersebut lebih dikenal dengan data mining.

Data

Data yang dikelola oleh organisasi akan sangat berbeda bergantung kepada skala usahanya. Skala usaha yang kecil tentu saja cukup dengan berkas spreadsheet yang dengan mudahnya dapat diolah dengan perangkat lunak di desktop PC. Skala usaha menengah tentu saja memerlukan sistem basis data dan dashboard real-time yang dengan mudah dapat dilihat oleh manajemen. Dan skala usaha besar tentu saja butuh pendekatan yang lebih dalam tata kelola datanya. Dengan skenario yang berbeda-beda ini pendekatan pengelolaan data dan metode analisis data saja yang mungkin berbeda.

Data yang tersimpan oleh organisasi akan tersimpan sepanjang hayat organisasi berdiri, mulai dari awal berdiri hingga saat ini. Namun seringkali untuk melihat kesehatan organisasi dan pengambilan keputusan, data yang digunakan tidaklah dari awal, mungkin hanya tahun lalu dan tahun sebelumnya serta tentu saja data tahun berjalan. Data yang sebelum itu bisa dikatakan hanya memenuhi ruang kosong media penyimpanan.

Perusahaan skala menengah dan besar yang sudah berdiri bertahun-tahun tentunya memiliki skala data yang lumayan cukup mengisi media penyimpanan. Sebagian besar hanya akan tertumpuk sebagai arsip dan bukti sejarah perkembangan perusahaan, tidak terpakai, dan menghabiskan sumber daya basis data yang telah dibangun. Namun apakah harus dibuang? Mungkin yang perlu dilakukan adalah melihat data dari metode yang berbeda, salah satu yang sedang hype adalah data mining.

Continue reading “Data Mining: Pengenalan”

KMeans untuk Pengklasteran dengan R

Metode pengklasteran merupakan salah satu metode pembelajaran mesin yang cukup matang dan paling umum digunakan dalam melakukan eksplorasi data. Tanpa mengetahui apapun mengenai data, kita dapat mengelompokkan data berdasarkan nilai masing-masing variabel. Salah satu algoritma yang digunakan adalah KMeans yang dalam R ada dalam paket stats.

Untuk menerapkan K-Means, ada beberapa hal yang perlu diperhatikan dalam menggunakan algoritma ini dengan R.

Argumen Fungsi KMeans

Berikut argumen yang diperlukan dalam menjalankan fungsi ini.

kmeans(x, centers, iter.max = 10, nstart = 1,
       algorithm = c("Hartigan-Wong", "Lloyd", "Forgy",
                     "MacQueen"), trace=FALSE)
## S3 method for class 'kmeans'
fitted(object, method = c("centers", "classes"), ...)

Dimana x adalah data yang ingin diklaster, centers adalah jumlah titik pusat, iter.max adalah jumlah maksimum pengulangan/iterasi, nstart adalah jumlah titik awal acak yang dibuat, algorithm adalah algoritma yang ingin dipakai, trace adalah opsi untuk informasi proses penghitungan.

Algoritma KMeans

Algoritma dasar kmeans adalah:

Continue reading “KMeans untuk Pengklasteran dengan R”

Bahasa R: Pengenalan


Bahasa pemrograman R
 dikembangkan oleh Ross Ihaka dan Robert Gentleman sejak 1993. Arah pengembangan R diutamakan pada fungsi-fungsi statistika dan metode tampilan grafik. Fungsi yang dikembangkan termasuk untuk fungsi analisis regresi linear, analisis runtun waktu (time series), dan metode statistika lainnya.

Logo R
Logo R

Saat ini penggunaan R makin pesat dengan adanya hype mengenai metode analisis baru, yaitu Machine Learning. Dari awalnya berkembang dalam dunia akademisi, saat ini banyak perusahaan yang mengadopsi penggunaannya, diantaranya: Uber, Google, AirBnB, Facebook, dkk.

Bahasa R dalam Penerapan

Dalam penerapan sehari-hari utamanya dalam bidang analisis, dalam setiap langkah analisis data, bahasa R dapat digunakan. Mari kita bahas.

Pemrograman

R yang merupakan bahasa pemrograman komputer didesain untuk mudah digunakan dan gratis. Selain dapat diadopsi gratis sesuai lisensi yang digunakan, penggunaan bahasa pemrograman dengan berbasis teks membuat R dapat diduplikasi dan diterapkan dengan mudah. Hal ini mendorong banyak proyek bersama yang berbasis kolaborasi menjamur.

Continue reading “Bahasa R: Pengenalan”

Berpindah Versi R di RStudio

Sebagai pengguna RStudio dalam keseharian, kami terkadang mendapat masalah. Kami menggunakan Debian Sid di salah satu mesin riset dimana versi aplikasi berubah terlalu sering. Di mesin yang lain kami menggunakan R dari CRAN yang update setiap rilis baru. Perubahan ini sering membuat masalah utamanya dependency paket.

Dalam artikel ini kami hanya akan mencakup 2 (dua) OS saja sesuai yang kami pakai, yaitu Linux dan Windows. Kami menggunakan Debian Linux dan Windows 7, versi lain kemungkinan besar tidak terdapat perbedaan. Perlu diingat RStudio dapat berjalan di R>2.11.1.

Linux

Secara default R yang digunakan oleh RStudio adalah hasil output dari perintah:

$ which R

Untuk paket yang berasal dari Debian dan CRAN yaitu rbase, biasanya terdapat pada /usr/bin/R. Sedangkan hasil compile sendiri (default) ada di /usr/local/bin/R. Kalo kami biasanya menggunakan –prefix saat melakukan kompilasi untuk menentukan path saat make install.

Secara default bila RStudio tidak menemukan path R maka RStudio akan mengunakan /usr/bin dan /usr/local/bin sebagai rujukan mencari binary R. Lalu bagaimana cara menggunakan R yang tidak pada kedua path tersebut?

Continue reading “Berpindah Versi R di RStudio”

Neo4j: Sekilas Cerita

Pernahkah Anda mendapatkan data yang saling terhubung? Contoh yang ada pada kami adalah data ICIJ OffshoreLeaks. Data semacam ini dapat di-visualisasi-kan dalam basis data grafik, dengan Neo4j.

Apa itu? Mari kita kenali bersama.

Sekilas Neo4j

Neo4j adalah sebuah basis data yang dikembangkan oleh Neo sejak 1999, yang diinisiasi oleh 3 serangkai Ian RobinsonJim Webber & Emil Eifrem. Berangkat dari inisiatif untuk mengembangkan model kerja dalam data, mereka mengembangkan sebuah basis data yang dimaksudkan untuk menyimpan data-data ber-relasi atau terkoneksi. Dimana bila dilakukan pada mesin basis data relasional akan berjalan lambat.

Saat ini telah banyak data grafik yang dikembangkan mengikuti tren dalam mengelola data. Contoh penerapan secara masif adalah Facebook yang menginisiasi ide bahwa ada nilai dalam informasi mengenai seseorang, bahkan terdapat nilai lebih saat diteliti lebih dalam mengenai relasi di dalamnya. Pengembangan platform grafik sosial dalam mengeliti relasi dengan sangat mendalam.

Inilah ide pengembangan Neo4j dan alasan kami mengangkatnya.

Continue reading “Neo4j: Sekilas Cerita”