CRISP-DM Metodolojisi nedir?
Bugün sizlere Veri Bilimi Okulu ön hazırlık programından öğrenmiş olduğum, hem bilgilerimi yazarak pekiştirmek hem de benim gibi veri bilimi ve yapay zekaya ilgisi olan arkadaşlarıma faydası olacağını düşündüğüm için veri analiz süreci olan CRISP-DM(CRoss-Industry Standard Process for Data Mining) hakkında yazmaya karar verdim.
CRISP-DM veri madenciliği için sektörler arasında standart süreç anlamına gelmektedir. En popüler metodolojilerden biridir ve yaygın olarak kullanılmaktadır. Veri analizi süreçlerinde yol haritası oluşturma açısından önemli bir yere sahiptir.
Peki fazlasıyla popüler olan ve yaygın kullanılan bu metodoloji nasıl ortaya çıktı?
90'ların ortasından itibaren teknoloji şirketlerinin yavaş yavaş artmaya başlamasından sonra verilerden bilgi ayıklamak, verilerin sistematik olarak düzenlenmesi ihtiyacı gün geçtikçe önem kazanıyordu. 1996 yılında proje deneyimli bir ekip tarafından tasarlandı ve 1997 yılına gelindiğinde ESPRIT(European Strategic Programme on Research in Information Technology) finansman girişimi kapsamında bir Avrupa Birliği projesi haline geldi. Bu yıldan sonra proje o dönemin veri anlamında büyük şirketleri olan Daimler AG, Integral Solutions Ltd (ISL), Teradata, NCR Corporation ve bir sigorta şirketi olan OHRA tarafından yönetilecekti.
İlk metodolojinin hazırlanması 1999 yılını buldu. Mart ayında Brüksel’deki CRISP-DM SIG Çalıştayında sunuldu. 2006 ve 2008 yıllarında ise CRISP-DM SIG 2.0 olarak güncellendi. IBM firması da bu metodolojiyi SPSS’e entegre etmiştir.
CRISP-DM Metodolojisi’nin adımları nelerdir? Kaç aşamadan meydana gelir?
CRISP-DM metodoloji 6 adımda gerçekleşir. Gelin hep birlikte bu adımları sırasıyla inceleyelim ve hangi adımda neler yapılıyor öğrenelim.
İlk aşama: Business Understanding
Business Understanding aşamasında yapılacak proje, projenin gerçekleştirileceği sektörün, şirketin ihtiyaçları ve amaçlarına ne kadar katkı sağlayabilir, proje sırasında oluşabilecek sorunlar nelerdir, hangi araçları ve kaynakları kullanmalıyız? Sorularına cevaplar aranmaktadır. Kısaca yapacak olduğumuz analiz sürecinin mini planının hazırlanma kısmıdır.
İkinci aşama: Data Understanding
Data Understanding yani veriyi anlama aşamasında karar verdiğimiz, mini planını hazırladığımız proje hakkında verileri toplamaya başlarız. Bu aşamada topladığımız verileri anlamlandırmak, verilerin kalitesini belirlemek, verilerde herhangi bir eksiklik ya da gürültü veriler var mı bunun saptaması yapılır.
Gürültü veri: Veride hata olması durumudur.
Üçüncü aşama: Data Preparation
Bu aşamada topladığımız veriler modelleme aşamasına hazırlanır. Önceki aşamada verilerde saptadığımız eksik veriler, hatalar düzeltilir. Veriler modelleme için elverişli duruma gelir.
Dördüncü aşama: Modeling
Modelleme adım yapılacak projenin hedefine ulaşması açısından oldukça önemlidir. Hazırladığımız verilere ve ulaşmak istediğimiz sonuca yönelik algoritma modeli belirlenir. Seçmiş, uygulamış olduğumuz test aşamasına hazırlanır.
Beşinci aşama: Evaluation
Oluşturmuş olduğumuz modeli uygulamaya koymadan önce değerlendirdiğimiz, seçmiş olduğumuz modelin performansını test ettiğimiz aşamadır. Modelin nasıl çalıştığını gözlemleriz. Modelin doğruluk yüzdesi ne kadar yüksek ya da hedefimize ne kadar yakın olursa gerçek hayata o kadar uygundur diyebiliriz. İstediğimiz oranı veya sonucu yakalayamazsak süreç tekrar gözden geçirilir.
Altıncı Aşama: Deployment
Deployment adımında problemin çözümüne yönelik oluşturduğumuz modelin performansının yüksek çıkması ve gerçek hayata uygunluğu sonucunda modeli canlıya alırız, bir başka deyişle günlük kullanıma açmış oluruz.
Kaynakça:
https://en.wikipedia.org/wiki/Cross-industry_standard_process_for_data_mining
https://ec.europa.eu/jrc/communities/sites/default/files/publ046_tkde_2020_paper_earlyaccess.pdf
https://www.researchgate.net/figure/CRISP-DM-Model-Taylor-2017_fig1_326235288
Hazırlamış olduğum makale umarım faydalı olmuştur, keyifli okumalar diliyorum.
Linkedin Adresim : https://www.linkedin.com/in/osman-hamdi-baki/