DVDesktop 에 있는 기능들중 가장 마음에 드는 것중 하나는 머신러닝을 쉽게 접해볼 수 있다는 것입니다.
멀게만 느껴지는 Random Forest, Neural Network, CART, SVM 등등의 알고리즘을 완벽한 수학적 이해없이 활용해볼 수 있다는 점이 정말 맘에 드는 부분입니다.
물론 제대로 활용할려면 알고리즘에 대한 이해를 가지고 접근하면 훨씬 더 좋겠지만... 알고리즘 이해해볼려고 여기저기 검색하다가 만난 각종 수학기호와 공식들에 깜놀하고, "아~ 내가 원래 수포자였었지.. 잊고 있었네 ㅎㅎ" 이렇게 포기해본 경험이 있는 나로서는 DVDesktop 은 꽤나 머신러닝을 쉽게 활용할 수 있도록 도와줍니다.
수포자였던 제가 해본 머신러닝 방법을 공유해드리도록 하겠습니다.
테스트 데이터는 인터넷에 구한 자료인데, 자전거 렌털(대여) 데이터입니다.
2011년 1월부터 2012년 6월까지의 자건거 렌털 건수(530건)와 각각의 날에 렌털에 영향을 미칠수 있는 환경변수로 구성되어 있습니다. 휴일여부, 온도, 습도, 바람세기 등등이 자전거 대여에 영향을 미칠 수 있는 요인들이 되겠죠...
맨 마지막 컬럼인 count 가 당일 자전거 렌털건수 입니다.
다양한 환경변수(휴일여부, 온도, 습도, 바람세기 등등)가 주어졌을때, 이 count 값을 예측하는게 우리의 목표입니다.
먼저, 엑셀 데이터 파일(Bike Renting Data.xlsx)을 DVDesktop에 넣습니다.
엑셀파일을 넣으면, 수치데이터인지 텍스트인지 날짜데이터인지를 DVD가 자동으로 체크해서 속성을 정해줍니다.
[추가] 버튼을 눌러서 데이터입력을 완료합니다.
아래와 같은 화면이 나오는데, 데이터는 이미 DVD에 데이터집합으로 들어간 상태입니다.
보통은 여기서 오른쪽 위에 있는 [프로젝트 생성] 버튼을 눌러서 바로 프로젝트를 만들러 가는 거지만,
우리는 머신러닝을 해야 하기 때문에 이것을 누르지 않고 < 기호를 눌러서 데이터집합 화면으로 돌아갑니다.
데이터집합에 "Bike Renting Data" 가 들어와 있는걸 확인할 수 있습니다.
오른쪽 상단의 [생성] 버튼을 클릭합니다.
[데이터 흐름] 을 클릭합니다.
그러면, 먼저 데이터를 선택하라고 창이 뜹니다. 당연히 우리가 테스트할 "Bike Renting Data" 를 선택합니다.
(+) 기호를 누릅니다.
(+) 기호를 누르면 팝업창이 뜨는데, 여기에서 [열선택]을 클릭합니다.
[열선택]을 하는 이유는 머신러닝 알고리즘을 통해 DVD가 학습(러닝)을 할건데, 쓸데없이 헷갈리게 할만한 컬럼들을 제외하기 위해서입니다. Instant 컬럼은 그냥 일련번호라 아무런 의미없는 데이터이고, dteday도 렌탈날짜라서 아무 의미가 없으니 DVD님이 학습하시는데 헷갈리지 마시라고 제거해 드립니다.
다시 (+)버튼을 눌러서 이번엔 머신러닝 알고리즘을 선택합니다.
우리의 목표는 렌털(대여)건수, 즉 count 값의 예측이죠.
즉, 수치값을 예측하는게 우리의 목표이므로, [수치예측학습] 을 클릭합니다.
그러면, 아래와 같이 "머신러닝 알고리즘"을 선택하라고 창이 뜹니다.
어차피 수포자인 저로서는 어떤 알고리즘이 정확도가 높은지 알 수가 없죠 ^^;
그냥 느낌상 왠지 맨 마지막에 있는 놈이 좋을것 같아서 4번을 찍었습니다. 시험볼때 답을 모르면 4번을 찍던 습관 그대로 ㅎㅎ
수치예측학습이 선택되었습니다. 모델은 제가 선택한 Random Forest ... 라고 나오네요.
다양한 선택 옵션들이 있지만, 수포자인 저로서는 알길이 없으므로 그냥 놔둡니다.
다만, Target 값은 지정해줘야 합니다. 적어도 DVD한테 네 목표가 뭔지는 알려줘야 하니까 ㅎㅎ;
우리의 목표 count 컬럼을 선택해줍니다.
그러면, 얘는 count 값을 맞추는 것을 목표로 열심히 학습할 겁니다.
이제 다 끝났습니다. [모델저장]을 클릭하면 모델이름을 입력하는 란이 나오는데, 이름을 적어주고,
오른쪽 상단에 있는 [데이터 플로우 실행] 버튼을 클릭합니다.
[데이터 플로우 실행] 버튼을 클릭하면 한번더 이름을 넣으라는 창이 뜹니다.
이건 "데이터플로우"의 이름을 지정하는 겁니다. 아까 입력한 것은 "머신러닝 모델" 이름을 지정한 겁니다.
그냥 저는 모두 같은 이름으로 지정했습니다. "ML_Bike_Predict_RF"
이렇게 한참을 돌다가 .. (( DVD님이 공부(학습)하시는 중이신거죠.. ))
기다리면, 끝났다고 메시지가 나옵니다.
우리가 만든 머신러닝 모델을 확인해봐야겠죠?
왼쪽 상단에 있는 햄버거버튼(짝대기 세개)을 클릭하고, [머신 러닝] 메뉴를 클릭합니다.
짜잔, 우리가 만든 머신러닝 모델님이 안에 잘 계신걸 확인할 수 있습니다.
이젠, 학습했으니 써먹어봐야 겠죠? 얼마나 신통력있게 잘 맞추는지(Predict) 볼까요?
모델 적용은 다음 페이지에서 ... 아래 링크를 눌러주세요.
▶▶▶ DVDesktop에서 머신러닝 실습 (수치 예측) - 모델 적용 ◀◀◀
'IT관련' 카테고리의 다른 글
db file scattered read 와 direct path read 의 차이 (0) | 2019.05.27 |
---|---|
RMAN 관련 DB 파라메타 (0) | 2019.05.26 |
DVDesktop에서 머신러닝 실습 (수치 예측) - 모델 적용(Predict) (0) | 2019.05.26 |
오라클 Oracle Analytics Desktop (구 DVDesktop) 다운로드 방법 (1) | 2019.05.25 |
내컴 똥컴 확인 방법, CPU 벤치마크 (0) | 2019.05.19 |