태블로 2020.4 업데이트 기능_예측 모델링 함수 및 날짜 축 확장

안녕하세요, 이번 포스팅에서는 태블로 2020.4 버전에서 새롭게 추가된 기능에 대해 다뤄보려고 합니다.

앞서 태블로 2020.4 업데이트 기능_다중 마크 레이어 지원 포스팅을 보신 분들은 아시겠지만, 한국 시간으로 2020년 12월 15일, 태블로 2020.4 버전이 공개되었습니다. (아직 포스팅을 보시지 못했다면 위 링크를 클릭해보세요!)

2020.4 버전의 다양한 업데이트 기능 중에서, 이번에는 <예측 모델링 함수 개선사항> 및 <날짜 축 확장> 기능에 대해서 알아보고자 합니다.

#1. 예측 모델링 함수 (기본)

예측 모델링 함수 기능은 이미 태블로 2020.3 버전에서 추가된 기능입니다. 이 함수는 ‘기존의 추세선 분석 함수를 뛰어넘어, 데이터가 최적선을 중심으로 어떻게 배포되어 있는지’를 파악하는 모델이라고 보시면 되는데요. 크게 2가지 함수의 개념은 아래와 같습니다.

• MODEL_QUANTILE : 다른 예측 변수에 따라 대상 값을 지정된 백분위수로 반환하는 테이블 계산

• MODEL_PERCENTILE: 예상 값이 관측된 마크보다 작거나 같을 확률을 다른 예측 변수에 따라 반환하는 테이블 계산입니다.

위는 태블로 홈페이지에 나온 기본적인 개념 설명인데, 이를 시각화를 통해 살펴보도록 하겠습니다!

우선 Sample 데이터인 Superstore 데이터를 활용하여, 아래와 같이 간단히 만들어보겠습니다. 우선 각 연도의 월별 Sales 값을 아래와 같이 가져왔습니다.

이후 계산된 필드 만들기 (단축키: Alt+a+c)를 클릭하여, 계산식 이름을 ‘Model’로 적어주고, < MODEL_QUANTILE> 함수를 활용하여 수식을 만들어주도록 하겠습니다. 이 함수는 아래와 같이 형식을 맞춰주어야 하는데요.

MODEL_QUANTILE(quantile, target_expression, predictor_expression(s))

• Quantile (사분위수): 첫 번째 인수는 0과 1 사이의 숫자로, 예측해야 하는 사분위수의 숫자를 의미합니다. 예를 들어 0.5는 중앙값이 예측됨을 지정합니다.

• Target_expression (대상 식): 두 번째는 예측할 측정값 또는 “대상“입니다.

• Predictor_expression (예측자 식): 세 번째 인수는 예측을 수행하는 데 사용되는 “예측자“입니다. 예측자는 차원 또는 측정값 모두 가능합니다.

위 형식을 고려하여, 첫 번째 인수를 중앙값인 0.5로 지정해주고, Sales 측정값을 대상으로 올리며, 각 연도의 Month를 예측자로 설정해주었습니다. 세 번째 인수에 ATTR() 함수를 사용한 이유는 데이터 형식을 맞춰주기 위함입니다.

이렇게 만들어진 ‘Model’ 필드를 행 (Rows) 선반에 올린 후, 이중축 (Dual Axis)를 설정해준 다음, 축 동기화 (Synchronize Axis)를 클릭하면 아래와 같이 나옵니다.

Orange 라인으로 표현되는 각 연도의 월별 Sales 값을 기반으로, Blue 라인은 Model에 따른 확률 범위 내의 숫자를 의미합니다.

위 그래프에서는 0.5 중앙값을 기준으로 만든 모델인데, 0.25 또는 0.75로 잡았을 때는 아래와 같이 나옵니다.

이 모델은 입력값을 기준으로, 평균 오차가 적은 선을 찾는 것이라고 이해하시면 될 것 같습니다.

※ 용어 정리

*선형 회귀 모델 (Linear Regression)
통계학 용어로, 종속 변수와 독립 변수의 상관 관계를 모델링하는 회귀분석 기법입니다. 선형 회귀는 태블로 예측 모델링 함수에서 가장 기본적인 모델입니다. 모델을 지정하지 않으면 선형 회귀가 사용됩니다.

이때, 2020년 12월까지만 Graph에 표시되는데요. 현재까지의 History data를 기반으로, 2021년 Sales를 예측하고 싶으면 어떻게 해야 할까요?

#2. 날짜 축 확장

날짜 축 확장은 시간 기반 예측을 가능하게 해주는 새로운 기능입니다. 예측 모델링함수는 물론, 누계 평균과 같은 테이블 계산, 그리고 R 또는 Python 같은 외부 서비스에도 사용이 가능한 기능입니다.

날짜 축 확장을 하는 방법은 간단합니다. 열 선반에 올려져 있는 Order date를 오른쪽 마우스 버튼으로 클릭하고, ‘Extend Data Range‘를 클릭하면, 원하는 기간을 늘려줄 수 있습니다.

‘사용자 지정’을 클릭하면 원하는 범위를 클릭할 수 있습니다만, 아래와 같이 2년을 클릭했을 때, 기하급수적으로 우상향 하는 그래프를 보실 수 있습니다.

마지막 추세 예측에 이은 연결점이고, 또 월별로 Sales 값을 보고 있었으니, Month 단위로 연장하여 보는 것이 조금 더 의미있는 그래프를 볼 수 있을 듯 합니다.

이때, 열 선반에 있는 Order Date를 오른쪽 마우스 버튼으로 클릭하고, ‘필터 표시’를 클릭하여 원하는 기간으로 필터를 걸 수 있습니다.

기간을 2019년 6월까지로 클릭했을 때, 예측 모델 함수선이 완만하게 올라가는 모습을 확인할 수 있습니다.

기간을 2018년 6월까지로 클릭했을 때에는, 예측 모델 함수선이 우하향으로 떨어지는 모습을 보입니다.

아울러 한 가지 유의해야 할 사항은, ‘분석 탭 > 누락된 값에서 속성 유추’ 클릭을 해줘야 예측선이 잘 나오게 됩니다. 아래와 같이 클릭이 되어 있지 않으면, 확장된 날짜 축 기간이 모두 일직선으로 표기되니 참고하시길 바라겠습니다!

#3. 예측 모델링 함수 (rl / gp)

앞서 다뤘던 Linear 예측 모델링 함수와 더불어, 2020.4 버전에서는 아래 2가지 함수가 새롭게 추가 되었습니다.

*정규화된 선형 회귀 모델 (Regularized least squares)
두 개 이상의 독립 변수 간에 근사적인 선형 관계가 있는 경우에 사용하는 것이 가장 좋습니다. 테이블 계산의 첫 번째 인수로 “model=rl”을 포함해야 합니다.

*가우스 프로세스 회귀 모델 (Gaussian process)
시간 또는 공간과 같은 연속 도메인에서 예측을 생성하는 경우 또는 변수와 예측 대상 간에 비선형 관계가 있는 경우에 사용하는 것이 가장 좋습니다. 테이블 계산의 첫 번째 인수로 “model=gp“를 포함해야 합니다.

먼저, 정규화된 선형 회귀 모델 (Regularized least squares)을 적용한 그래프를 보여드리고자 합니다. ‘Model’ 필드에서 첫 번째 인수에 “model=rl”을 포함하면, 아래와 같은 그래프가 나오게 됩니다. Linear 그래프와 비교했을 때 값이 소폭 달라지지만, 전반적인 그래프 형태는 비슷하게 나오게 됩니다.

다음으로, 가우스 프로세스 회귀 모델 (Gaussian process)을 적용한 그래프 입니다. 첫 번째 인수에 “model=gp”를 포함하면 아래와 같이 나옵니다. 이 모델은 변수와 예측 대상 간에 비선형 관계가 있는 경우에 사용하는 것이 가장 좋다고 합니다.

지금까지 태블로 2020.4 버전에 새롭게 추가된 2가지 기능을 새롭게 알아보았는데요. 예측 모델링 함수의 경우, 통계학에서 주로 사용하는 개념이 접목되어 다소 어렵게 느껴지신 분들도 있으셨으리라 생각합니다. 이해를 돕기 위해, 시간의 흐름에 따른 예측 매출 그래프를 예로 설명해드렸는데요.

예측 모델링 함수의 활용도에 더욱 궁금하시다면, 태블로 홈페이지에 연결된 아래 내용을 확인해보시면 더욱 좋을 듯합니다.

예 – 예측 모델링 함수로 여성의 기대 수명 탐색

태블로는 주기적으로 기능 업데이트를 통해, 더욱 강력한 데이터시각화 Tool로 거듭나고 있습니다. 지금부터라도 태블로의 무궁무진한 세계를 마음껏 맛보실 수 있기를 바라며, ‘태블로위키’가 태블로의 세계로 한 걸음 내딛는 데 도움이 되기를 바랄 뿐입니다. 궁금한 사항 있으시다면 언제든지 댓글 편히 남겨주세요! : )

댓글 남기기

태블로위키만의 새로운 소식, 놓칠 수 없겠죠?