분류 전체보기 64

DAX 정의 및 기본 함수

DAX란? Data Analytics eXpressions DAX 수식입력 예시측정값 or 열 이름 = Calculate(sum('테이블명'[변수명]), filter(Allselect('테이블명'))) DAX 기본 함수SUM : 합계Average : 평균MIN : 최소값MAX : 최대값COUNT : 개수CALCULATE : 내부필터를 없애고 계산FILTER : 수식으로 필터 X함수란?식을 넣을 수 있는 함수로 상황에 따라 '정확한 계산'을 위해 사용된다SUMX, AverageX, MINX, MAXX, COUNTX, RANKX측정값 이름 = AverageX('테이블', 식)EX_월평균 매출액 = AverageX(Values('날짜'[월], sum(매출금액))

Tableau Prep을 활용한 데이터 전처리

데이터피벗팅(Data Pivoting)rows to columns(pivot)긴 형태 -> 넓은 형태하나의 열의 고유 값들을 새로운 열 헤더로 전환columns to rows(unpivot)넓은 형태 -> 긴형태여러 열을 취해서 두 개의 열, 보통 '키'와 '값', 로 재구조화 데이터 집계: 여러 데이터 포인트를 결합하여 하나의 값을 생성하는 프로세스데이터를 집계할 때 고려해야 할 주요한 점결과의 구조데이터를 집계하면서 한 행(row)에 무엇을 나타낼지, 즉 새로운 세분화 수준을 결정값의 집계 방법여러 데이터 포인트를 어떻게 하나의 값으로 집계할 것인지sum, average, count, max, min

Tableau Prep을 활용한 데이터 전처리

1. Data Join and UnionLeft Join : 왼쪽 테이블의 모든 레코드와 일치하는 오른쪽 테이블의 레코드 출력Inner Join : 두테이블의 교집합 출력Right Join : 오른쪽 테이블의 모든 레코드와 일치하는 왼쪽 테이블의 레코드를 출력Full Join :  두 테이블의 모든 레코드를 반환Union : 두 개 이상의 테이블을 수직으로 연결Tableau Prep을 활용한 데이터 결합Tableau Prep에 들어간 후, 분석하고자 하는 데이터를 연다. Book 열과 Award 열을 결합하겠습니다. 먼저,  Book 열을 끌어온다. 다음으로,  Book 열을 더블 클릭한다. 이 다음으로 Award 열을 끌어오면, 원하는 방법으로 결합할 수 있다.

효율적인 대시보드 기획하기(데이터 스토리텔링 6가지 원칙/다양한 그래프의 종류)

데이터 스토리텔링의 6가지 원칙해당 상황 정보를 이해한다.적합한 시각적 디스플레이를 선택한다.잡동사니를 제거한다.여러분이 원하는 위치에 주목을 이끌어낸다.청중처럼 생각한다.스토리를 전달한다.  다양한 그래프의 종류  1. 히트맵(heatpmap)행과 열로 구성된 테이블 형태의 데이터를 색상 또는 그라데이션을 활용해 시각화많은 정보를 한번에 효과적으로 시각화 가능여러 변수의 상호작용이나 패턴 쉽게 파악범례를 꼭 포함 시키기해당 범위의 말단에 위치한 값을 신속하게 찾을 수 있음중요 항목을 상단에 위치시켜 전달하고자 하는 메세지를 사용자가 빠르게 인식 하도록 하기사람들은 데이터를 읽을 때 위에서 아래로 읽는 경향이 있음2. 누적 막대 그래프다양한 범주에 대한 총합 또는 서브 구성 요소들의 비교상/하단에 위치하..

Tableau Prep 소개 및 설치하기

Tableau Prep이란?데이터를 정리하고 변형하여 분석이나 시각화에 적합한 형태로 돕는 Data Prep 도구직관적인 드래그 앤 드롭 인터페이스와 미리보기 기능을 통해 복잡한 데이터 준비 작업을 훨씬 쉽고 빠르게 수행가능Tableau Desktop에서 분석 및 시각화 작업을 시작하기 전에 사용무료 Trial 제공 Tableau Prep 주요기능데이터 합치기 및 결합 : 여러 데이터 소스나 테이블 하나의 데이터 세트로 통합데이터 클렌징 : 불필요한 공백, 특정 문자열의 삭제나 대체, 하나의 컬럼을 여러 컬럼으로 분리 및 병합집계 및 그룹화 : 데이터를 그룹화하여 합계, 평균, 최대, 최소 등의 계산피벗 : 엑셀의 피벗 테이블처럼 데이터를 재구성 가능플로우(Flow)생성 : 원본 데이터에서 시작하여 다양..

[머신러닝]앙상블(Ensemble) 원리 및 코드 예시

앙상블(Ensemble)은 기계 학습에서 여러 개의 모델을 결합하여 하나의 강력한 모델을 구성하는 기법을 말합니다. 각 개별 모델의 예측을 종합함으로써 개별 모델보다 더 나은 예측 성능을 달성할 수 있습니다. 앙상블은 단일 모델보다 더욱 정확하고 안정적인 예측을 제공할 수 있습니다. 주요 개념개별 모델의 다양성 확보: 앙상블은 다양한 방법을 사용하여 여러 개의 개별 모델을 생성합니다. 이들 모델은 독립적으로 학습하거나 서로 다른 학습 데이터를 사용하여 학습될 수 있습니다.결합 방법: 개별 모델의 예측을 결합하는 방법에는 여러 가지가 있습니다. 주로 사용되는 방법으로는 평균화(Averaging), 가중 평균화(Weighted Averaging), 투표(Voting), 스태킹(Stacking) 등이 있습니다..

[머신러닝]랜덤 포레스트(Random Forest) 원리 및 코드 예시

랜덤 포레스트(Random Forest)는 앙상블 학습 방법 중 하나로, 여러 개의 결정 트리(Classification Trees)를 구성하여 강력한 분류 모델을 만드는 방법입니다. 각 결정 트리는 데이터의 부분 집합을 기반으로 독립적으로 학습하며, 그 결과를 결합하여 최종 예측을 수행합니다. 주요 개념앙상블 학습(Ensemble Learning): Random Forest는 여러 개의 모델을 결합하여 더 강력하고 안정적인 예측을 하려는 앙상블 학습의 한 방법입니다. 각 결정 트리는 서로 다른 데이터 부분 집합에서 학습하고, 그들의 예측을 종합하여 최종 예측을 수행합니다.결정 트리(Decision Tree): Random Forest는 기본적으로 결정 트리를 사용합니다. 결정 트리는 데이터를 분할하여 ..

[머신러닝]서포트벡터머신(SVM,Support Vector Machine)원리 및 코드 예시

Support Vector Machine (SVM)은 기계 학습에서 널리 사용되는 강력한 지도 학습 모델입니다. SVM은 주로 분류와 회귀 분석을 위해 사용되며, 특히 분류 문제에서 뛰어난 성능을 보입니다. 작동 원리SVM은 다음과 같은 절차로 작동합니다:학습: 주어진 데이터에서 최적의 결정 경계를 찾기 위해 서포트 벡터를 찾습니다.결정 경계 찾기: 초평면(결정 경계)을 정의하고, 이를 최대한 멀리 떨어진 데이터 포인트들과의 거리(margin)가 최대화되도록 합니다.분류: 새로운 데이터가 주어졌을 때, 결정 경계를 기준으로 클래스를 할당합니다. SVM의 목표벡터 공간에서 학습 데이터가 속한 2개의 그룹을 분류하는 선형 분리자를 찾음.(2개의 그룹을 가장 멀리 구분할 수 있는 선형 분리자)2. 필요시, 선..

[머신러닝]K-최근접 이웃(KNN모델)원리 및 코드 예시

K-최근접 이웃(K-Nearest Neighbors, KNN) 알고리즘은 가장 간단하고 직관적인 지도 학습 알고리즘 중 하나로, 분류와 회귀 문제 모두에 사용됩니다.  KNN이란? KNN은 새로운 데이터 포인트의 클래스를 예측할 때, 그 포인트와 가장 가까운 K개의 데이터 포인트의 클래스를 참고합니다. 여기서 "가까움"은 거리 계산을 통해 측정됩니다.  거리 계산: 새로운 데이터 포인트와 모든 훈련 데이터 포인트 간의 거리를 계산합니다. 일반적으로 유클리드 거리(Euclidean distance)를 사용하지만, 맨해튼 거리(Manhattan distance) 등 다른 거리 척도도 사용될 수 있습니다. 알고리즘학습데이터가 주어짐 : 데이터를 클래스별로 저장해 놓음분류할 새로운 데이터가 들어옴입력 데이터와 ..