경영정보시각화능력 시험에 모의문제를 바탕으로 정리한 내용입니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조지하도록 하겠습니다. 감사합니다.
<2과목 – 데이터 해석 및 해석>
- 데이터: 현실세계에서 수집한 사실이나 값
- 정보 : 데이터를 처리하고 조직화한 것으로 의사결정의 수단이 될 수 있음
- 데이터의 종류에 대한 설명
l 비정형 데이터는 정형 데이터에 비해 분석하기 어려움
l 반정형데이터는 주로 XML, HTML, JSON 등의 파일 형태로 저장
l 정형 데이터는 테이블의 모든 행에 동일한 열 집합이 존재함
l 비정형 데이터는 특정 스키마나 없는 NoSQL 데이터 베이스가 사용됨
-NULL 값은 유효하지 않는 데이터를 기초통계를 구할 때 무시하고 유효한 데이터만을 사용한다.
- 연속확률분포 : 정규분포, 연속균일분포, 지수 분포, 카이제곱분포, 스튜던트 t-분포
- 이산확률분포 : 이항 분포, 포아송 분포, 기하 분포, 다항 분포, 이산 균일 분포
- 분산 데이터베이스 : 데이터베이스 설계 및 유지관리 어려움, 비용 증가, 시스템의 성능 향상, 분산제어 가능, 시스템의 확장성 증가, 신회성 및 가용성 향상, 질의 처리 향상, 데이터의 공유성 향상
- 관계형 DBMS : 데이터를 테이블 형태로 구성하고 기본키와 외래키를 통해 테이블들을 정의하고 유지한다. 주요한 예시로는 Oracle, MySQL, SQL Server 등이 있다.
- 특성에 따른 데이터 분류
l 범주형데이터
명목형 데이터 | 범주 또는 분류를 나타내는데 사용되며, 각 범주 사이에는 순서나 등급이 없음 |
순서형 데이터 | 범주 간에 명확한 순서가 있음 |
범주형 데이터의 분석 |
빈도분석, 카이제곱 검정, 데이터 시각화(막대차트, 도수분포표, 원형차트), 순위 분석, 로지스틱 회귀 분석 |
l 수치형데이터
이산형 데이터 | 개수를 셀 수 있는 단절된 숫자값으로, 정수 형태로 표현되며 일정한 간격으로만 값을 가질 수 있음 |
연속형 데이터 | 측정을 통해 얻어지는 연속적으로 이어진 숫자값을 가지는 데이터로 임의의 두 값 사이에 무한개의 다른 값이 존재할 수 있음 |
수치형 데이터의 분석 |
기술통계, 추론통계, 예측분석, 데이터시각화(막대차트, 선차트, 산점도, 히스토그램), 머신러닝 |
- 데이터베이스를 구성 장점
l 데이터 간 독립성을 최대화
l 데이터 내용의 일관성 유지
l 데이터 중복 최소화
l 여러 사용자와 데이터 공유 가능
-파일시스템
l 자료의 계층구조를 가짐
디렉터리 | -폴더라고도 하며 파일을 체계적으로 관리하기 위한 논리적인 단위. -파일의 계층 구조를 형성하며, 파일과 다른 하위 디렉터리를 포함할 수 있음. |
파일 | -사용자가 생성하는 데이터의 단위. -파일명이나 파일 경로 등의 고유한 식별자를 가진다. |
블록 | -파일시스템의 가장 낮은 계층으로 일정한 크기의 데이터 조각을 파일 시스템에 저장됨 |
-데이터베이스 관리 시스템이 등장하게 된 배경
l 데이터의 일관성과 무결성을 유지하기 위해 스키마를 정의하고 제약 조건을 설정한다.
l 동시 접근 제어를 위해 트랜잭션 개념을 도입한다
l 파일시스템에서는 중복성이 발생할 수 있고, DBMS는 테이블이나 컬렉션과 같은 구조를 사용하여 중복 데이터를 최소화한다.
- 데이터베이스의 구성요소
메타데이터 | 데이터에 대한 데이터로 데이터의 특성, 구조, 의미 등을 설명하는 정보를 의미한다. 데이터베이스 시스템에서 데이터를 관리하고 사용하기 위해 필요한 정보를 제공하고, 데이터베이스의 보안을 관리하는 데에도 사용된다 |
저장 데이터 관리자 | 데이터베이스의 저장 구조와 데이터의 물리적인 저장, 접근, 관리를 담당한다. |
질의 처리기 | 사용자의 질의(SQL)를 처리하고 데이터베이스로부터 원하는 정보를 추출하는 역할을 한다 |
트랜잭션 관리자 | 데이터베이스에서 트랜잭션 관리와 제어를 담당한다. |
테이블 | 데이터베이스에서 정보를 구조화하여 저장하는 단위이다. 엔터티 또는 릴레이션이라고도 불린다. 일반적으로 관련된 데이터를 그룹화하여 효율적인 데이터 관리를 가능하게 한다. |
레코드 | 테이블의 행을 나타내며, 튜플이라고도 한다. |
속성 | 테이블의 열을 나타내며, 특적 데이터 유형에 대한 정보를 기술한다. 이는 고유한 이름을 가지며, 데이터의 유형을 정의한다. 예를 들어 이름, 나이, 성별 등은 ‘학생’이라는 테이블에서 해당 구성요소로 사용될 수 있다. |
- 기본키 : 테이블에서 각 레코드를 고유하게 식별하기 위해 선택된 키이다. 후보키 중에서 선택되고 테이블 내에서 중복된 값이 없어야 하며 NULL값을 가질 수 없다. 테이블의 주식별자로 사용되며 테이블의 레코드를 식별하고 레코드 간의 관계를 구축하는데 사용된다.
- 외래키 : 한 테이블에서 다른 테이블의 기본키를 참조하는 키이다.
- 후보키 : 테이블 내의 행을 고유하게 식별할 수 있는 열 또는 열의 조합으로 중복될 수 없고, NULL값 포함할 수 없다
- 대체키 : 후보키 중에서 기본키로 선택되지 않은 키
- 복합키 : 두개의 이상의 열을 결합하여 테이블 내의 행을 고유하게 식별하는 키이다
- 슈퍼키 : 테이블 내의 행을 고유하게 식별할 수 있는 모든 가능한 열의 조합, 필요 이상의 열 포함 가능
- 데이터 보안 방식 중 데이터 접근을 제어하는 방식 : 역할에 따라 데이터 사용 권한 할당
- 데이터 분석 방식 중 데이터를 분할하는 방식 : 특정 시간을 간격을 기준으로 데이터를 더 작은 하위 집합으로 구성하는 것
- 데이터 표준화의 목적 : 비교를 위해 데이터를 일관된 단위로 변환하는 것
- 중복값을 처리하는 방법 : 모든 중복값을 삭제하고 첫번째 값만 유지
- 웹 스크래핑 : 웹사이트에서 데이터를 추출하는 과정
- NoSQL 데이터베이스 : 유연한 스키마 설계를 제공하고 비정형 또는 반정형 데이터를 처리
- 데이터 무결성 검증 : 데이터의 정확성, 완전성, 일관성을 보장하기 위해 실시
- 스트리밍 데이터 처리 방식 : 유입되는 데이터를 연속적이고 점진적인 방식으로 처리함
- 개인정보 비식별화의 목적 : 민감한 정보의 익명화 및 가명화
- 셀프서비스 비즈니스 인텔리전스의 특징 : 비즈니스 사용자가 직접 데이터를 탐색하고 분석 가능
- 비즈니스 인텔리전스를 활용하는 목적 : 비즈니스의 최적화, 데이터 기반 의사결정 등에 활용
- 비즈니스 인텔리전스 구현의 이점 : 의사결정 능력 및 전략적 통찰 향상
'자격증' 카테고리의 다른 글
[경영정보시각화능력] 1과목 정리 (4) | 2024.11.28 |
---|---|
43회 ADsP(데이터 분석 준전문가)3일 벼락치기 공부법 & 합격후기 (0) | 2024.11.25 |