자격증

[경영정보시각화능력] 2과목 정리

zzheng 2024. 11. 28. 17:41

경영정보시각화능력 시험에 모의문제를 바탕으로 정리한 내용입니다. 혹여 해당 포스팅에서 잘못된 부분이 있을 경우, 알려주시면 빠르게 수정 조지하도록 하겠습니다. 감사합니다.

 

<2과목 데이터 해석 및 해석>

 

- 데이터: 현실세계에서 수집한 사실이나 값

- 정보 : 데이터를 처리하고 조직화한 것으로 의사결정의 수단이 될 수 있음

- 데이터의 종류에 대한 설명

l   비정형 데이터는 정형 데이터에 비해 분석하기 어려움

l   반정형데이터는 주로 XML, HTML, JSON 등의 파일 형태로 저장

l   정형 데이터는 테이블의 모든 행에 동일한 열 집합이 존재함

l   비정형 데이터는 특정 스키마나 없는 NoSQL 데이터 베이스가 사용됨

-NULL 은 유효하지 않는 데이터를 기초통계를 구할 때 무시하고 유효한 데이터만을 사용한다.

- 연속확률분포 : 정규분포, 연속균일분포, 지수 분포, 카이제곱분포, 스튜던트 t-분포

- 이산확률분포 : 이항 분포, 포아송 분포, 기하 분포, 다항 분포, 이산 균일 분포

- 분산 데이터베이스 : 데이터베이스 설계 및 유지관리 어려움, 비용 증가, 시스템의 성능 향상, 분산제어 가능, 시스템의 확장성 증가, 신회성 및 가용성 향상, 질의 처리 향상, 데이터의 공유성 향상

- 관계형 DBMS : 데이터를 테이블 형태로 구성하고 기본키와 외래키를 통해 테이블들을 정의하고 유지한다. 주요한 예시로는 Oracle, MySQL, SQL Server 등이 있다.

- 특성에 따른 데이터 분류

l   범주형데이터

명목형 데이터 범주 또는 분류를 나타내는데 사용되며, 각 범주 사이에는 순서나 등급이 없음
순서형 데이터 범주 간에 명확한 순서가 있음
범주형
데이터의 분석
빈도분석, 카이제곱 검정, 데이터 시각화(막대차트, 도수분포표, 원형차트), 순위 분석, 로지스틱 회귀 분석

l   수치형데이터

이산형 데이터 개수를 셀 수 있는 단절된 숫자값으로, 정수 형태로 표현되며 일정한 간격으로만 값을 가질 수 있음
연속형 데이터 측정을 통해 얻어지는 연속적으로 이어진 숫자값을 가지는 데이터로 임의의 두 값 사이에 무한개의 다른 값이 존재할 수 있음
수치형
데이터의 분석
기술통계, 추론통계, 예측분석, 데이터시각화(막대차트, 선차트, 산점도, 히스토그램), 머신러닝

- 데이터베이스를 구성 장점

l   데이터 간 독립성을 최대화

l   데이터 내용의 일관성 유지

l   데이터 중복 최소화

l   여러 사용자와 데이터 공유 가능

-파일시스템

l   자료의 계층구조를 가짐

디렉터리 -폴더라고도 하며 파일을 체계적으로 관리하기 위한 논리적인 단위.
-파일의 계층 구조를 형성하며, 파일과 다른 하위 디렉터리를 포함할 수 있음.
파일 -사용자가 생성하는 데이터의 단위.
-파일명이나 파일 경로 등의 고유한 식별자를 가진다.
블록 -파일시스템의 가장 낮은 계층으로 일정한 크기의 데이터 조각을 파일 시스템에 저장됨

-데이터베이스 관리 시스템이 등장하게 된 배경

l   데이터의 일관성과 무결성을 유지하기 위해 스키마를 정의하고 제약 조건을 설정한다.

l   동시 접근 제어를 위해 트랜잭션 개념을 도입한다

l   파일시스템에서는 중복성이 발생할 수 있고, DBMS는 테이블이나 컬렉션과 같은 구조를 사용하여 중복 데이터를 최소화한다.

- 데이터베이스의 구성요소

메타데이터 데이터에 대한 데이터로 데이터의 특성, 구조, 의미 등을 설명하는 정보를 의미한다. 데이터베이스 시스템에서 데이터를 관리하고 사용하기 위해 필요한 정보를 제공하고, 데이터베이스의 보안을 관리하는 데에도 사용된다
저장 데이터 관리자 데이터베이스의 저장 구조와 데이터의 물리적인 저장, 접근, 관리를 담당한다.
질의 처리기 사용자의 질의(SQL)를 처리하고 데이터베이스로부터 원하는 정보를 추출하는 역할을 한다
트랜잭션 관리자 데이터베이스에서 트랜잭션 관리와 제어를 담당한다.
테이블 데이터베이스에서 정보를 구조화하여 저장하는 단위이다. 엔터티 또는 릴레이션이라고도 불린다. 일반적으로 관련된 데이터를 그룹화하여 효율적인 데이터 관리를 가능하게 한다.
레코드 테이블의 행을 나타내며, 튜플이라고도 한다.
속성 테이블의 열을 나타내며, 특적 데이터 유형에 대한 정보를 기술한다. 이는 고유한 이름을 가지며, 데이터의 유형을 정의한다. 예를 들어 이름, 나이, 성별 등은 학생이라는 테이블에서 해당 구성요소로 사용될 수 있다.

 

- 기본키 : 테이블에서 각 레코드를 고유하게 식별하기 위해 선택된 키이다. 후보키 중에서 선택되고 테이블 내에서 중복된 값이 없어야 하며 NULL값을 가질 수 없다. 테이블의 주식별자로 사용되며 테이블의 레코드를 식별하고 레코드 간의 관계를 구축하는데 사용된다.

- 외래키 : 한 테이블에서 다른 테이블의 기본키를 참조하는 키이다.

- 후보키 : 테이블 내의 행을 고유하게 식별할 수 있는 열 또는 열의 조합으로 중복될 수 없고, NULL값 포함할 수 없다

- 대체키 : 후보키 중에서 기본키로 선택되지 않은 키

- 복합키 : 두개의 이상의 열을 결합하여 테이블 내의 행을 고유하게 식별하는 키이다

- 슈퍼키 : 테이블 내의 행을 고유하게 식별할 수 있는 모든 가능한 열의 조합, 필요 이상의 열 포함 가능

 

- 데이터 보안 방식 중 데이터 접근을 제어하는 방식 : 역할에 따라 데이터 사용 권한 할당

- 데이터 분석 방식 중 데이터를 분할하는 방식 : 특정 시간을 간격을 기준으로 데이터를 더 작은 하위 집합으로 구성하는 것

- 데이터 표준화의 목적 : 비교를 위해 데이터를 일관된 단위로 변환하는 것

- 중복값을 처리하는 방법 : 모든 중복값을 삭제하고 첫번째 값만 유지

- 웹 스크래핑 : 웹사이트에서 데이터를 추출하는 과정

- NoSQL 데이터베이스 : 유연한 스키마 설계를 제공하고 비정형 또는 반정형 데이터를 처리

- 데이터 무결성 검증 : 데이터의 정확성, 완전성, 일관성을 보장하기 위해 실시

- 스트리밍 데이터 처리 방식 : 유입되는 데이터를 연속적이고 점진적인 방식으로 처리함

- 개인정보 비식별화의 목적 : 민감한 정보의 익명화 및 가명화

- 셀프서비스 비즈니스 인텔리전스의 특징 : 비즈니스 사용자가 직접 데이터를 탐색하고 분석 가능

- 비즈니스 인텔리전스를 활용하는 목적 : 비즈니스의 최적화, 데이터 기반 의사결정 등에 활용

- 비즈니스 인텔리전스 구현의 이점 : 의사결정 능력 및 전략적 통찰 향상