본문 바로가기

자격증/빅데이터분석기사

[빅데이터분석기사 필기] 빅데이터 분석기사 필기 50문항(gpt 해설)

 

 


Q

기초 통계량에 대해 옳지 않은 설명은?
사분위수는 3분위에서 1분위수를 뺀 것이다.

주어진 설명은 옳지 않습니다. 사분위수는 데이터를 4등분하는 값을 나타내며, 3분위수와 1분위수를 뺀 값이 아닙니다.

사분위수는 다음과 같이 정의됩니다:

  • 1분위수(Q1)는 데이터의 하위 25% 지점을 나타냅니다.
  • 2분위수(Q2)는 데이터의 중간값을 나타내며, 일반적으로 중앙값(median)이라고도 합니다.
  • 3분위수(Q3)는 데이터의 하위 75% 지점을 나타냅니다.
  • 4분위수는 최대값이나 데이터의 상위 25%를 나타냅니다.

따라서 3분위수에서 1분위수를 뺀 값은 데이터의 중간 50% 범위를 나타내며, 이를 데이터의 사분위 범위(IQR, Interquartile Range)라고 합니다.


Q

기초 통계량에 대해 옳지 않은 설명은? 변동계수는 측정단위가 서로 다른 자료를 비교하고자 할 때 쓰인다

변동계수는 다음과 같이 계산됩니다: 변동계수=(표준편차평균)×100변동계수=(평균표준편차​)×100

변동계수는 상대적인 변동을 표현하는 데 사용되며, 서로 다른 단위로 측정된 데이터를 비교할 때 도움이 됩니다. 변동계수가 작을수록 데이터의 상대적인 변동이 작다는 의미이며, 변동계수가 크면 데이터의 상대적인 변동이 크다는 것을 나타냅니다. 따라서 변동계수는 측정단위가 서로 다른 자료를 비교하는 데 유용한 통계량 중 하나입니다.


다음 중 결측치를 처리하는 방법으로 적절하지 않은 것은?

  1. 단순대체법
  2. 다중 대체법
  3. 완전삭제법
  4. 회귀대체법

주어진 옵션 중에서 결측치를 처리하는 방법으로 적절하지 않은 것은 "완전삭제법"입니다.

  1. 단순대체법: 결측치를 다른 값으로 대체하는 방법입니다. 대표적으로 평균, 중앙값, 최빈값 등의 통계치를 사용하여 결측치를 대체할 수 있습니다.
  2. 다중 대체법: 여러 변수 간의 관계를 고려하여 결측치를 대체하는 방법으로, 다른 변수들을 이용하여 결측치를 예측하고 대체할 수 있습니다.
  3. 회귀대체법: 다른 변수들을 사용하여 결측치를 회귀 모델을 통해 예측하고 대체하는 방법입니다. 예를 들어 다른 변수들을 독립 변수로 사용하여 결측치를 회귀분석을 통해 예측하고 대체할 수 있습니다.

반면에 "완전삭제법"은 결측치가 포함된 행이나 열을 데이터에서 완전히 삭제하는 방법입니다. 이 방법은 결측치를 처리하는 대안 중 하나일 수 있지만, 데이터 손실이 크고 모델의 성능을 저하시킬 수 있으므로 항상 적절한 상황에서 사용해야 합니다. 따라서 완전삭제법은 결측치 처리의 최선의 방법이 아닐 수 있습니다.


Q

학습률에 대한 설명으로 맞지 않는 것은?

  1. 머신러닝 알고리즘 에서 조정할 수 있는 하이퍼 파라미터의 하나이다
  2. 학습률은 0과 1사이의 값으로 설정된다
  3. 학습률이 작으면 학습 시간이 오래걸린다
  4. 학습률이 크면 반복 횟수도 많아진다

설명 중에서 틀린 것은 다음과 같습니다:

  1. 학습률은 0과 1사이의 값으로 설정된다.

이 설명은 부정확합니다. 학습률은 일반적으로 0과 1 사이의 값으로 설정될 수 있지만, 학습률의 범위는 일반적으로 0과 1 사이에 국한되지 않습니다. 학습률은 머신러닝 모델 학습 과정에서 사용되는 하이퍼파라미터이며, 어떤 범위의 값으로 설정할지는 문제에 따라 다를 수 있습니다. 일부 경우에는 학습률이 1을 초과할 수도 있고, 0 미만일 수도 있습니다. 따라서 학습률의 범위는 문제와 데이터에 따라 다양하게 조절될 수 있습니다.

따라서 올바른 설명은 다음과 같습니다:

  1. 학습률은 0과 1사이의 값으로 설정될 수 있지만, 범위가 일반적으로 제한되지 않으며 문제에 따라 다양하게 설정될 수 있다.

학습률의 적절한 값은 머신러닝 모델을 학습하는 과정에서 여러 요인에 의해 결정됩니다. 적절한 학습률은 문제의 특성, 데이터의 특성, 모델의 아키텍처, 데이터의 스케일 등 다양한 요소에 따라 다를 수 있습니다. 따라서 항상 정해진 고정된 값이 아니라 조정이 필요합니다.

일반적으로 학습률은 0.1, 0.01, 0.001과 같이 10의 거듭제곱 형태로 시작하여, 모델의 성능에 따라 조절합니다. 이를 "학습률 스케줄링"이라고 합니다. 초기에 큰 학습률로 시작하면 수렴이 빨라질 수 있지만, 학습 과정 중에는 작은 학습률로 조절하여 안정적으로 수렴하게 할 수 있습니다.

따라서 적절한 학습률을 찾기 위해서는 실험과 검증을 통해 최적의 값에 대한 조정이 필요하며, 하이퍼파라미터 튜닝과 모델 검증 프로세스 중 일부로 고려되어야 합니다.


Q

kolmogorov-smirnov 검정에 대한 설명으로 맞지 않은 것은?

  1. 2개의 집단이 동일한 분포를 이루고 있는 지를 검증한다
  2. 비모수 검정방식이다
  3. 데이터가 정규분포를 따르는 지를 검증할 때 사용한다
  4. 확률밀도함수를 사용하여 두 부분포의 차이를 측정한다

  1. 확률밀도함수를 사용하여 두 부분포의 차이를 측정한다.

Kolmogorov-Smirnov 검정은 두 분포가 동일한지를 검증하는 비모수 검정 방법으로, 주로 두 표본 또는 한 표본과 특정 분포와의 차이를 검증할 때 사용됩니다. 이 검정은 누적 분포 함수 (CDF)를 사용하여 두 분포 사이의 차이를 측정하며, 확률밀도함수를 직접 사용하지는 않습니다. 따라서 옵션 4가 틀린 설명입니다.


Kolmogorov-Smirnov
![[Pasted image 20230921155724.png]]


Q

다음 중 관계형 데이터 베이스를 하둡 기반으로 전환하고자 할 때, 이를 수행하기에 가장 적절한 직무로 옳은 것은?

  1. Data Analyst
  2. Data Architect
  3. Data Engineer
  4. Data Modeler

하둡 기반으로 관계형 데이터베이스를 전환하려면 데이터 엔지니어 (Data Engineer)가 가장 적합한 직무입니다. 데이터 엔지니어는 데이터 처리, 저장 및 전송에 대한 전문적인 지식을 가지고 있으며, 대용량 데이터를 다루고 분산 환경에서 데이터를 처리하는 데 필요한 기술과 도구를 이해하고 있습니다.

하둡은 대용량 데이터를 저장하고 처리하는 데 매우 효과적인 플랫폼이며, 데이터 엔지니어는 하둡 클러스터를 설계, 구성하고 데이터를 추출, 변환 및 적재(ETL)하는 작업을 수행하는 데 필요한 역할을 담당합니다. 이러한 프로세스는 관계형 데이터베이스에서 하둡으로의 전환 시에 중요한 부분입니다.

Data Analyst는 데이터를 분석하고 시각화하는 역할을 수행하며, Data Architect는 데이터 아키텍처를 설계하고 모델링하는 역할을 합니다. Data Modeler는 데이터 모델을 디자인하고 관리하는데 주로 관여합니다. 이러한 직무들은 데이터 엔지니어의 작업을 보완하거나 그와 연계되기도 하지만, 직접적인 하둡 기반 데이터베이스 전환 작업에는 데이터 엔지니어가 가장 적합한 역할입니다.


다음 중 데이터 및 자원 할당 관리, 빅데이터 어플리케이션 실행을 위한 서비스 제공을 하는 빅데이터 플래폼 계층 구조로 옳은 것은?

  1. platform layer
  2. software layer
  3. hardware layer
  4. infrastructure layer

빅데이터 플랫폼의 계층 구조에 따라서 데이터 및 자원 할당 관리, 빅데이터 어플리케이션 실행을 위한 서비스를 제공하는 계층은 일반적으로 "Platform Layer"에 해당합니다. 따라서 옳은 선택은 1. Platform Layer 입니다.

  1. Platform Layer: 이 계층에서는 데이터 관리 및 처리를 위한 다양한 서비스와 라이브러리가 포함됩니다. 이에는 데이터 베이스 관리 시스템(DBMS), 데이터 처리 엔진(Hadoop, Spark 등), 자원 관리 시스템(YARN 등)이 포함될 수 있습니다.
  2. Software Layer: 이 계층은 주로 애플리케이션 레벨의 소프트웨어와 서비스를 의미합니다. 예를 들면, 데이터 분석, 머신러닝 모델 등이 이곳에 위치합니다.
  3. Hardware Layer: 이 계층은 물리적인 서버, 스토리지, 네트워크 등의 하드웨어 자원을 의미합니다.
  4. Infrastructure Layer: 이 계층은 일반적으로 가상화, 클라우드 서비스, 네트워크 구성 등을 관리하며, 하드웨어와 플랫폼 계층 사이에서 동작합니다.

따라서 빅데이터 어플리케이션 실행과 자원 할당을 관리하는 것은 주로 "Platform Layer"에서 이루어집니다.


Q

다음 중 병렬 dbms의 특성으로 옳지 않은 것은?

  1. 다수의 마이크로 프로세서를 동시에 사용한다
  2. 데이터 처리가 신속하다는 장점이 있다
  3. 데이터 중복 저장의 단점이 있다
  4. 시스템 용량 확장이 용이하다

병렬 DBMS (Database Management System)은 다수의 프로세서와 디스크를 사용하여 데이터베이스 작업을 병렬로 처리하는 시스템입니다. 이는 성능 향상, 빠른 데이터 처리, 시스템 용량 확장의 용이성 등의 장점을 가집니다.

  1. 다수의 마이크로 프로세서를 동시에 사용한다: 이는 병렬 DBMS의 핵심 특성 중 하나입니다. 다수의 프로세서를 사용하여 쿼리를 빠르게 처리합니다.
  2. 데이터 처리가 신속하다는 장점이 있다: 병렬 처리 덕분에 데이터 처리가 빠릅니다.
  3. 데이터 중복 저장의 단점이 있다: 일반적으로 병렬 DBMS는 데이터 중복 저장의 단점을 가지지 않습니다. 실제로 데이터를 여러 노드에 분산시키지만, 이는 중복이 아니라 데이터의 부분집합을 각 노드에 저장하는 형태입니다. 따라서, 이 옵션은 병렬 DBMS의 특성으로 옳지 않습니다.
  4. 시스템 용량 확장이 용이하다: 병렬 DBMS는 일반적으로 확장성이 좋습니다. 즉, 시스템 용량을 쉽게 확장할 수 있습니다.

따라서, "데이터 중복 저장의 단점이 있다"는 병렬 DBMS의 특성으로 옳지 않습니다.


Q

다음 중 예측을 위한 분석 방법으로 가장 옳은 것은?

  1. 군집 분석
  2. 예측 분석
  3. 연관 분석
  4. 판별 분석

분석 방법에 따라 다양한 목적으로 데이터를 분석할 수 있습니다. 그 중에서 예측을 위한 분석 방법으로 가장 옳은 것은 "예측 분석"입니다.

  1. 군집 분석(Clustering): 데이터를 유사한 특성을 가진 여러 그룹으로 나누는 방법입니다. 이는 분류나 세분화 등의 목적으로 사용되지만, 일반적으로 미래를 예측하는 데에는 직접적으로 사용되지 않습니다.
  2. 예측 분석(Predictive Analytics): 미래의 특정 결과나 트렌드를 예측하는 데 사용됩니다. 회귀 분석, 시계열 분석, 머신 러닝 모델 등이 예측 분석에 사용될 수 있습니다.
  3. 연관 분석(Association Analysis): 아이템 간의 관계를 찾아내는 분석 방법으로, 마켓 바스켓 분석 등에 사용됩니다. 이 방법은 일반적으로 예측을 위한 분석 방법으로는 사용되지 않습니다.
  4. 판별 분석(Discriminant Analysis): 두 개 이상의 그룹을 구분하는 기준을 찾는 분석 방법입니다. 이는 분류 문제에 주로 사용되며, 미래의 데이터를 예측하기 위한 목적으로는 일반적으로 사용되지 않습니다.

따라서, 예측을 위한 분석 방법으로 가장 옳은 것은 "예측 분석"입니다.


Q

다음 중 표본 분포에 대한 설명으로 옳지 않은 것은?

  1. 표본의 크기가 클수록 표본평균의 분산이 0에 가까워진다
  2. 중심극한정리는 모집단의 분포와 상관없이 적용된다
  3. 모분산의 정보를 모를 경우 정규분포 대신 t-분포를 사용할 수 있다
  4. 표본의 크기와 상관없이 표본평균의 기댓값은 항상 모평균과 동일하다

표본 분포에 대한 설명으로 옳지 않은 것은 다음과 같습니다:

  1. 중심극한정리는 모집단의 분포와 상관없이 적용된다

실제로 중심극한정리(Central Limit Theorem, CLT)는 모집단이 정규분포를 따르지 않을 경우에도 표본의 크기가 충분히 크면 표본평균의 분포가 정규분포에 가까워진다고 말합니다. 그러나 '표본의 크기가 충분히 크다'는 조건이 필요합니다. 이 "충분히 크다"라는 조건은 일반적으로 표본의 크기가 30 이상일 때라고 많이 언급되며, 모집단의 분포가 심하게 치우치지 않은 경우에 적용됩니다.

나머지 옵션은 대체로 옳습니다:

  1. 표본의 크기가 클수록 표본평균의 분산이 0에 가까워진다: 이는 큰 수의 법칙(Law of Large Numbers)에 따르면 옳은 설명입니다.
  2. 모분산의 정보를 모를 경우 정규분포 대신 t-분포를 사용할 수 있다: 모분산이 알려져 있지 않은 경우, 일반적으로 t-분포를 사용합니다. 이는 특히 표본 크기가 작을 때 중요합니다.
  3. 표본의 크기와 상관없이 표본평균의 기댓값은 항상 모평균과 동일하다: 이는 통계학에서 표본평균이 모평균의 '불편추정량(unbiased estimator)'이라고 부르는 이유입니다. 표본평균의 기댓값은 모평균과 동일합니다.

Q

다음 중 인코딩 기법에 대한 설명으로 옳지 않은 것은?

  1. 원핫 인코딩을 적용하면 sparse(드문, 희박한) 데이터가 된다
  2. 타깃 인코딩은 종속변수 값들의 표준편차를 활용한다
  3. 레이블 인코딩은 각 범주를 숫자에 대치시킨다
  4. 원핫 인코딩을 적용할 때 보다 바이너리 인코딩을 적용할 때 모델 학습속도가 빠르다

다음 중 인코딩 기법에 대한 설명으로 옳지 않은 것은 다음과 같습니다:

  1. 타깃 인코딩은 종속변수 값들의 표준편차를 활용한다

타깃 인코딩(Target Encoding)은 주로 분류 문제에서 사용되며, 이 방법은 범주형 변수의 각 범주를 해당 범주의 타깃(종속 변수)의 평균값으로 인코딩합니다. 표준편차를 직접적으로 활용하는 것은 아닙니다.

나머지 설명들은 각각 옳습니다:

  1. 원핫 인코딩을 적용하면 sparse(드문, 희박한) 데이터가 된다: 원핫 인코딩을 적용하면 대부분의 값이 0이고 오직 하나의 값만 1이므로 희소 배열이 생성됩니다.
  2. 레이블 인코딩은 각 범주를 숫자에 대치시킨다: 레이블 인코딩(Label Encoding)은 범주형 변수의 각 범주를 고유한 정수로 변환합니다.
  3. 원핫 인코딩을 적용할 때 보다 바이너리 인코딩을 적용할 때 모델 학습속도가 빠르다: 바이너리 인코딩은 로그 스케일로 표현되므로, 원핫 인코딩에 비해 훨씬 적은 차원을 가지게 됩니다. 따라서 모델 학습 속도가 빠를 수 있습니다.

그냥 원핫 인코딩 = sparse
수많은 0중 1이 존재하는 배열로 바뀌므로 희박하다고 볼 수 있다.


Q

상자그림과 이상치에 대한 설명으로 옳지 않은 것은?

  1. 1.5배 IQR에서 IQR의 3배까지 박스수염이 이어져있다
  2. 수염보다 바깥쪽에 존재하는 데이터들은 이상치이다
  3. 상자그림을 통해 중앙값을 확인할 수 있다
  4. 제1사분위수에서 제3사분위수까지가 상자의 범위이다

옳지 않은 설명은 다음과 같습니다:

  1. 수염보다 바깥쪽에 존재하는 데이터들은 이상치이다.

상자그림에서 이상치는 일반적으로 수염 바깥쪽에 위치하지만, 반드시 그렇지는 않습니다. 이상치는 일반적으로 다음과 같이 정의됩니다:

  • 이상치(Q1 - 1.5 * IQR보다 작거나 Q3 + 1.5 * IQR보다 큰 값)는 수염 바깥쪽에 위치할 수 있지만, 때로는 수염 안에 존재할 수도 있습니다. 이를 통해 데이터 분포의 비대칭성을 확인할 수 있습니다.

따라서 2번 설명은 옳지 않습니다.


Q

다음 보기 중 드롭아웃의 효과와 동일한 효과를 가져올 수 있는 기법은?

  1. 학습률 조정
  2. 부트스트랩
  3. 활성함수 변경
  4. 데이터 증강

데이터 증강 = 노이즈 추가


Q

각 클래스별 데이터 양의 차이가 큰 경우 데이터 불균형이 발생하는데 이를 해소하기 위한 방법으로 옳은 설명은?

  1. 오버샘플링은 높은 비율을 차지하는 클래스 데이터 수를 줄인다
  2. 언더샘플링은 낮은 비율을 차지하는 클래스 데이터 수를 늘린다
  3. SMOTE 오버샘플링은 분류 알고리즘을 사용한다
  4. 비용민감학습은 소수 클래스의 비용함수에 높은 가중치를 부여한다

  1. SMOTE 오버샘플링은 분류 알고리즘을 사용한다. - 이 설명은 부정확합니다. SMOTE (Synthetic Minority Over-sampling Technique)는 오버샘플링 기술 중 하나로, 인공적으로 소수 클래스 데이터를 합성하여 데이터 불균형을 해소하는 방법입니다. 그러나 SMOTE 자체가 분류 알고리즘을 대신하는 것이 아니라 데이터를 증가시키는 기술입니다.
  2. 비용민감학습은 소수 클래스의 비용함수에 높은 가중치를 부여한다. - 이 설명은 정확합니다. 비용민감학습은 소수 클래스에 높은 비용을 할당하여 모델이 소수 클래스를 놓치지 않도록 하는 방법 중 하나입니다. 이를 통해 데이터 불균형을 해소하고 모델의 성능을 향상시킬 수 있습니다.

Q

다음 중 인공신경망에서 과적합을 방지할 수 있는 기법을 옳지 않은 것은?

  1. 정규화
  2. 가지치기
  3. 드롭아웃
  4. 학습률 수정

정답 2번
의사결정나무임


Q

다음 중 회귀 모형에 대한 설명으로 옳은 것은?

  1. 독립 변수가 2개 이상이고, 회귀계수가 2차 이상이면 다항 회귀 모형이다
  2. 단순 회귀는 2개의 독립변수로 1개의 종속변수를 설명하는 모양이다
  3. 곡선 회귀는 독립변수와 종속변수의 관계를 선형적으로 가정한다
  4. 다중회귀는 연속형 자료인 2개의 독립변수가 범주형 종속변수에 미치는 영향을 검증하는 모형이다

???


Q

요인 분석과 관련된 설명으로 옳지 않은 것은?

  1. 요인회전으로 직각회전방식과 사각회전방식이 있다
  2. Varimax는 열을 단순화 하는 방식으로 직각회전방식에 속한다
  3. 요인분석의 공분산 행렬은 대칭행렬의 조건을 만족한다
  4. 요인점수는 다수 변수들에 대한 응답을 소수의 요인으로 축약시킨 것이다

  1. Varimax는 열을 단순화 하는 방식으로 직각회전방식에 속한다

이 설명이 옳지 않습니다. Varimax 회전은 요인 분석에서 요인 구조를 해석하기 위해 사용되는 회전 방법 중 하나이며, 주로 요인들을 서로 직교하도록 만들어 요인들을 더욱 해석하기 쉽게 만듭니다. 그러나 Varimax는 직각회전 방식이 아니라, 요인들을 직교화시키는 방법 중 하나입니다. 직각회전 방식은 요인들을 서로 직각(수직)으로 만드는 방법들의 총칭으로 사용되며, Varimax 외에도 다른 직각회전 방식도 존재합니다
배리맥스(VARIMAX)

가장 대중적인 기준이며, 관습적으로 가장 많이 쓰이고 있다. 이 회전법은 "분산이 극대화된다"(Variance is maximized)의 약자이다. 여기서는 요인의 분산을 극대화하는 논리를 따르는데, 요인행렬을 변환할 때 행렬의 열(요인)을 기준으로 하여 큰 값은 더 크게, 작은 값은 더 작게 회전하는 길을 찾는다. 배리맥스의 도입 이후, 학계에서 다요인 구조 속의 모든 요인들의 의미가 비로소 뚜렷하게 해석될 수 있게 되었다는 역사적 공로가 있다고 한다. 아무튼 요인의 수가 꽤 많다 싶을 때 쓰기 좋은 방법이다. 참고로 학회 발표에서조차 흔히 혼동하는 것인데, '베리맥스' 가 아니라 '배리맥스' 다(…).


Q

다음 중 주성분 분석에 대한 설명으로 옳지 않은 것은?

  1. 주성분끼리는 서로 직교한다
  2. 주성분 분석을 하기 위해선 변수의 수가 표본의 수보다 항상 커야한다.
  3. 주성분 분석은 고차원 데이터를 저차원 공간의 데이터로 변환시킨다
  4. 주성분은 기존 변수들의 선형 결합으로 이루어져 있다

  1. 주성분 분석을 하기 위해선 변수의 수가 표본의 수보다 항상 커야한다.

이 설명이 옳지 않습니다. 주성분 분석을 수행하기 위해 변수의 수가 표본의 수보다 항상 커야할 필요는 없습니다. 주성분 분석은 변수 간 상관관계를 이용하여 데이터의 차원을 줄이는 방법 중 하나이며, 변수의 수와 표본의 수에 대한 제약은 주성분 분석을 적용하는 상황에 따라 달라질 수 있습니다. 일반적으로 변수의 수가 적을수록 주성분 분석이 더 효과적일 수 있지만, 변수의 수가 표본의 수보다 작더라도 주성분 분석을 적용할 수 있습니다.


Q

다음 중 독립 변수와 종속 변수 척도에 따른 통계분석 방법으로 옳지 않은 것은?

  1. t-검정은 수치형 종속변수와 2개 범주의 독립변수를 사용하여 분석하는 방법이다
  2. 로짓모형은 범주형 종속변수와 범주형 및 수치형 독립변수를 사용하여 분석하는 방법이다
  3. 카이제곱 검정은 범주형 종속변수와 범주형 독립변수를 사용하여 분석하는 방법이다
  4. 공분산 분석은 종속변수가 범주형, 독립변수가 연속형인 분석 방법이다

  1. 공분산 분석은 종속변수가 범주형, 독립변수가 연속형인 분석 방법이다.

이 설명은 정확하지 않습니다. 공분산 분석(ANOVA)은 종속 변수가 연속형이고 독립 변수가 범주형인 경우에 사용하는 통계 분석 방법입니다. 따라서 공분산 분석은 종속 변수가 연속형이며 독립 변수가 범주형인 경우에 적합한 분석 방법입니다. 올바른 설명은 다음과 같아야 합니다:

  1. 공분산 분석은 종속 변수가 연속형이고 독립 변수가 범주형인 분석 방법이다.

Q

앙상블 기법 중 예측력이 약한 모형들을 결합하여 강한 예측모형을 만드는 방법은 무엇인가?

  1. 붓스트랩
  2. 랜덤포레스트
  3. 배깅
  4. 부스팅

앙상블 기법 중 예측력이 약한 모형들을 결합하여 강한 예측 모형을 만드는 방법은 "4. 부스팅"입니다.

부스팅은 예측 모델을 강화하기 위해 약한 모델(weak learner)을 순차적으로 학습시켜 가중치를 조절하면서 결합하는 방법입니다. 부스팅은 이전 모델이 틀린 예측을 한 데이터에 높은 가중치를 주어 다음 모델이 그 부분을 더 잘 학습하도록 하는 방식으로 작동합니다. 이 과정을 반복하면서 약한 모델을 강한 예측 모델로 만들어나가는 것이 특징입니다.

반면, 랜덤 포레스트는 여러 개의 결정 트리를 병렬로 학습하고 결합하여 예측을 수행하는 방법으로, 부스팅과는 조금 다른 방식으로 작동합니다. 붓스트랩은 데이터셋의 랜덤 샘플을 생성하는 데 사용되며, 배깅은 붓스트랩을 사용하여 여러 모델을 병렬로 학습하고 결합하는 앙상블 기법 중 하나입니다.


Q

다음 중 머신러닝 기반 데이터 분석 결과를 공유 또는 유지보수를 위해 관리하는 산출물로 옳지 않은 것은?

  1. 분석계획서
  2. 분석결과 및 예측결과
  3. 사용 및 유지보수 가이드
  4. 알고리즘 보완 계획서

머신러닝 기반 데이터 분석 결과를 공유 또는 유지보수를 위해 관리하는 산출물 중에서 옳지 않은 것은 "알고리즘 보완 계획서"입니다. 다른 옵션들은 일반적으로 데이터 분석 프로젝트에서 필요한 산출물이지만, "알고리즘 보완 계획서"는 일반적으로 데이터 분석 결과를 관리하거나 유지보수하는 데 사용되지 않습니다.

  1. 분석계획서: 프로젝트의 목표, 데이터 수집 및 전처리 방법, 분석 알고리즘 및 절차 등을 설명하며 프로젝트의 초기 계획을 문서화합니다.
  2. 분석결과 및 예측결과: 머신러닝 모델의 결과와 예측 결과를 포함하여 분석 결과를 문서화하고, 이를 다른 이해관계자와 공유하는 데 사용됩니다.
  3. 사용 및 유지보수 가이드: 분석 결과물이나 머신러닝 모델을 유지보수하고 사용하는 방법을 설명하는 문서입니다. 이 가이드는 프로젝트를 계속 관리하고 결과물을 유용하게 활용하기 위해 필요합니다.
  4. 알고리즘 보완 계획서: 일반적으로 데이터 분석 결과를 관리하거나 유지보수하는 데 사용되지 않습니다. 알고리즘 보완은 모델 개발 초기에 수행되거나 새로운 데이터나 문제에 대한 모델 개선을 위해 수행되는 활동이며, 이에 관한 계획은 분석계획서에 포함될 수 있습니다.

Q

다음 중 ROC 곡선을 이용한 분류모델 평가에 대한 설명으로 옳지 않은 것은?

  1. AUC의 면적이 클수록 분류모델의 성능이 좋다
  2. ROC 곡선으로 혼동행렬을 구할 수 있다.
  3. 임계값을 변화시키면 곡선도 따라서 변화한다
  4. 세로축은 재현율을 나타낸다

  1. ROC 곡선으로 혼동행렬을 구할 수 있다.

ROC 곡선은 분류 모델의 성능을 시각적으로 평가하기 위한 그래프이며, 혼동행렬(confusion matrix)은 분류 모델의 성능을 평가하기 위한 다른 방법입니다. ROC 곡선은 참 양성 비율(TPR, True Positive Rate)과 거짓 양성 비율(FPR, False Positive Rate) 간의 trade-off를 시각화한 것이며, 이를 통해 모델의 성능을 평가할 수 있습니다. ROC 곡선은 분류 모델의 예측 결과를 기반으로 TPR과 FPR을 계산하여 그려집니다.

혼동행렬은 실제 클래스와 모델의 예측 결과를 바탕으로 양성(True Positive), 음성(True Negative), 거짓 양성(False Positive), 거짓 음성(False Negative)을 나타내는 표입니다. 혼동행렬을 사용하여 정확도, 정밀도, 재현율 등의 성능 지표를 계산할 수 있습니다. ROC 곡선과 혼동행렬은 서로 다른 방법으로 모델의 성능을 평가하며, ROC 곡선을 통해 혼동행렬을 직접 구하는 것은 일반적으로 불가능합니다.

  1. 임계값을 변화시키면 곡선도 따라서 변화한다.

임계값(Threshold)은 이진 분류 모델에서 양성(Positive) 및 음성(Negative) 클래스를 구분하는 기준 값입니다. 이 임계값을 조절하면 모델의 예측 결과가 바뀌며, 이로 인해 ROC 곡선도 변화합니다.

ROC 곡선은 참 양성 비율(TPR, True Positive Rate)과 거짓 양성 비율(FPR, False Positive Rate) 간의 관계를 나타내는 곡선입니다. 임계값을 변화시키면 모델의 예측 결과가 바뀌어 TPR과 FPR이 변화하게 됩니다. 일반적으로 임계값을 낮추면 모델은 더 많은 샘플을 양성 클래스로 예측하게 되어 TPR이 증가하고, 그에 따라 FPR도 증가합니다. 임계값을 높이면 모델은 적은 샘플을 양성 클래스로 예측하게 되어 TPR이 감소하고, FPR도 감소합니다.

따라서 임계값을 변화시키면 ROC 곡선 상의 점들이 다른 위치로 이동하면서 곡선 자체도 변화하게 됩니다. 이를 통해 모델의 성능을 다양한 임계값에 대해 평가할 수 있으며, ROC 곡선 아래 면적인 AUC(Area Under the ROC Curve)를 계산하여 모델의 성능을 종합적으로 평가할 수 있습니다.


Q

분석 결과 스토리텔링을 준비하는 과정에서 수행해야 하는 일로 적절하지 않은 것은?

  1. 스토리보드 도구 검증
  2. 사용자 데이터 정의
  3. 사용자 시나리오 작성
  4. 스토리보드 기획

  1. 스토리보드 도구 검증

스토리텔링을 준비하는 과정에서 스토리보드 도구의 검증은 일반적으로 필요하지 않습니다. 스토리보드 도구는 스토리텔링을 시각적으로 표현하고 구성하기 위한 도구로, 이러한 도구의 선택은 스토리텔링을 구현하는 방식과 개인 또는 팀의 선호도에 따라 다를 수 있습니다. 스토리보드 도구를 선택하고 사용하는 것은 스토리텔링 프로세스의 한 부분이지만, 스토리텔링 자체를 준비하는 핵심 단계는 아닙니다.

예를 들어, 사용자 데이터 정의, 사용자 시나리오 작성 및 스토리보드 기획은 스토리텔링을 구성하고 전달하기 위한 중요한 단계입니다. 사용자 데이터 정의는 어떤 정보를 포함할 것인지, 사용자 시나리오 작성은 스토리의 흐름을 결정하고 사용자 경험을 설계하는 과정이며, 스토리보드 기획은 스토리를 구성하고 시각적으로 표현하는 과정입니다.

따라서 1번 항목인 "스토리보드 도구 검증"은 스토리텔링 준비과정에서 직접적으로 필요하지 않은 단계입니다.


Q

다음 보기 중 일반화 선형 모델(GLM)에 대한 설명으로 옳은 것을 모두 고르시오
가. 종속 변수가 이항분포면 연결함수로 로짓함수를 사용한다
나. 종속 변수의 정규성이 성립하지 않아도 사용할 수 있다
다. 로지스틱 회귀가 대표적인 일반화 선형 모델이다


네, "가", "나", "다" 모든 문장들이 일반화 선형 모델(GLM)과 로지스틱 회귀에 대한 올바른 설명입니다.

  • "가": 로지스틱 회귀는 일반화 선형 모델(GLM)의 한 예로, 종속 변수가 이항 분포를 따를 때 사용되며, 로짓 함수를 연결 함수로 사용합니다.
  • "나": 일반화 선형 모델(GLM)은 종속 변수가 정규 분포를 따르지 않을 경우에도 적용할 수 있습니다. 이는 다양한 종류의 분포 (예: 포아송 분포, 이항 분포)를 모델링할 수 있게 해 줍니다.
  • "다": 로지스틱 회귀는 일반화 선형 모델의 특별한 경우로, 종속 변수가 이항 분포를 따를 때 주로 사용됩니다. 로짓 함수를 연결 함수로 사용하여 종속 변수와 독립 변수 사이의 관계를 모델링합니다.

따라서 이 세 문장은 모두 일반화 선형 모델과 로지스틱 회귀에 대해 정확하게 설명하고 있습니다.


Q

다음 중 주성분석에 대한 설명으로 잘못된 것은?

  1. 선형 결합하여 새로운 변수를 만든다
  2. 분산이 커지도록 한다
  3. 데이터가 이산적인 경우에만 사용한다
  4. 직관적으로 이해할 수 있다

"분산이 커지도록 한다"는 주성분분석(Principal Component Analysis, PCA)의 목표 중 하나입니다. PCA는 데이터의 주성분(Principal Components)을 찾는 과정으로, 이러한 주성분은 원본 데이터의 분산을 최대로 보존하는 방향으로 정의됩니다.

주성분은 데이터의 분포를 가장 잘 설명하는 방향이며, 이 방향으로 데이터를 투영하면 원본 데이터의 분산을 최대한 보존할 수 있습니다. 따라서 PCA를 통해 주성분을 찾고 데이터를 주성분에 투영하면, 주성분 축을 기준으로 데이터의 분산이 크게 유지됩니다.

예를 들어, 2차원 데이터가 주어졌을 때, PCA를 적용하면 이 데이터의 주성분은 데이터가 가장 많이 퍼져 있는 방향을 나타내게 됩니다. 이 주성분으로 데이터를 투영하면 그 방향으로 데이터가 가장 넓게 퍼져있기 때문에 분산이 크게 유지됩니다. 따라서 주성분분석은 데이터의 분산을 보존하면서 데이터를 차원 축소하는데 사용됩니다.


Q

다음 중 비정형 텍스트 데이터 전처리 기법이 아닌 것은?

  1. 토크나이징
  2. 어간추출
  3. POS tagging
  4. stemming

Q

비정형 텍스트 데이터 전처리 기법 중에서 "POS tagging"은 아닙니다. 나머지 옵션들(토크나이징, 어간추출, stemming)은 텍스트 데이터 전처리 기법입니다.

  1. 토크나이징(Tokenization): 텍스트를 단어 또는 토큰 단위로 분리하는 과정입니다.
  2. 어간추출(Stemming): 단어의 어간(어미를 제외한 단어의 핵심 부분)을 추출하여 단어를 정규화하는 과정입니다.
  3. POS tagging(품사 태깅, Part-of-Speech Tagging): 각 단어에 대해 문장 내에서의 품사를 태깅하는 과정으로, 명사, 동사, 형용사, 부사 등과 같은 단어의 문법적 역할을 식별합니다.

따라서 "POS tagging"은 비정형 텍스트 데이터를 처리하는 데 사용되는 전처리 기법 중 하나입니다.


Q

다음 중 비교시각화 도구로 가장 거리가 먼 것은?

  1. 막대그래프
  2. 레이더차트
  3. 히트맵
  4. 산점도

비교 시각화 도구 중에서 "거리가 먼 것"을 판단하기 위해서는 주어진 옵션 중에서 가장 서로 다른 데이터 간의 차이를 가장 명확하게 보여주는 도구를 선택해야 합니다. 주어진 옵션 중에서는 다음과 같은 판단을 할 수 있습니다:

  1. 막대그래프: 범주형 데이터의 값을 막대로 나타내는 도구로, 서로 다른 범주 간의 높이 차이를 명확하게 보여줍니다.
  2. 레이더차트 (Radar Chart): 다중 변수의 값을 각각의 축으로 나타내어 비교하는 도구입니다. 하지만, 데이터 간의 거리를 명확하게 보여주지는 않으며, 주로 다각형의 형태로 나타납니다.
  3. 히트맵 (Heatmap): 두 변수 간의 관계를 색상으로 표현하여 보여주는 도구로, 데이터 간의 거리나 차이를 시각적으로 표현하기에는 다소 한계가 있습니다.
  4. 산점도 (Scatter Plot): 두 변수 간의 관계를 데이터 포인트로 표현하는 도구로, 데이터 간의 거리와 분포를 가장 명확하게 보여줍니다.

따라서, 주어진 옵션 중에서 "거리가 먼 것"을 가장 명확하게 보여주는 비교 시각화 도구는 산점도 (Scatter Plot)입니다. 산점도는 데이터 포인트 간의 거리와 분포를 시각적으로 표현하기에 가장 적합한 도구 중 하나입니다.


Q

오토인코더에 대한 설명으로 맞지 않은 것은?

  1. 차원축소에 사용되기도 한다
  2. 입력층과 출력층의 차원은 같다
  3. 디코더는 고차원데이터를 저차원데이터로 바꾸는 역할을 한다
  4. 비지도학습 모델이다

  1. 디코더는 고차원데이터를 저차원데이터로 바꾸는 역할을 한다.

오토인코더의 주요 목표는 입력 데이터를 저차원 표현으로 인코딩하고, 이 인코딩된 데이터를 원본 입력 데이터와 유사하게 디코딩하는 것입니다. 따라서 디코더의 역할은 인코더에서 생성된 저차원 표현을 고차원 원본 데이터로 변환하는 것이며, 고차원 데이터를 저차원 데이터로 바꾸는 것이 아닙니다. 따라서 설명 3번이 틀린 설명입니다.

나머지 설명들은 맞는 설명입니다:

  1. 차원 축소 목적으로 오토인코더를 사용할 수 있습니다.
  2. 오토인코더의 입력층과 출력층의 차원은 일반적으로 같습니다.
  3. 오토인코더는 비지도 학습 모델로, 레이블된 데이터 없이 데이터의 특징을 학습하는 데 사용됩니다.