본문 바로가기

카테고리 없음

ADsP 데이터의 이해 기출풀이

정성적 데이터 정량적 데이터
인터뷰 내용, 고객 의견 나이, 키, 몸무게

 

SECI 모델: 암묵(암묵)지와 형식(명시)지의 상호작용 4단계

단계설명상호작용 방향
공통화 암묵지 → 암묵지
개인의 경험·노하우를 타인과 직접 공유
ex) 선배가 후배에게 구두(공통)로 노하우 전수
암묵지 → 암묵지
표출화 암묵지 → 형식지
경험·노하우를 문서, 매뉴얼 등으로 형식화
ex) 자신의 업무 노하우를 인수인계서로 (표출)작성
암묵지 → 형식지
연결화 형식지 → 형식지
여러 형식지(문서, 데이터 등)를 결합·재구성
ex) 여러 부서의 메뉴얼을 통합(연결)해 새로운 메뉴얼 구성
형식지 → 형식지
내면화 형식지 → 암묵지
문서화된 지식을 학습·경험을 통해 체화
ex) 인수인계서를 읽고 실제로 업무하며 노하우 습득(내면)
형식지 → 암묵지
 

 

DIKW

D: A에선 100원, B에선 300원

I: A가 200원 싸다

K: A를 사는게 유리

W: 전반적으로 A가 쌀 것이다.

 

DW 고유한 특성

주제 지향성 -> 비즈니스의 특정 주제나 분석 목적

통합성 -> 수집한 데이터를 표준화

시계열성 -> 시간에 따라 변화하는 데이터 저장

비휘발성 -> 한번 적재된 데이터는 수정,삭제없이 읽기 전용

 

빅데이터 현상 출현 배경

1. IT 기술의 발전과 디지털화 가속

  • 스마트폰, PC, 모바일 기기 보급:
  • 센서, IoT, M2M 기술 발전: 사물인터넷

2. 데이터 저장·처리 기술의 혁신

  • 저장장치 및 클라우드 컴퓨팅 발전: 데이터 저장장치의 성능 향상과 가격 하락, 클라우드 컴퓨팅의 보편화로 대용량 데이터의 저장과 처리가 가능해졌습니다
  • 분산처리·빅데이터 분석 기술: 하둡

3. 데이터 유형과 규모의 변화

  • 비정형 데이터의 폭증: SNS, 멀티미디어(영상, 이미지, 음성)
  • 데이터의 양적·질적 증가: 기업, 기관, 개인 등에서 수집·생성하는 데이터의 양이 테라바이트(TB)에서 페타바이트(PB), 제타바이트(ZB)

4. 사회적·산업적 변화

  • SNS, 멀티미디어 콘텐츠 확산
  • 고객 데이터 수집 및 활용 증가: 기업들이 고객 행태와 소비 패턴을 분석
  • 데이터 기반 의사결정 및 경쟁력 강화: 데이터를 활용한 과학적 의사결정과 경영 전략 수립

 

ADsP에서 비즈니스 모델의 종류 정리 (가치사슬형 등)

ADsP에서는 비즈니스 모델을 기업이 어떻게 가치를 창출하고, 전달하며, 수익을 얻는지에 따라 여러 유형으로 분류합니다. 대표적으로 가치사슬형, 플랫폼형 등이 있으며, 각 유형은 실제 산업과 기업 사례에 따라 다양하게 변형될 수 있습니다.

1. 가치사슬형(Value Chain Model)

  • 정의: 기업이 원재료, 노동력, 자본 등의 자원을 결합해 제품이나 서비스를 생산·판매하는 일련의 과정을 단계별로 분리하여 부가가치를 창출하는 모델입니다681416.
  • 특징: 생산, 물류, 마케팅, 판매, 서비스 등 가치가 더해지는 각 단계(본원적 활동)와 이를 지원하는 인프라, 인적자원, 기술 등(지원 활동)으로 구성됩니다810.
  • 세부 유형:
    • 통합형: 설계부터 생산, 유통, 판매까지 모든 과정을 기업 내부에서 통합적으로 수행(예: SPA 브랜드 자라)616.
    • 세분형: 특정 가치사슬 단계에 집중하거나, 기존 프로세스를 재구성해 새로운 가치를 창출(예: 해피리턴즈의 반품 대행 서비스)6.
    • 재정의형: 기존 제품 판매 중심에서 서비스 중심 등 새로운 방식으로 가치사슬을 재정의(예: 힐티의 공구 임대 및 관리 서비스)6.

2. 플랫폼형(Platform Model)

  • 정의: 다양한 공급자와 수요자가 상호작용할 수 있는 장(플랫폼)을 제공하고, 그 과정에서 발생하는 네트워크 효과를 통해 가치를 창출하는 모델입니다612.
  • 특징: 플랫폼 운영자는 거래를 중개하거나 네트워크를 관리하며, 데이터·기술·API 등 개방과 공유를 통해 생태계를 조성합니다. 대표적으로 오픈마켓, 앱스토어, 클라우드 서비스 등이 있습니다12.

3. 비즈니스 모델 캔버스(Business Model Canvas) 기반 분류

비즈니스 모델 캔버스는 기업의 비즈니스 모델을 9가지 요소로 분해해 분석하는 대표적 도구입니다245791115. 주요 블록은 다음과 같습니다.

주요 요소설명
고객 세그먼트 어떤 고객에게 가치를 제공할 것인지 정의
가치 제안 고객의 니즈를 충족시키는 제품/서비스의 핵심 가치
채널 고객에게 가치를 전달하는 경로
고객 관계 고객과의 관계를 어떻게 구축하고 유지할지
수익원 어떤 방식으로 수익을 창출할지
핵심 자원 비즈니스 수행에 필요한 주요 자원
핵심 활동 가치 제공을 위해 반드시 수행해야 하는 활동
핵심 파트너 외부 협력사, 제휴사 등과의 관계
비용 구조 비즈니스 모델 운영에 드는 비용 구조
 

4. 기타 비즈니스 모델 유형

  • 네트워크형: 여러 기업이나 개인이 네트워크를 통해 협력하며 가치를 창출(예: 프랜차이즈, 협동조합 등).
  • 프리미엄/프리미엄(Free/Premium) 모델: 기본 서비스는 무료로 제공하고, 부가 서비스에 대해 요금을 부과(예: 소프트웨어, 앱 서비스 등).
  • 구독형(Subscription Model): 정기적으로 일정 금액을 지불하고 서비스를 이용(예: 넷플릭스, 신문 등).

 

분석 기법 설명

기법설명
CNN (Convolutional Neural Network) 합성곱 신경망으로, 주로 이미지·영상 인식에 특화된 딥러닝 모델입니다. 입력 데이터에서 특징을 추출하기 위해 컨볼루션(합성곱) 연산과 풀링(pooling) 연산을 반복적으로 수행하며, 계층적으로 복잡한 패턴을 학습합니다1567.
LSTM (Long Short-Term Memory) 순환 신경망(RNN)의 한 종류로, 시계열 데이터나 자연어 처리처럼 순서가 중요한 데이터를 다루는 데 사용됩니다. 장기 의존성 문제를 해결하기 위해 메모리 셀과 게이트 구조를 도입한 딥러닝 모델입니다2.
SVM (Support Vector Machine) 지도학습 기반의 전통적인 머신러닝 분류·회귀 기법입니다. 데이터를 분리하는 최적의 초평면(결정 경계)을 찾아 분류를 수행하며, 커널 트릭을 통해 비선형 분류도 가능합니다. 신경망 구조를 사용하지 않으므로 딥러닝과는 관련이 적습니다3.
Autoencoder 입력 데이터를 압축(인코딩)한 후 다시 복원(디코딩)하는 비지도 학습 기반의 딥러닝 모델입니다. 차원 축소, 노이즈 제거, 이상 탐지 등에 활용되며, 입력 데이터의 중요한 특징만을 학습합니다4.

4개 중 관련없는 딥러닝 오픈소스

  • Caffe, TensorFlow, Theano는 모두 딥러닝 모델을 개발·학습·배포할 수 있는 오픈소스 딥러닝 프레임워크 또는 라이브러리입니다12456.
  • Anaconda는 파이썬과 다양한 데이터 과학, 인공지능 라이브러리, 개발 환경 등을 묶어서 제공하는 오픈소스 파이썬 배포판입니다. 딥러닝 프레임워크를 설치하거나 실행하는 환경을 제공하지만, 자체적으로 딥러닝 모델을 구현하거나 학습하는 프레임워크는 아닙니다3.

사생활 침해문제 해결 방안 -> 정보 사용자 책임제로의 전환

 

Data Scientist에 요구되는 역량: BigData에 대한 이론적 지식, 분석기술숙련, 통찰력 있는 분석, 설득력 있는 전달, 다분야간 협력

 

데이터 크기 -> PEZY(페타,엑사,제타,요타)

 

 

로직오류 vs 프로세스 오류

로직 오류(Logical Error) 예시

  • 부정확한 가정을 하고 테스트를 하지 않는 경우
    예: "고객은 모두 이 서비스를 필요로 할 것이다"라는 가정을 별도의 검증 없이 분석에 반영하는 것
  • 올바른 질문을 하지 않는 경우
    예: 문제의 본질을 파악하지 못하고 잘못된 방향으로 분석을 시작하는 것3.
  • 사실에 기반하지 않고 결론을 내리는 경우
    예: 데이터에 근거하지 않고, 직관이나 경험만으로 의사결정을 내리는 것3.

프로세스 오류(Process Error) 예시

  • 결정 과정에서 분석과 통찰력을 고려하지 않는 경우
    예: 충분한 데이터 분석 없이 단순히 경험이나 관행에 따라 의사결정을 내리는 것256.
  • 대안을 진지하게 고려하지 않는 경우
    예: 여러 대안이 있음에도 불구하고, 한 가지 방안만을 고집하거나 검토하지 않는 것56.
  • 분석이나 데이터 수집이 너무 늦어 의사결정에 활용할 수 없는 경우
    예: 데이터 분석 결과가 의사결정 시점 이후에 도착하여 실제로 활용되지 못하는 것6.

요약하면,

  • 로직 오류는 잘못된 가정, 질문, 논리 등 분석의 논리적 결함에서 발생하고,
  • 프로세스 오류는 분석 과정이나 의사결정 절차상의 문제(분석 미흡, 대안 미고려, 시기 지연 등)에서 발생합니다.

 

정형 데이터(Structured Data) 예시

  • 관계형 데이터베이스(RDBMS) 테이블: Oracle, MS-SQL 등에서 사용하는 고객정보, 거래내역 테이블
  • 스프레드시트(Excel): 행과 열로 구성된 표 형태의 데이터(예: 직원 명단, 매출 내역)
  • CSV 파일: 콤마로 구분된 고정된 구조의 데이터
  • 고객 ID, 이름, 우편번호, 신용카드 번호, 날짜 등 명확한 구조와 필드를 가진 데이터156

반정형 데이터(Semi-Structured Data) 예시

  • XML, JSON, HTML 파일: 태그나 키-값 쌍 등 구조 정보가 있으나, 고정된 스키마는 없음
  • 웹/시스템 로그: 일정한 패턴이 있으나, 필드가 고정적이지 않음
  • 이메일: 보낸사람, 받은사람, 제목 등은 구조화되어 있지만 본문은 자유로운 텍스트
  • 센서 데이터, 웹 로그, 오픈 API 데이터 256

비정형 데이터(Unstructured Data) 예시

  • 텍스트 데이터: 소셜 미디어 글, 블로그, 고객 리뷰, 워드 문서, PDF
  • 이미지, 동영상, 오디오 파일: 사진, CCTV 영상, 녹음 파일 등
  • 이진 파일, SNS 피드, 유튜브 영상, 의료 영상(MRI, X-ray 등)
  • 날씨 데이터, 보안 감시 데이터, 과학적 데이터(지진 보고서 등)