기타정보

기업의 차세대 생존전략, 빅 데이터의 개요

쿠카곰돌이 2020. 1. 21. 23:58
반응형

토픽 이름

빅데이터 아키텍처/기술요소

분류

데이터베이스 Big Data > 빅데이터 아키텍처/기술요소

키워드(암기)

(리드문) 기업의 차세대 생존전략

데이터의 다양화 및 대용량화, 생성주체(컴퓨터, 사람, 관계) / 유형(정형/반정형/비정형) / 

저장방식(3V / 기업 / 이산)5V (Volume, Velocity, Variety, Value, Veracity) / 

NoSQL, 필연적 분석작업, DW연계, Big Data Appliance, Data Warehouse, 비즈니스 분석 도구,

Front End, Middle Tier, Back End, System Mgmt, Text Mining, Opinion Mining, 

Social N/W Analytics, Cluster Analysis, Splunk(스플렁크), Flume(플럼), Chukwa(척와), 

Scribe(스크라이브)로그수집기, 크롤링, 센싱, RSS, Open API

암기법

(해당경우)

 

 

기출문제

번호

문제

회차

1

기업경쟁력 제고를 위해 빅데이터(BigData) 분석의 중요성이 대두됨에 따라, 기업의 문제점을 체계적으로 파악하고, 이를 해결하여 사업적 가치를 재평가하기 위해서는 통합적 빅데이터 프로젝트 수행이 필요하다. 빅데이터 분석의 특징을 설명한 후 적절한 수행 절차와 각 단계에서의 처리내용을 설명하시오.

113.관리.4

2

빅데이터 분석기법인 Random Forest에 대해 설명하시오.

110.관리.1

3

빅데이터의 3V(Volume, Variety, Velocity) 특성과 빅데이터 활용에 따른 비즈니스 측면에서의 기대효과를 설명하시오.

107.관리.3

4

빅데이터 분석방법인 Bagging과 Boosting 기법을 비교하여 설명하시오

105.관리.1

5

빅데이터 분산처리시스템인 하둡 MapReduce의 한계점을 중심으로 Apache Spark와 Apache Storm을 비교하여 설명하시오

105.관리.2

6

빅데이터 분석 도구인 R의 역사와 주요 기능 3가지에 대해 설명하시오.

104.관리.4

7

Big Data 분석에서 모델 평가 방법인 Train-Validation, Cross-Validation , Bootstrap을 비교 설명하시오.

102.관리.2

8

빅 데이터(Big Data)의 주요 요소 기술인 수집, 공유, 저장·관리, 처리, 분석 및 지식 시각화에 대하여 설명하시오.

102.응용.4

9

빅데이터 핵심기술을 오픈소스와 클라우드 측면에서 설명하고, 표준화 기구들의 동향을 설명하시오.

101.관리.2

10

2. 데이터의 폭증으로 대표되는  Big Data가 최근 다양한 분야에 활용되고, Big Data 처리 및 분석능력이 기업의 경쟁력으로 인식되고 있다. 다음에 대해 설명하시오.

가. Big Data 3대 요소(3V)

나. Big Data 분석 기법

다. Big Data 활용 분야

98.관리.3

11

빅데이터(Big Data) 분석과 기존 경영정보 분석과의 차이점에 대하여 설명하고, 빅데이터 분석의 활용효과에 대하여 설명하시오.

96.관리.2

I.   기업의 차세대 생존전략, 빅 데이터의 개요

가.   빅 데이터(Big Data)의 정의

- 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, (데이터의) 초고속 수집, 발굴 분석을 지원하도록 고안된 차세대 기술 및 아키텍처

- 시스템, 서비스, 조직 등에서 주어진 비용, 시간 내에 처리 가능한 데이터 범위를 넘어서는 데이터

- 일반적인 데이터베이스 소프트웨어가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터

나.   빅 데이터의 등장배경

- 다양한 기기 사용에 따른 데이터의 다양화 및 대용량화

다.   빅 데이터의 3요소와 주요 특징

구분

내용

3V

Volume

- 대규모의 데이터량, 수십 페타/엑사/제타 바이트 수준의 대규모 Data

Velocity

- 데이터의 생성속도, 실시간에 가까운 빠른 속도 처리(Real Time) 

Variety

- 데이터의 다양성정형/비정형의 다양한 Data

5V

Value

-  데이터로부터 추출되는 가치(Value)강조

- 분석결과의 가치 유무 판단

Veracity

- 신뢰할  있는 정보를 얻을  있는 데이터들의 품질

- 도출된 정보의 신뢰성

특징

NoSQL

- 개개의 data 대한 ACID 특성 지원 불필요

분산처리, 확장성

- 대규모 Data, Hadoop 기반 처리(HDFS, Map Reduce)

필연적 분석작업

- R 이용한 통계처리, Data Mining 기반 패턴 분석을 통한 숨겨진 정보/지식 탐색

DW 연계

- DW 저장하여 연관분류군집 분석 수행

II.   빅 데이터 아키텍처 구성도 및 기술 구성요소

가.   빅 데이터 아키텍처 구성도

- Big data 가용성 제고를 위해 데이터 처리 최적화된 기술 요소로 구성됨

 

 

 

 

 

 

 

나.   빅 데이터 기술 구성요소

구성요소

설명

사례

Front End

경량script언어

- GC(graphics context) 성능  UI 구현 이용스크립트언어로 Front End 구성

Ruby on Rails, Scala, JavaScript, python, PHP

경량App Server

- 다수의 경량 Application Server 이용하여 사용자 응답성의 극대화

Apache Thrift, Apache Avro, Jetty, Tomcat, NginX

Front (Page) Cache

- 정적 리소스  동적데이터에 대한 캐시서비스로 App/DB 서버부하절감  응답성 향상

Varnish cache, squid cache, Apache traffic server

Middle Tier

캐시Pool

- DBMS 통해 빈번하게 조회된 데이터를 메모리에 캐시하여 DB 부하 절감  응답속도 향상

Memcached, Membase(CouchBase), Ehcache, Oracle Coherence

분산Middleware

- 분산Application 서버와 Database간의 투명성과 Fault-tolerant 제공하는 분산메시지기반 미들웨어

Kestrel(twitter), Apache ActiveMQ, ZeroMQ

Back End

분산파일시스템

- 분산Application 서버와 분산Database 수평적으로 확장 가능케하는 네트워크기반의 분산파일

GFS(Google), Apache HDFS

분산데이터 스토리지/ 연산처리

- 기본적으로 데이터의 분산관리를 지원하며 인덱스의 최적화에 집중화된 DB 데이터 쓰기가 많은 업무의 실시간 데이터 처리에 최적화된 DB

Hadoop, Map/Reduce, HBase, MongoDB, Cassandra

DW&검색엔진

- 확장 가능한고 성능정보 검색서비스용 라이브러리엔진  DW 엔진

 

System Mgmt

시스템관리/

모니터링/

분석도구

- 시스템로그성능응답성 등을 분석하고 표현하여 신속한 문제 파악과 주요 지표관리를 통해 운영조직의 대응(아키텍처Renewal) 여부와 시점에 대한 의사결정지원사용자의 서비스 불만 발생 전에proactive 대응이 가능

Apache Zookeeper, Apache Chukwa, Scribe(FaceBook), Jconsole, Java Melody

최적화도구

- CPU, 메모리 사용량에 대한Profiling 분석을 지원하는S/W도구를 사용극한의 성능구현

yourkit

 

 

 

 

 

 

 

III.   빅 데이터 분석 기법 및 기술 요소

가.   빅 데이터 분석 기법

분석 기법

설명

Text Mining

- 자연어처리기술 기반 정보 추출가공

- Text Data에서 의미 있는 정보 추출

- 다른 정보와의 연계성 파악

- Text 가진 카테고리 분류

- 문서 분류문서 군집문서 요약정보 추출

Opinion Mining

- 평판분석 기법

- 소셜미디어 등의 긍정부정중립 선호도 판별 기술

- 특정 서비스  상품에 대한 시장규모 예측소비자 반응입소문 분석 등에 활용

- 정확성을 위해서는 전문가에 의한 선호도 표현/단어 자원의 축적이 필요함

Social N/W Analytics

- Social N/W 연결구조연결강도를 바탕으로 사용자의 명성  영향력 측정

- Social N/W 상에서 입소문의 중심이나 Hub 역할을 하는 사용자를 찾는데 주로 활용

Cluster Analysis

- 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 Group 발굴

나. 빅 데이터 기술 요소

기술 요소

설명

Hadoop

- Open Source 분산처리 기술 Project 

- 현재 정형/비정형 Big Data 분석에 가장 선호되는 솔루션 

- Yahoo, Facebook 

 

Map & Reduce

- Map: 흩어져 있는 데이터를 key, value구조로 묶는 연산

- Reduce: Map작업 중복데이터를 제거하고 데이터 추출

 

R

- 통계 계산  시각화를 위한 언어  개발 환경 제공
기본적 통계기법부터 모델링최신 데이터마이닝 기법까지 구현/개선 가능

- 구현 결과를 Graph 등으로 시각화 가능

- Java, C, Python  다른 프로그래밍 언어와 연결 용이

- Mac OS, 리눅스/유닉스윈도우  대부분의 컴퓨팅 환경 지원

- Hadoop 환경  분산처리를 지원하는 라이브러리 제공

- Google, Facebook, Amazon 

NoSQL

- Not only SQL, No SQL

- 전통적인 관계형 DB 다르게 설계된 비관계형 DB

- Table Schema 고정되지 않고, Join 연산 지원  

- 수평적 확장 용이

- CAP Theorem

 

- Big Data의 적극적 활용을 통한 서비스/상품 혁신을 위해서는 내/외부 Data 통합, 수집/분석역량, 인프라, 조직 분야에서의 체계적 준비 필요

Hadoop
Map & Reduce
NoSQL

 

 

IV.   빅 데이터 관리 방안

구분

주요 관리방안

적용기술

Big Data Appliance

- 외부로부터 유입된 Big Data 전문 Appliance에서 처리

- Big Data 분산처리 방식에 의해 (Key-value) 형태로 처리

- 처리된 데이터는 Big Table 저장  관리됨

- Map-Reduce

- Big Table

Data Warehouse

- Big Table 저장된 데이터  정형데이터를 추출하여 DW 적재

- 빠른 데이터 처리  데이터 컬럼 단위 압축

- 다차원 모델링에 의한 데이터 처리 수행

- HOLAP, ROLAP

- Data Mining, ETL

- Star스키마

- Snowflake스키마

비즈니스

분석 도구

- 고급 분석기술  데이터 사이언티스트를 통한 분석 실시

- 데이터의 가치에 따라 ILM 연계하여 데이터 보관  관리

- Content Analysis

- 예측분석

- Real time Analysis

- 내용분석 기법 및 OLAP, MART 등을 통해 비즈니스 분석도구로 전달되어 의사결정을 위한 정보 분석 및 가치 기반 저장관리

 

V.   빅데이터 수집기술의 개념 및 도구, 자동수집 방법

가.   빅 데이터 수집기술의 개념

- 빅데이터 수집 기술은 조직 내부와 외부의 분산된 여러 데이터 소스로부터 필요로 하는 데이터를 검색하여 수동 또는 자동으로 수집하는 과정과 관련된 기술

- 일반적으로 조직 내부에 존재하는 정형 데이터는 로그 수집기를 통해 수집하고, 조직 외부에 존재하는 비정형 데이터는 크롤링, RSS Reader, 또는 소셜 네트워크 서비스에서 제공하는 Open API를 이용한 프로그래밍을 통해 수집

나.   빅 데이터 수집 도구

도구

구성도

내용

Splunk

(스플런크)

 

- 프리 버전과 엔터프라이즈 버전을 제공

- 엔터프라이즈 버전에서는 하둡과 통합이 되어서 HDFS 데이터를 저장하고 하둡에서 분석 프로세싱을   있도록 업그레이드됨

-  기반의 GUI 제공하고 있어서  사용성이나 관리적인 측면에서는 매우  강점이 있음

Flume

(플럼)

 

- 에이전트컬렉터스토리지티어로 구분

- 데이터 수집을 위한 다양한 데이터 플로우 토폴로지를 구성할  있고 마스터 노드에서 통합 관리할  있는 웹페이지를 제공할 뿐만 아니라 이를 통해서 설정을 쉽게 변경하거나 모니터링이 가능

- 마스터 노드를 이중화하여 가용성이 높고자바로 구현되어 있어서 다양한 OS 플랫폼에 포팅이 가능함

Chukwa

(척와)

 

- 에이전트(Agent), 컬렉터(Collector), MapReduce 처리, HICC(Hadoop Infrastructure Care Center) 구성됨

- 척와는 확장성이 뛰어나며 대용량의 처리가 가능 분산시스템으로 모니터링과 분석 기능 클러스터 환경의 로그 분석에 탁월함

- 오픈소스 기술

Scribe

(스크라이브)

- Facebook 개발하여 2008년에 공개한 로그 수집 기술

- 대량의 서버로부터 실시간으로 흘러오는 로그 데이터를 집약하기 위해 개발됨

Splunk (스플런크)
Flume (플럼)
Chukwa (척와)

다.   빅 데이터 자동수집 방법

수집방법

설명

로그수집기

- 조직 내부에 존재하는 웹서버의 로그 수집 로드트랜잭션 로그클릭 로그, DB 로그 데이터 등을 수집

크롤링

- 주로 웹로봇을 이용하여 조직 외부에 존재하는 소셜 데이터  인터넷에 공개되어 있는 자료를 수집

센싱

- 각종 센서를 통해 데이터를 수집

RSS, Open API

- 데이터의 생산공유참여 환경인  2.0 구현하는 기술로 필요한 데이터를 프로그래밍을 통해 수집

 

 

VI.   빅 데이터와 기존 기술의 비교

가.   빅 데이터와 기존 데이터(경영정보)의 차이점

구분

빅 데이터

기존 데이터

Volume

- 수십 PB [페타바이트]

- 수십 GB, TB

Velocity

- 실시간 처리 기반(Real Time)

- 적합한 시간  처리 (Right Time)

Variety

- Legacy 데이터  트랜잭션

- 모바일소셜 데이터각종 로그

- 기업 내부 발생 데이터 위주

- ERP, CRM, SCM  Legacy 데이터

Device

- On/Off Line 데이터 포함

- Transaction  로그 데이터포함

- On-line 데이터 기반

- Transaction Data 기반

 

나.   전통적 데이터와 빅 데이터의 비교

구분

 전통적 데이터

빅 데이터

데이터 원천

- 전통적 정보 서비스

- 일상화된 정보 서비스

목적

- 업무효율성

- 사회적 소통자기표현사회기반 서비스

생성주체

- 정부기업  조직

- 개인시스템 

데이터유형

- 정형 데이터

- 조직 내부 데이터(고객정보거래정보 )

- 주로 비공개 데이터

- 비정형 데이터(비디오 스트림이미지오디오소셜 네트워크 등의 사용자 데이터센서 데이터응용프로그램 데이터 )

- 조직 외부 데이터

- 일부 공개 데이터

데이터 특징

- 데이터 증가량 관리 가능

- 신뢰성 높은 핵심 데이터

- 기하급수적 양적 증가

- Garbage 데이터 비중 높음

- 문맥정보  다양한 데이터

데이터 보유

- 정부기업  대부분 조직

- 인터넷 서비스 기업(구글아마존 )

- 포털(네이버다음 )

- 이동통신회사(SKT, KTF )

- 디바이스생산회사(애플 삼성전자 )

데이터 플랫폼

- 정형 데이터를 생산저장분석처리할  있는 전통적 플랫폼

- ex) 분산 DBMS, 중앙집중처리multi-processor, 

- 비정형의 대량 데이터를 생산저장분석처리할  있는 새로운 플랫폼

- ex) 대용량 비정형 데이터 분산 병렬 처리

 

 

 

 

 

 

 

VII.   빅 데이터 활용을 위한 이슈 및 방안

구분

이슈

방안

Data 접근성

- 외부 3 Data 활용가능성

- /외부 Data 체계적 결합  전사적 이용가능성

- 프라이버시보안지식재산권법적 책임 관련 사전 준비

- 외부 DB 내부 활용 방안

Big Data 인프라

- 클라우드 기반 통합 분석 시스템

- 전사적 Data 통합 활용체계

- 분산된 Data 클라우드 기반 통합

- Data 공유 프로세스 정립

분석역량

- 대용량 Data 분석 기술

- 실시간 분석시각화 

- 내부 DB와의 결합 분석

- 실시간 의사결정 지원 방안

Data 중심 조직

- 전문적 분석 조직  전문인력 양성

- Data 기반 의사결정 조직 구조

- Big Data 분석 전문조직 검토

- 전문가 채용

 

반응형