본문 바로가기

기술창업지식

아이디어사업화 관련 주제 및 설명을 소개하는 코너 입니다.

주제

정형, 비정형 빅데이터의 수집, 확보기술

작성자 : m0mksii 분류 : 연구개발 | 공통지식 작성일 : 2018.02.26 16:12:12 조회 : 1199 키워드 : 4차산업혁명,빅데이터,정형데이터,데이터수집,비정형데이터

(요약/배경) 빅데이터는 정형화되고 구조화된 데이터뿐만 아니라 음성, 이미지, 동영상, SNS댓글, 텍스트, 문서 등 비정형 데이터도 다양한 형태의 존재한다. 창업자 입장에서 서비스에 필요한 데이터를 선정하였다고 가정하면, 선정된 데이터의 수집, 확보에 필요한 기술에는 어떤 기술이 있으며 기술의 적용성을 검토하기 위한 기준은 무엇이 있는가?


설명

(빅데이터 수집 기술의 분류)

빅데이터의 수집기술의 적용성을 검토하기 위해서는 다양한 기술을 아래와 같이 몇가지 관점을 기준으로 분류 할 수 있다.

  • 데이터 수집의 주기에 따라 실시간적인 데이터 수집기술과 주기적인 데이터 수집기술로 분류
  • 원천 데이터의 유형에 따라 정형화된 데이터 수집기술과 비정형 데이터의 수집기술로 분류
  • 데이터 원천이 존재하는 위치에 따라 기업 내부 시스템간 데이터 수집기술과 기업간 데이터 수집기술 또는 인터넷 영역의 데이터 수집기술로 분류

 

(빅데이터 수집 기술)

서비스 기획단계에서 서비스에 필요한 데이터를 선정하고, 선정된 데이터의 수집주기, 원천 데이터의 유형, 원천 데이터가 존재하는 위치가 어디인가에 따라 아래의 기술들을 검토하여 필요기술을 선정할 수 있다.

 

(빅데이터 수집을 위한 오픈소스 기술)

빅데이터의 에코시스템 중에서 빅데이터 수집처리에 사용되는 기술은 아래와 같다.

 

Tip

Apache Flume, Apache NiFi 사이트에서 해당 기술에 대한 기술자료를 참고할 수 있으며 오픈소스 소프트웨어를 다운로드하여 설치할 수 있으며 다운로드 및 설치를 위한 가이드를 제공하는 한국어 웹을 참고 할 수 있다.

 

<전문용어>

Apache Flume, Apache NiFi