본문 바로가기

기술창업지식

아이디어사업화 관련 주제 및 설명을 소개하는 코너 입니다.

주제

빅데이터의 구축에 활용 가능한 무료 오픈소스 기술

작성자 : m0mksii 분류 : 연구개발 | 공통지식 작성일 : 2018.02.26 16:09:58 조회 : 1079 키워드 : 4차산업혁명,빅데이터,오픈소스,요소기술,무료다운로드

(요약/배경) 무료로 다운로드하여 사용가능 하도록 개방된 소프트웨어를 오픈소스 소프트웨어라고 하는데, 빅데이터를 구축하기 위해 활용 가능한 무료 오픈소스 기술은 무엇이 있으며 어떻게 활용가능한가?


설명

(빅데이터 오픈소스 기술의 등장배경)

빅데이터는 기존 기술로는 처리하기 어려운 정도의 큰 규모의 데이터이다. 이러한 빅데이터를 처리하기 위해서는 기존 기술의 한계를 극복하는 새로운 기술을 필요로 한다. 새로운 기술에 요구되는 기능은 대량의 데이터를 저가의 서버에 나누어서 저장하기 위한 “대용량 분산 데이터 관리기술”과 대용량 데이터를 저가의 서버에서 나누어서 동시에 처리하고 처리결과를 하나로 합치기 위한 “대용량 분산 병렬처리 기술”의 두 가지 요건이 필수적이라 할 수 있다.

구글에서는 2003년 “대용량 분산 데이터 관리기술”을 위한 GFS(Google File System) 논문을 발표하고, 2004년 “대용량 분산 병렬처리 기술”을 위한 Map-Reduce 논문을 발표하게 된다. 그리고 이 기술들을 오픈소스로 공개하게 되어 많은 개발자들이 참여하여 “하둡(Hadoop)”이라는 오픈소스 프로젝트로 진화시키게 되고, 다양한 기술들을 추가로 개발하여 “하둡 에코시스템”으로 발전하게 된다.

 

그림 : 빅데이터 오픈소스 기술 하둡의 등장배경 (출처: 구글이미지 참조, 저자 작성)

(오픈소스 하둡의 발전과정)

하둡은 아래와 같은 발전과정을 거쳐 현재는 사실상 빅데이터를 보유한 거의 모든 기업에서 핵심기술로 사용되는 기술표준에 해당된다.

  • Google이 발표한 논문을 오픈소스로 구현
  • 2006년 더그커팅이 최초 공개 후 Yahoo에서 성공적으로 도입
  • 2007년 트위터, 페이스북, 링크드인 등의 서비스에 적용
  • 2008년 다양한 하둡 에코시스템 개발(Hbase, Zookeeper, Pig, Hive..)
  • 2009년 아마존에서 Map-reduce 호스팅 서비스 시작 사이즈여부)
  • 2017년 현재 빅데이터를 보유한 거의 모든 기업에서 적용된 핵심 기술로 사용 중

최근에는 하둡의 한계를 보완하는 오픈소스 기술로 스파크 프레임워크가 오픈 되었다.

 

(오픈소스 기술의 사용을 위한 고려사항)

오픈소스 기술은 소스코드가 개방되어 누구나 무료로 다운받아 사용할 수 있다는 강력한 장점이 있는 기술이다. 그러나 오픈소스를 다룰 수 있는 기술력이 없으면 사실상 사용의 어려움이 있다. 또한 오픈소스도 라이센스가 있기 때문에 오픈소스를 수정하면 수정한 코드도 무료로 개방해야 하는 의무가 부여되게 된다.

따라서 오픈소스의 적용 가능성 평가를 통해 기술적, 법적 타당성을 검토하여야 하며 별도로 유상의 오픈소스 기술지원(서브스크립션)을 받으면 자체 기술력 없이도 사용가능한 방법이 있다.

 

Tip

아파치 하둡, 아파치 스파크 사이트에서 해당 기술에 대한 기술자료를 참고할수 있으며 오픈소스 소프트웨어를 다운로드하여 설치할 수 있다.

 

<참고자료·문헌>

☞ “아파치 하둡 프로젝트 사이트”

- 아파치 하둡 기술문서 참조 및 소프트웨어 다운로드 (http://hadoop.apache.org/)

☞ “아파치 스파크 프로젝트 사이트”

- 아파치 스파크 기술문서 참조 및 소프트웨어 다운로드 (http://spark.apache.org/)

 

<전문용어>

아파치 하둡, 아파치 스파크