본문 바로가기

기술창업지식

아이디어사업화 관련 주제 및 설명을 소개하는 코너 입니다.

주제

문서 및 대규모 텍스트를 분석, 통계 데이터 추출로 마케팅이나 혹은 디자인 리서치에 적용하는 방법

작성자 : gyrodyne9 분류 : 디자인 | 절차 및 방법론 작성일 : 2018.02.27 10:08:51 조회 : 1566 키워드 : 디자인리서치,통계데이터추출,텍스트분석,문서분석,마케팅

(질문의 배경)

문서 외 텍스트 기반의 데이터를 가지고 기업이나 방송, 연설, 상품 등에서 자주 사용하는 단어를 분석, 분류하여 관리 및 개발에 활용하는 마케팅 기법 중 하나라고 생각되는데 이러한 방대한 텍스트들을 통계 내어 마케팅이나 디자인에 적용하는 방법에는 어떤 것이 있는가?

 


설명

(유용한 정보 추출을 위한 언어 분석)

스마트기기의 가속화로 인해 기하급수적으로 증가하는 정보량을 수집, 축적, 분석하여 새로운 경제적 가치를 창출하기 위한 기술로 최근 주목을 받고 있는 비정형 빅데이터의 분석기법에는 텍스트 마이닝(Text Mining), 오피니언 마이닝(Opinion Mining), 소셜 네트워트 분석(Social Network Analytics) 기법들이 있다.

< 표. 네이버 지식백과: 대표적인 빅데이터 분석 기술들/ 한국전자통신연구원, 전자신문사 >

 

텍스트 마이닝의 응용 분야로는 문서 분류 (document classification), 문서 군집 (document clustering), 메타데이터 추출 (metedata extraction), 정보 추출 (information extraction) 등으로 문서 분류는 도서관에서 주제별로 책을 분류하듯이 문서의 내용에 따라 분류하는 것을 말한다. 문서 군집은 성격이 비슷한 문서끼리 같은 군집으로 묶어주는 방법이다. 이는 통계학의 방법론인 판별분석 (discriminant analysis)과 군집분석 (clustering)과 유사한 개념으로 분석 대상이 숫자가 아닌 텍스트라는 점에서 차이가 있다. 통상 문서 분류는 사전에 분류 정보를 알고 있는 상태에서 주제에 따라 분류하는 방법이며 문서 군집은 분류 정보를 모르는 상태에서 수행하는 방법이다. 이를 지도학습(supervised learning), 자율학습(unsupervised learning)이라고 부르는데, 데이터 마이닝에서도 동일한 의미로 사용하고 있다.

정보추출은 문서에서 중요한 의미를 지닌 정보를 자동으로 추출하는 방법론을 말한다. 사회정치적으로 응용된 부분에서는 일부 선거 관련 데이터 추출로 활용되고 있으며 기업 마켓팅 부분에서는 블로그, 트위터, 페이스북 등 소셜 미디어 분석 서비스를 통해 특정 단어의 출현 빈도로써 소비자 선호도 및 시장 조사에 이미 활용되어 지고 있다. 이렇게 추출된 텍스트들은 각 단어들이 주는 수식어, 외국어, 어미, 관계어, 기호 등 여러 가지로 분류하여 함수 관계의 복잡한 공식에 대입시켜 분류 한다.

(텍스트 마이닝을 통한 디자인 접근)

디자인 분야에서는 빅데이터를 어떻게 분석하느냐에 따라 많은 차이가 발생할 수도 있다. 예를 들어 국가별 산업분야 디자인 트렌드를 분석하기 위해 주로 사용하는 기술과 좋아하는 브랜드, 색상, 형태, 재질, 표면 처리 와 형태소 분석, 감성 분석, 언어 분석 등 여러 다양한 방향에서 접근해야 하는 것은 물론 그들이 가지고 있는 문화까지도 분석하여야 하며 여러 전문가 집단의 데이터 수집 및 분석 연계 프로세스 구축을 위한, 한마디로 디자인 분석 플랫폼을 만드는 시간과 노력이 필요하기 때문에 현실적으로 디자인에 활용 되어지고 있는 텍스트 마이닝 기법은 극히 일부이며 다소 소극적 일수 밖에 없다. 다만 개발하고자하는 제품 혹은 디자인, 마켓팅에 키워드 추출 과 시각화 역할로써는 접근 할 수 있을 것이다.

 

Tip

비정형 데이터(unstructured data) : 일정한 규격이나 형태를 지닌 숫자 데이터(numeric data)와 달리 그림이나 영상, 문서처럼 형태와 구조가 다른 구조화 되지 않은 데이터를 말한다. 비정형 데이터의 사례로는 책, 잡지, 문서의료 기록, 음성 정보, 영상 정보와 같은 전통적인 데이터 이외에 이메일, 트위터, 블로그처럼 모바일 기기와 온라인에서 생성되는 데이터가 있다. <네이버 지식백과>

 

<참고자료·문헌>

  1. 네이버 지식백과 : 대표적인 빅데이터 분석 기술들

(빅데이터 플랫폼 전략 2013. 2. 11. 한국전자통신연구원(ETRI), 전자신문사)

http://terms.naver.com/entry.nhn?docId=3331555&cid=57613&categoryId=57613

  1. ETRI < [제7호] 창의미래 뉴스레터 / 2013.06.17. >

http://www.etri.re.kr/kor/bbs/view.etri?b_board_id=ETRI18&b_idx=14208

3.네이버 지식백과 : 비정형 데이터 마이닝 (빅데이터, 2013. 2. 25., 커뮤니케이션북스)

http://terms.naver.com/entry.nhn?docId=1691558&cid=42171&categoryId=42183

 

<전문용어>

텍스트 마이닝, 오피니어 마이닝, 비정형 데이터, 형태소 분석