상세 컨텐츠

본문 제목

정형-비정형 데이터 융합분석 기술, 필수 디지털 역량 알아보기

디지털콘텐츠/이슈리포트

by 디지털콘텐츠기업 성장지원센터 2023. 7. 24. 16:15

본문

안녕하세요 디지털 콘텐츠기업 성장지원센터 SNS 기자단입니다. 클라우스 슈밥이 4 산업혁명을 얘기하며 빅데이터 향후 미래의 원유와 같은 가치가 있을 것이라고 이야기 있습니다. 하지만 빅데이터 자체보다 중요한 것은 데이터를 활용해서 부가가치를 생산할 있는 데이터 분석 기술입니다. 그렇다면 데이터의 분석은 어떻게 해야 할까요? 데이터의 종류와 그것을 분석하는 기술의 기초를 디지털 오픈랩의 <정형-비정형 데이터 융합분석기술>이라는 세미나를 통해 기자단이 인상깊게 느꼈던 부분을 설명드리고자 합니다.

 

< 빅데이터 활용 사례를 설명하는 모습, 출처 : 기자단 직접 촬영 >

첫번째는 바로 데이터의 종류와 이를 분석하기 위한 방법입니다. 데이터는 정형데이터와 반정형데이터, 그리고 비정형 데이터로 분류됩니다. 정형데이터는 양적데이터로서 엑셀 같은 정리된 포맷의 데이터 베이스로 얘기할 수 있으며, 비정형 데이터는 다양한 데이터 포맷, 예를 들어 사진도 비정형 데이터에 속합니다. 반정형 데이터는 그 중간에 속한다고 볼 수 있지만, 데이터의 종류는 크게 정형, 비정형 데이터로 분류한다고 합니다.

 

< 정형 데이터와 비정형 데이터의 특징, 출처 : 기자단 직접 촬영 >

그래서 중요한 것은 데이터가 쌓여서 빅데이터가 된다고 해도, 데이터 가공을 하여 이를 분석할 수 있는 자연어(Natural Language Processing, NLP)처리가 중요합니다. 예를 들어 영화사이트의 댓글을 통해 이를 긍정/부정으로 평가했는지 분류하는 것도 자연어 처리를 통한 데이터 분석으로 가능한 것입니다.

 

< 자연어 처리 예시, 출처 : 기자단 직접 촬영 >

그렇다면 어떻게 자연어 처리를 해야할까요? 자연어처리를 하기 위해서는 코딩이 필요한데, 대표적인 코딩 언어는 바로 파이썬(Python)’입니다. 파이썬은 이미 오픈소스로 알려져있고, 실시간으로 계속 업데이트 되고 있다는 장점이 있습니다. 현장 세미나에서도 참석자 모두 파이썬을 실행하면서 실습을 하는 시간을 가졌습니다.

 

파이썬과 같은 코딩언어를 통해 데이터를 갖고 있는 구조를 만들어지게 된다면 이제는 비정형 데이터를 정형 데이터화 있는 방법이 만들어진 셈이고 데이터 분석을 위한 제반조건이 만들어진 셈입니다. 이에 따라 정형 데이터화 빅데이터가 준비되면 그때부터는 다양한 비즈니스 사례를 통해 분석을 하면 됩니다. 이게 세번째로 중요한 사항입니다.

 

< 데이터 분석 비즈니스 사례 학습, 출처 : 기자단 직접 촬영 >

예를 들어서 금융데이터를 통해서 특정 기업의 주가의 데이터를 모으고 주가를 예측하고 싶다는 가정을 합니다. 그렇다면 번째로 파이썬을 통해 금융데이터를 한번에 가져올 있는 설정값을 만들어 놓고 조건문을 통해 해당 데이터를 전부 불러올 있습니다. 그렇게 불러온 데이터를 가지고 과거의 데이터 흐름을 보고 현재의 개별 기업의 경영현황과 변수들을 통해 향후 주가를 데이터 분석가 각자의 기준을 통해 예측하면 비정형 데이터를 정형데이터화 있습니다. 따라서, 해당 데이터분석이 일종의 가치 생산적인 데이터로 변환할 있는 예시가 되는 것입니다.

 

이번 정형-비정형 데이터 분석 세미나 참가를 통해 자연어 처리가 용이하도록 모든 데이터를 정형화하고, 이를 위해서는 최적의 코딩언어를 익히면서 이를 다양한 비즈니스 사례에 접목해보는 연습을 하면, 이것이 빅데이터 시대를 살아가는 개인의 차별화된 역량이 있다는 인사이트를 얻을 있었습니다.

 

 

  

관련글 더보기

댓글 영역