상세 컨텐츠

본문 제목

데이터 품질관리를 통해 바라본 데이터 생태계

디지털콘텐츠/이슈리포트

by 디지털콘텐츠기업 성장지원센터 2023. 6. 28. 18:17

본문

안녕하세요 디지털 콘텐츠기업 성장지원센터 SNS 기자단(이하 SNS기자단)입니다. 매년 모바일 PC 통한 데이터는 기하급수적으로 늘어나고 있지만 해당 데이터를 신뢰하기 위해 우선 해결해야 것은 바로 데이터 품질이슈입니다. 2023 6 1 한국지역정보개발원에서는데이터 품질관리 세미나 개최하면서 데이터 생태계 조성과 공공데이터 품질관리 사례에 대한 세미나를 온라인으로 진행했습니다. 온라인 행사에 참석한 SNS 기자단이 해당 세미나의 주요내용을 아래와 같이 공유하고자 합니다.

 

< 데이터 품질 관리 세미나 중계 화면 캡처, 출처 : 데이터 품질 관리 세미나 >

 해당 세미나의 1부에서는 안동대학교 손성현 교수가 ‘데이터 품질과 디지털 국정관리’ 라는 주제로 강연을 하였습니다. 우리나라의 경우 데이터 생태계 조성을 위해서 실시한 것이 바로 세계 최초로 공공데이터 개방법을 제정한 것입니다.

 

< 데이터 품질 관리 세미나 중계 화면 캡처, 출처 : 데이터 품질 관리 세미나 >

 하지만 초기에 데이터 생태계를 위한 공공생태계는 수요를 고려하지 않은 채 앱 개발 위주로만 조성된 문제가 있었다고 합니다. 그래서 이후 디지털 플랫폼정부로의 전환이 일어남에 따라 ‘데이터 품질’에 대한 국내외적인 움직임에 발 맞추어 현재 데이터 생태계 조성의 핵심과제는 ‘품질 보장’에 있고 대규모 데이터 플랫폼 사업이 성공할 수 있는 방안에 초점이 맞춰져 있다는 사실을 알 수 있었습니다.

 

1부가 데이터 품질의 중요성과 데이터 생태계 조성을 위한 움직임을 알 수 있는 시간이었다면 2부에서는 한국지능정보사회진흥원이 들려주는 공공데이터의 품질관리사례를 알 수 있는 시간이었습니다.

 

데이터품질개선의 대한 대표적인 사례는 도메인 진단기준 도출 및 적용에서도 볼 수 있습니다. 도메인 정의에 맞는 진단기준을 설정하고 이에 대한 오류율과 데이터를 확인하면서 진단기준에 대한 적합성을 판단하는 것입니다.

 

공공개방데이터에서도 이런 사례를 볼 수 있습니다. 정형데이터의 진단규칙을 설정해서 해당 규칙에 맞는 데이터를 필터링 할 경우 유용한 데이터를 보다 짧은 시간에 활용할 수 있습니다.

 

이러한 데이터 품질의 향상을 위해 제도적으로 정립되어야 할 중요한 부분은 ‘표준화’ 입니다. 특히 공공데이터의 경우 표준화는 표준용어를 제정하고 이를 활용하는 데서 데이터 품질이 결정되는 변수가 될 수 있고 이것이 정착화 될 때 데이터 이용수준 향상이 이뤄질 수 있습니다.

 

그리고 최근 챗 GPT와 같은 생성형 AI를 통한 데이터 분석이 이루어지는 환경에서는 용어의 약속과 통일성이 더욱 중요해질 전망입니다. 특히 생성형 AI는 기존에 있던 수많은 데이터들에서 가장 유사한 내용들을 정리하여 출력물을 보여주는 과정에 있는데 해당 데이터들은 일정한 형식을 가진 정형데이터와 형식이 통일성  없는 비정형데이터가 혼재하는 경우가 많기 때문에 해당 데이터를 통한 출력물의 활용성을 위해서는 통일성 있는 기준과 표준이 강조될 것으로 전망합니다.

 

< 데이터 품질 관리 세미나 중계 화면 캡처, 출처 : 데이터 품질 관리 세미나 >

이번 세미나를 통해 과거에는 데이터를 수집하고 축적하는 것이 중요했고, 현재로 들어와서는 수집된 데이터를 분석하고, 이것의 활용성에 많은 비중을 두었다면 앞으로는 더욱 신뢰성있는 데이터를 보다 효율적으로 사용하는 것이 더욱 중요해질 거라는 생각이 들었습니다.

 

데이터 품질을 향상하여 더 나은 데이터 생태계를 만드는 일과 관련, 공공기관의 경우는 특히 공공데이터를 오픈하고, 지속적인 품질검증이 필요하며, 데이터 지원정책도 병행되어야 할 것입니다.

 

 

관련글 더보기

댓글 영역