상세 컨텐츠

본문 제목

내 성적, SNS 게시물로 미리 알 수 있다? 인공지능(AI) 예측 모델!

디지털콘텐츠/이슈리포트

by 디지털콘텐츠기업 성장지원센터 2020. 10. 30. 17:58

본문

생각 없이 올린 SNS 게시물, 미래의 성적표가 될 수 있다.

이제 남녀노소를 불문하고 개인 SNS 계정 하나쯤 가지고 있지 않은 사람은 없을 것이다. 과거의 개인사 기록 방식이 종이와 펜으로 남기는 일종의 일기 형태였다면, 요즘은 개인 SNS 계정을 통해 실시간으로 사진과 글을 업로드하는 형식이 되었다.

 

SNS는 비공개 계정이 아닌 이상 모든 사람이 볼 수 있는 형태이기 때문에 글을 올릴 때 더욱 신중히 고민해야 하지만, 대부분 즉흥적으로 일상의 소소한 것들을 업로드해 공유하는 경우 그리 많은 공을 들여 글을 작성하지는 않는다. 게시물에 대한 답글 또한 마찬가지다. SNS는 주로 개인의 친분과 감정을 토대로 이야기가 오가는 곳이다 보니 진중한 글을 남기는 경우보다 그렇지 않은 경우가 더 많다. 그런데 이제 유명인이 아니더라도, SNS를 통해 개인적인 글을 올리는 경우, 한 번 더 생각하고 작성해야 할 것 같다. 바로 이러한 SNS에 올려지는 글(단어, 어휘 포함)들을 통해 학업성취도 및 미래의 성적까지 예측하는 인공지능 모델이 개발된 것이다.

 

< 출처 : “SNS 게시물로 내 미래 성적표를 받을 수 있다”, AI타임스, 2020.10.23. >

 

빅데이터를 활용한 벡터 모델(vector model)

인공지능을 이용해 학생들의 성적까지 예측할 수 있는 모델은 러시아 고등경제대학(HSE)의 이반 스미노브(Ivan Smirnov) 교수와 연구진이 개발하였으며, 영국 과학전문지 사이언스 엑스(Science X)에 보도돼 세상에 알려지게 되었다.

 

러시아 과학재단(RSF)의 지원으로 개발된 인공지능 예측 모델은 학생이 게시물에서 사용한 어휘, 문자, 기호뿐만 아니라 단어의 길이까지 분석한다. 모든 단어에는 등급이 매겨지고 학문과 문화에 관련된 콘텐츠, 길이가 긴 콘텐츠, 어려운 어휘 사용 콘텐츠의 경우 높은 점수를 받게 된다. 반대로 이모티콘이 많거나 문법이 어긋난 문장이 포함된 경우, 또는 미신과 레저에 관한 글이 많으면 낮은 점수로 기록될 확률이 높다.

 

직관적으로도 뉴턴, 셰익스피어, 양자역학등의 전문적 단어 포함 게시물을 올리는 학생이 학업에 더 적극적이고, 오타가 많은 학생은 그 반대란 것을 알 수 있지만, 해당 개발자는 인지 편향을 피하고자 똑똑하다를 수학적으로 증명해보였다.

 

, 연구진은 대학이 미리 보유한 코호트 연구(특정 요인에 노출된 인구와 그렇지 않은 인구를 대조하는 연구 자료)를 이용해 정보 사용에 동의한 학생의 PISA 시험 성적과 러시아 최대 SNS 계정 데이터를 확보했으며, 학습 머신 러닝이 적용된 벡터 모델에는 19억 개의 일반 단어와 250만 개 고유명사들이 의미적·구문적 특성에 따라 연속된 벡터 공간상에 표상되었다. 여기서 벡터 모델(vector model)이란, 텍스트 문서를 단어 색인과 같은 식별자 구성 벡터로 표현하는 모델을 뜻한다. 이 모델은 정보검색, 정보 필터링 및 검색 엔진의 색인이나 연관도 순위에 주로 사용된다.

 

이렇게 수집된 단어들은 학생들의 SNS 전체 게시물 130,575건에서 추출되었고, 2,468개의 주제로 분류되는 것이다.

 

< 출처 : I. Smirnov 논문(http://www.aitimes.com/news/articleView.html?idxno=133072), <AI타임스>, 2020.10.23. >

 

인공지능 예측 모델! 학업 외 수입, 감정 예측까지 가능해

이러한 인공지능 예측 모델은 심지어 자주 사용되지 않는 단어로도 학업 성적을 예측한다. 학습 모델이 제공되지 않은 데이터 분류가 가능해 인공지능이 단어의 등급을 자동으로 판단해 매기는 것이다. 예를 들어, 영국 소설 해리포터등장인물인 뉴트는 학습 데이터에 존재하지 않는 단어이지만, 학업 성취도가 뛰어난 다른 학생의 포스트에서 해당 단어가 한 번이라도 등장했다면 이 단어를 쓴 학생은 똑똑한학생으로 분류될 수 있다.

 

해당 모델은 앞서 언급한 러시아 최대 SNS(브콘탁테) 외에도 다른 SNS 플랫폼에서도 사용할 수 있다. 관계자는 트위터의 게시물을 대입한 결과 변화가 미비했다라며, 플랫폼에 따라 글의 수와 톤(Tone)은 변할 수 있어도 개인이 자주 사용하는 어휘와 패턴은 유지된다고 전했다. 더 놀라운 것은 이러한 예측 모델이 학업 성적 외에도 경제적인 수입이나 우울증 등 감정 변화 정도까지 예측할 수 있다는 사실이다. 개발자인 스미노브 교수는 향후 인공지능 예측 모델 연구를 위해 벡터 모델의 단어 데이터 정보를 공개하겠다 밝혀 앞으로의 활약이 더욱 기대되고 있다.

 

< 출처 : “스마트폰으로 우울증 90% 예측 가능”, 헬스조선, 2019.05.13. >

 

이제 인공지능(AI)은 산업 분야를 막론하고 차세대 시장 질서를 주도해 나갈 핵심 키워드로 평가받고 있으며, 인공지능 개발에 필수적인 데이터의 중요성도 함께 부각되고 있다.

 

스스로 학습하며 진화하는 인공지능 모델은 양질의 데이터 확보를 통해 스스로 학습 효율을 결정짓는다는 것이 이번 예측 모델을 통해 다시 한번 확인되었다. 따라서 대한민국 디지털 뉴딜의 주요 정책인 데이터댐구축 프로젝트의 역량 확보 역시 앞으로 우리나라 인공지능 산업 분야의 개발을 좌우할 중요한 사안이 될 것으로 생각된다.

 

[출처]

- SNS 게시물로 내 미래 성적표를 받을 수 있다”, <AI타임스>, 2020.10.23.

- “AI 성능 좌우하는 데이터품질 위한 솔루션 '눈길'”, <파이낸셜뉴스>, 2020.10.14.

 

관련글 더보기

댓글 영역