탑배너 닫기

노컷뉴스

댓글 분석 빅데이터로 본 올 대선 키워드 1위는?

국회/정당

    댓글 분석 빅데이터로 본 올 대선 키워드 1위는?

    -네티즌 댓글 분석으로 본 올 대선 키워드는 1위는? 경제정책능력
    -12월의 댓글 빅데이터 민심
    - 도덕성 높은 점수받은 문재인, 경제정책 능력은 0점
    - 경제정책, 개혁성 1위는 안철수, 서민 이미지 1위는 이재명, 도덕성 1위는 문재인,
    진정성 1위는 안희정

    [CBS 라디오 '시사자키 정관용입니다']

    ■ 방 송 : FM 98.1 (18:30~19:50)
    ■ 방송일 : 2017년 3월 2일 (목) 오후 19:05
    ■ 진 행 : 정관용 (한림국제대학원대학교 교수)
    ■ 출 연 : 김도훈 대표 (빅데이터 분석업체 '아르스프락시아')

     

    ◇ 정관용> 우리 국민들은 어떤 지도자를 원하고 있을까요. 그리고 지도자의 덕목들 가운데 주요 후보들은 어느 정도 점수를 받고 있을까요. 궁금하시죠. 이번에 한 빅데이터 분석업체에서 사람들이 기사에 단 댓글들을 모아서 분석해 봤습니다. 시대 정신을 반영하는 지도자상은 어떤 것들인지. 또 주요 대선주자들은 그 항목마다 어떤 점수를 받고 있는지 직접 듣기 위해서 빅데이터 분석업체 아르스프락시아의 김도훈 대표를 오늘 스튜디오에 초대했습니다. 김 대표님, 어서 오세요.

    ◆ 김도훈> 안녕하세요.

    ◇ 정관용> 어떻게 분석하는 거예요? 기사에 단 댓글들을 어떻게 분석해요.

    ◆ 김도훈> 일단 온라인상에서 기사가 있지 않습니까? 그러면 기사에 사람들이 댓글을 답니다. 그러면 그 댓글의 텍스터 데이터를 저희가 컴퓨터 프로그램으로 다 가져오는 겁니다. 그런 다음에 거기서 감성분석이라는 걸 하는데요.

    ◇ 정관용> 감성분석?

    ◆ 김도훈> 감성분석은 지금 이 말이 긍정적인 건지 아니면 부정적인 건지, 이런 걸 분석을 하는 거죠. 그런 걸 컴퓨터가 분석을 한 다음에 긍정적인 말들 그리고 부정적인 말들을 따로 모아서 거기서 주요했던 키워드들인 뭔지, 단어들이 뭔지를 분석하게 됩니다.

    ◇ 정관용> 연예기사에 달린 댓글까지 한 건 아니죠?

    ◆ 김도훈> 이번 케이스에는 정치기사에 대한 댓글들만 따로 모았죠.

    ◇ 정관용> 정치기사 댓글. 저희 시사자키 인터뷰한 것도 기사화 되면 댓글 많이 달리거든요. 그런 모든 댓글을 다 컴퓨터로 분석하는 거예요?

    ◆ 김도훈> 그렇습니다.

    ◇ 정관용> 그랬더니 키워드들이 지도자상 하면 뭐가 나왔습니까?

    ◆ 김도훈> 올해 같은 경우에요? 올해 같은 경우에 조금 이게 재미있었던 부분인데 일단 민주주의를 바라는 목소리들이 굉장히 커요.

    ◇ 정관용> 그렇겠죠.

    ◆ 김도훈> 그 시국이 있었으니까요. 그래서 민주주의를 많이 선호를 하는데 그러면서도 지도자에 대해서 어떤 기대가 있는가, 이런 걸 피력을 할 때는 같이 나오는 단어들이 경제정책 능력이죠.

    ◇ 정관용> 경제정책 능력.

    ◆ 김도훈> 그다음에 개혁성.

    ◇ 정관용> 개혁성.

    ◆ 김도훈> 그다음에 도덕 이런 말들이 제일 많이 나왔습니다.

    ◇ 정관용> 지금 올해 같은 경우라고 말씀하시는 걸 보니까 지난 대선, 지지난 대선도 이런 분석을 해 보셨나요?

    ◆ 김도훈> 그렇습니다.

    ◇ 정관용> 그럼 비교해서 말하는 게 더 재미있겠네요. 2007년 대선이죠. 2007년 당시에는 두 가지가 중요했던 것 같아요. 저희가 댓글 분석을 해 보니까 일단 경제정책 능력이고요. 그리고 그다음에 민주주의예요. 그런데 그때를 회고해 보면 유권자들이 그렇게 생각했던 것 같습니다. 어쨌든 김대중, 노무현 정부 거치면서 민주주의는 어느 정도 반석에 올라왔으니까 그 기반 위에서 경제정책 능력을 가진 사람이 대통령이 돼서 다들 먹고 살기 힘든데 경제를 잘 이끌어갔으면, 추진력 있게. 그런 어떤 기대가 반영이 돼서 이명박 후보가 다시 대통령으로 당선이 되지 않았나요?

    ◇ 정관용> 국민성공시대를 외쳤고 그런 게 맞아떨어진 거고요.

    ◆ 김도훈> 그렇습니다. 그리고 2012년에는 좀 더 미묘돼요. 단어가 한 네 가지가 중요했는데요. 일단 서민들을 살펴줄 수 있는 이미지.

    ◇ 정관용> 서민 이미지.

    ◆ 김도훈> 꼭 자기가 서민이 아니라도 서민들을 보듬을 수 있을 것 같은 이미지였고요. 그래서 서민이었고 두 번째는 민주주의였고요. 그다음에 안보관하고 진정성이 있었습니다. 그래서 돌이켜 보면 사실 문재인 당시 후보가 서민 이미지도 어느 정도 있었고 그리고 민주주의도 옹호하는 모습이 있었습니다마는 박근혜 후보도 그 못지않게 나름 서민을 옹호하는 그런 이미지들을 많이 보여주셨거든요. 그리고 민주주의에 대해서도.

    ◇ 정관용> 사실은 서민이 아닌데.

    ◆ 김도훈> 아니지만. 어쨌든 따뜻한 어머니 같은 이미지로 옹호하려는 그런 이미지를 많이 연출을 했었던 게 사실이고요. 그리고 또 과거 어떤 아버지의 독재 전력이 있기는 하지만 본인은 다르다. 나는 민주주의를 존중하겠다는 그런 표현도 많이 했었습니다.

    ◇ 정관용> 대선 때는 그랬죠.

    ◆ 김도훈> 대선 때는 그랬어요. 그런데 그거에 더해서 결국 그때 좀 크리티컬했던 좀 중요했던 부분은 안보관하고 진정성에서 많이 갈렸던 것 같습니다.

    ◇ 정관용> 안보관은 아무래도 박근혜 후보 쪽이 앞섰겠죠.

    ◆ 김도훈> 네, 그래서 안보관을. 특히 그 당시에 북한하고 관계가 좋지 않았기 때문에 더더구나 확고한 안보관을 가진 것이 사람들한테 어필을 했던 것 같고요. 그리고 진정성이라는 이미지를 누가 더 갖고 있느냐, 그 부분도 중요했던 것 같습니다.

    ◇ 정관용> 진정성은 누가 더 앞섰을까요?

    ◆ 김도훈> 그 부분에서는 박근혜 후보가 당시에 이미지 메이킹을 참 잘했던 것 같습니다.

    ◇ 정관용> 더 앞섰어요. 그런데 2012년 대선 때는 여도 야도 다 경제민주화 이런 걸 공약을 내세웠는데 그 부분은 여기에는 별로 드러나지 않네요.

    ◆ 김도훈> 네, 그러니까 사람들한테 정말로 와 닿는 것이 무엇인가. 그게 엘리트들이 얘기하는 것하고 일반 사람들이 얘기하는 부분이 좀 다를 수가 있는 것 같아요. 그런데 굳이 표현을 하자면 서민을 옹호하는 이미지, 서민들이 잘살 수 있게 해 주는 것.

    ◇ 정관용> 그것도 경제 민주화로 연결이 되는 거죠?

    ◆ 김도훈> 그것도 연결이 되는 거죠.

    ◇ 정관용> 그에 비해서 올해 같은 경우에는 경제정책 능력이 1등인 거죠?

    ◆ 김도훈> 맞습니다.

    ◇ 정관용> 그럼 2007년 이명박 대통령 당선 때 하고 그 점은 1등인 건 같네요.

    ◆ 김도훈> 네, 어떻게 보면 2007년의 프레임이 다시 돌아왔다. 그렇게 보실 수도 있습니다.

    ◇ 정관용> 경제정책 능력 아까 뭐라고 그러셨죠?

    ◆ 김도훈> 개혁성과 도덕성입니다.

    ◇ 정관용> 개혁성과 도덕성 그리고 민주주의.

    ◆ 김도훈> 그렇습니다. 어떻게 보면 경제정책 능력 지금 먹고 살기 힘들잖아요. 다들 힘드니까 경제 능력을 중요시하는데 지금 현재 시국을 겪으면서 역시 민주주의가 중요했고 개혁도 해야 하고 그리고 지도자는 역시 도덕적이어야 하는구나.

    ◇ 정관용> 최순실 게이트 때문이죠.

    ◆ 김도훈> 그런 깨달음이 반영이 된 것 같습니다.

    ◇ 정관용> 항목별로 유력 대선주자들이 각 항목에 몇 점 정도 받고 있는지 이런 것도 분석하셨다고요. 그건 어떻게 분석하셨어요?

    ◆ 김도훈> 그 부분은 사람들이 각 후보에 대해서 표현한 말들이 있습니다. 그 말들을 다 단어를 추출을 해서.

    ◇ 정관용> 그것도 역시 댓글에서.

    ◆ 김도훈> 그렇죠. 댓글의 단어를 추출을 해서 그 단어의 빈도수를 다시 상대점수화해서 10점 만점으로 점수 척도를 만든 겁니다.

    ◇ 정관용> 그랬더니요?

    ◆ 김도훈> 그렇게 했더니 지금 역시 현재로서 여론조사에서 제일 대세로 나타난 건 문재인 후보잖아요.

    ◇ 정관용> 그렇죠.

    문재인 전 더불어민주당 대표. (사진=이한형 기자)

     

    ◆ 김도훈> 그래서 문재인 후보 같은 경우에 특히 점수가 높았던 것은 도덕성 그리고 민주주의를 잘 실천할 것 같은 사람, 이런 부분에서는 점수가 높았고요. 각각 6.8점, 7.3점 이렇게 나왔고요. 경제정책 능력이 중요한데, 지금 사람들한테. 이건 호불호가 갈렸어요. 그래서 어떤 사람들은 아, 역시 문재인 후보가 경제도 잘할 것 같다, 이런 기대가 있는 반면에 좀 보수적인 유권자들은 혹시 좀 포퓰리즘으로 가지 않을까, 이런 우려도 나타나서 총점은 좀 낮게 나왔던 것 같습니다.

    ◇ 정관용> 몇 점이 나왔습니까, 경제정책은?

    ◆ 김도훈> 그거는 거의 플러스 마이너스가 비슷해서 0에 수렴했다고 보시면 되겠습니다.

    ◇ 정관용> 거의 빵점.

    ◆ 김도훈> 빵점이 그 빵점은 아니지만 어쨌든 그렇습니다.

    ◇ 정관용> 긍정평가, 부정평가가 엇비슷했다. 그런데 아무래도 개혁성, 도덕성 이런 면에서는 긍정평가가 훨씬 높게 나왔다?

    ◆ 김도훈> 그렇습니다. 아무래도 경제정책 능력 같은 경우에는 우리나라 유권자들이 통상적으로 보수 쪽이 경제를 잘 할 거다라고 생각하는 고정관념이 있는 것 같아요. 그래서 보수후보들이 높게 나왔는데요.

    ◇ 정관용> 누가 더 높게 나왔습니까?

    ◆ 김도훈> 유승민 후보가 높게 나왔고요.

    ◇ 정관용> 몇 점 정도 나왔어요.

    ◆ 김도훈> 4.4점 정도 나왔습니다.

    ◇ 정관용> 압도적으로 높은 건 아니네요?

    ◆ 김도훈> 압도적으로 높은 건 아닙니다. 그랬고 좀 특이하다고 볼 수 있는 건 같은 야권이지만 안철수 후보가 유승민 후보보다 더 높게 5.3점으로 제일 높게 나왔습니다.

    ◇ 정관용> 그건 성공한 벤처기업가이고 그런 안철수 후보의 지난 과거가 반영된 거겠죠.

    ◆ 김도훈> 그렇습니다. 그래서 경제정책 능력에서 안철수 후보가 1등을 했고 또 1등을 한 항목이 개혁성이었어요.

    ◇ 정관용> 개혁성에서 안철수 후보가 1등?

    ◆ 김도훈> 네. 그래서 좀 참신한 이미지, 능력 있는 이미지는 현재 여론조사에서는 낮게 나오고 있지만 그리고 저희가 이 데이터 분석을 했던 시기가 12월이거든요. 그러니까 벌써 몇 달 전인데 이미 이런 부분에서는 유권자들이 여론조사보다는 좀 높게 평가를 하지 않았나라는 생각이 듭니다.

    ◇ 정관용> 언급하신 김에 12월 어느 정도 기간을 분석하신 거예요?

    ◆ 김도훈> 12월 1일부터 14일까지 2주간의 데이터를 모아서 했었습니다.

    ◇ 정관용> 그때가 탄핵이 국회에서 의결되던 바로 그 시점이군요.

    ◆ 김도훈> 그렇죠. 그 시점이죠.

    ◇ 정관용> 그러면 각 항목별로 1등한 사람들을 소개해 주실래요?

    ◇ 정관용> 아까 말씀드렸던 대로 도덕성하고 민주주의는 문재인 후보가 높게 나왔고요.

    ◇ 정관용> 1등이고.

    ◆ 김도훈> 경제정책 능력하고 개혁성은 안철수 후보가 1등으로 나왔습니다. 그리고 진정성에서는 사실상 안희정 후보가 1등이 나왔습니다. 그래서 뭔가 무게감 있고 사람들한테 신뢰감을 주고 이런 부분들이 사실 12월 당시에는 안희정 후보는.

    ◇ 정관용> 별로 주목 못받았었는데.

    국민의당 안철수 전 대표. (사진=황진환 기자)

     

    ◆ 김도훈> 별로 주목을 못 받았잖아요. 그런데 사람들은 이미 이때 개인의 인품이라든지 어떤 신뢰감 이런 건 높게 평가를 했던 거였습니다. 그리고 이재명 후보가 서민 이미지가 역시 1등으로.

    ◇ 정관용> 그건 당연한 얘기고요.

    ◆ 김도훈> 그렇습니다.

    ◇ 정관용> 개혁성에서는 저는 이재명 후보가 더 1등으로 나올 줄 알았는데 아니었네요.

    ◆ 김도훈> 개혁성에서는 안철수 후보 다음으로 2등을 했습니다. 5.5점이었고요.

    ◇ 정관용> 혹시 황교안 총리 대행도 포함했나요?

    ◆ 김도훈> 이 당시에 황교안 총리 대행은 포함하지 않았고요. 여권에서는 유승민 후보만 봤었습니다.

    ◇ 정관용> 이건 그 시점의 반영인 거고 이것 좀 지속적으로 해 볼 필요가 있겠는데요?

    ◆ 김도훈> 네, 재미있을 것 같죠?

    ◇ 정관용> 만약에 탄핵이 인용돼서 조기대선이 치러진다면 대선 임박한 기간, 이런 기간은 따로 분석해 보면 또 다른 결과가 나올 수 있겠네요.

    ◆ 김도훈> 네, 맞습니다. 사실 빅데이터 분석이 가질 수 있는 장점이 실시간성이거든요. 그러니까 실시간으로 데이터가 쏟아지고 있는데 그것을 바로 수집을 해서 분석을 할 수 있기 때문에 그런 목적으로 활용한다면 충분히 의미가 있을 것 같습니다.

    ◇ 정관용> 그리고 또 하나 재미있는 분석을 하신 게 유력 대선주자들의 팬클럽 있잖아요. 팬클럽의 빅데이터를 분석하셨다고 들었는데 그건 뭘 어떻게 분석한 겁니까?

    ◆ 김도훈> 네, 각 후보들을 지지하는 유명한 커뮤니티 사이트들이 각자 있습니다. 그런데 이 분석을 하게 된 직접적인 동기는 사실은 조금씩 선거전이 과열되다 보니까 각각 후보 지지자들이 좀 이렇게 다른 쪽 지지자들하고 말싸움을 벌이는 경우가 많이 있죠.

    ◇ 정관용> 요즘 뉴스도 되고 있잖아요. 문재인 후보 지지하는 사람들이 문재인 후보 비판하는 다른 정치인한테 문자폭탄을 보낸다, 이런 게 화제가 되잖아요.

    ◆ 김도훈> 네, 그래서 저희가 문재인 지지자들이 지금 얼마나 그러면 말하자면 과격한 것일가, 과열된 것일까 이걸 좀 알고 싶어서 각 후보 지지자들의 제일 대표적인 팬클럽 사이트들을 분석을 해 봤어요.

    ◇ 정관용> 사이트에 올라오는 글들.

    ◆ 김도훈> 글들을 분석한 거죠.

    ◇ 정관용> 그랬더니요.

    ◆ 김도훈> 그랬더니 의외로 어쩌면 의외인지도 모르겠고 어쩌면 당연한 것인지 모르겠습니다마는 사실은 가장 적극적이고, 좋게 말하면 적극적이고 좀 네거티브하게 얘기하면 좀 극렬한 모습을 보였던 건 이재명 후보 지지자들이 제일 그랬고요.

    ◇ 정관용> 가장 열혈.

    ◆ 김도훈> 열혈이죠, 제일 열혈팬들이죠.

    ◇ 정관용> 그걸 어떻게 측정합니까, 열혈이라는 것을.

    ◆ 김도훈> 말하는 데 남을 비난을 하는 걸 좀 심하게 한다든지 이런 것들을 카테고리를 만들어서요.

    ◇ 정관용> 공격성.

    ◆ 김도훈> 공격성 이런 것들이죠. 그런데 그 공격성 비중이 이재명 후보 지지자들이 제일 높게 나왔고요. 그다음으로는 문재인 후보 지지자들이었는데요. 아무래도 문재인 후보 지지자들 같은 경우 워낙 사람들 숫자가 많습니다. 그러다 보니까 더 눈에 띄지 않았을까, 그런 공격성이, 그렇게 해석이 됩니다.

    ◇ 정관용> 그러니까 팬클럽 사이트에 들어와 있는 숫자는 문재인 후보가 훨씬 많죠. 그런데 그 전체 팬클럽 사람들이 올린 글 중에서 공격성이 더 두드러지는 건 이재명 후보였다.

    ◆ 김도훈> 비율로 보면 그렇습니다.

    ◇ 정관용> 하지만 숫자로 보면 문재인 후보 쪽이 더 많을 수 있다.

    ◆ 김도훈> 많습니다.

    ◇ 정관용> 그런 뜻이군요. 또 다른 후보들은 어떻게 나왔습니까?

    ◆ 김도훈> 다른 후보들은 아직 온라인상에서 충분히 그렇게 조직화돼 있지는 못한 것 같아요. 그래서 빨리 조직화가 되고 있기는 한데 역시 이런 팬클럽의 조직화 정도에서는 문재인 후보가 많이 앞서 있는 걸로 나옵니다.

    ◇ 정관용> 그런데 빅데이터라고 하는 게 온라인에 올라와 있는 또 그것도 팬클럽에 가입한 사람이거나 정치 기사 같은 걸 읽고 굳이 댓글까지 다는 사람들이거나 다시 말하면 적극적 활동층이란 말이에요, 사실은.

    ◆ 김도훈> 맞습니다.

    ◇ 정관용> 그 사람들의 반응만을 종합한 거지 않습니까? 이게 진짜 일반 국민의 민심을 반영한다고 볼 수 있을까요?

    ◆ 김도훈> 그래서 샘플이라고 그러죠. 어떤 데이터를 모으느냐가 굉장히 중요한데요. 단순히 열혈 지지자들을 대상으로 해서 데이터를 모으면 안 되겠죠. 그래서 그걸 보정하기 위해서 다른 여러 사이트들을 보고 같이 취합하는 방법을 씁니다마는 역시 여론조사하고 비교를 한다면 빅데이터 분석은 대표성은 떨어집니다. 그 여론조사 같은 경우에는 우리나라 국민들의 여러 가지 특성들을 반영을 해서 샘플링을 하고 조사를 하잖아요. 그것에 비해서 빅데이터는 대부분의 경우 온라인에서 사람들이 자유롭게 한 얘기들을 분석을 하기 때문에 엄밀하게 샘플링이 돼 있지는 않은 경우가 대부분입니다. 그런 면에서 대표성에는 좀 한계가 있고요. 봐야 할 것은 그래서 결국 빅데이터로부터 무엇을 얻을 것인가. 그것은 대표성이라기보다는 어떤 변동의 패턴을 파악을 하면서 도대체 왜 사람들이 갑자기 더 긍정적인 얘기를 이 후보에 대해서 많이 할까, 부정적인 얘기가 갑자기 왜 올라갔을까.

    ◇ 정관용> 그건 무엇 때문인가, 요인을 파악하는 거죠.

    ◆ 김도훈> 그렇죠. 그 요인을 파악할 때 전략적 통찰을 얻을 때 더 요긴하게 쓰이는 것 같습니다.

    ◇ 정관용> 여론조사에 비해서 대표성은 떨어진다고 하셨는데 사실 여론조사도 지난 총선 또 미국 대선 이런 거 보면 맨날 다르잖아요, 요새. 여론조사는 왜 맨날 달라요?

    ◆ 김도훈> 반대로 얘기를 하면 여론조사가 잘 통했던 시기를 상상해 보면 좋을 것 같아요. 한 50년 전쯤에 미국에서 여론조사가 잘 통했거든요. 비교적 정확하게 맞았는데 그때 모습을 상상해 보면 집에 일단 유선전화가 있습니다. 그리고 그 유선전화를 가진 사람은 주로 중산층이었는데 그 중산층이 광범위했어요. 그리고 그 사람들은 전화가 걸려와서 여론조사기관에서 조사를 하면 성심성의껏 응답해 줬습니다. 기관에 대한 어떤 신뢰, 존경 이런 게 있었거든요.

    ◇ 정관용> 응답률이 높았어요, 그때는.

    ◆ 김도훈> 그렇죠. 응답률도 높고 권위에 대한 신뢰가 있기 때문에 허튼 답변은 잘 안 했거든요. 그런데 요즘 상황을 보면 일단 유선전화가 집에 없죠. 그래서 무선전화를 주로 쓰고 있는데 아직 여론조사가 100% 무선전화로 조사를 못하고 있는 게 현실이고요.

    ◇ 정관용> 섞어서 하죠, 요즘은 주로.

    ◆ 김도훈> 그래서 그런 어떤 한계가 있고 확실히 예전보다는 응답자들이 그 조사기관의 권위나 신뢰성을 높게 평가하지 않는 것 같습니다. 그래서 허튼 답변을 하는 경우들, 엉터리 답변을 하는 답변들도 굉장히 많은 편이고요.

    ◇ 정관용> 좀 귀찮아해서 응답 안 하는 비율도 높아졌을 거고.

    ◆ 김도훈> 그렇죠. 그리고 예전에는 제가 유선전화를 가진 많은 중산층이 있었다고 말씀을 드렸습니다마는, 50년 전에는. 지금은 좀 냉소적으로 소외된 사람들이 많은 것 같아요. 그래서 무선전화로 굳이 전화가 오더라도 내가 왜 이런 거 답변해, 귀찮게 생각을 하는 거죠. 그런 모든 요인들이 복합적으로 작용한 것 같습니다.

    ◇ 정관용> 아무튼 그건 그렇고 여론조사하고 바로 비교될 수 없는 빅데이터 분석이라는 그 한계를 인정하되 특정 후보가 왜 갑자기 지지 받고 왜 갑자기 비판 받는지에 대한 그 요인 분석 같은 이런 데서는 요긴하게 쓸 수 있다, 여기까지 말씀 듣도록 하겠습니다.

    ◆ 김도훈> 감사합니다.

    ◇ 정관용> 빅데이터 분석업체 아르스프락시아의 김도훈 대표였어요.

    ◆ 김도훈> 네, 감사합니다.

    [CBS 시사자키 홈페이지 바로 가기]

    이 시각 주요뉴스


    실시간 랭킹 뉴스

    노컷영상

    노컷포토

    오늘의 기자