데이터 시각화의 함정에 빠지지 않는 법

몇 해 전, JTBC의 손석희 앵커가 대선후보 지지율을 잘못 보도한 점을 공식 사과한 적이 있었어요. 당시 주요 대선 후보의 지지율을 보도하며 더불어민주당 문재인 대선후보가 진보층에서 48%, 국민의당 안철수 대선후보가 보수층에서 66%의 지지율을 보인다는 차트를 활용했는데 이게 뒤바뀐 수치였거든요.

이에 손석희 앵커는 “게다가 특정 후보들에게 불리하게 제시된 숫자가 공교롭게도 많다는 것은 대선국면에서 뉴스의 저의를 의심받을 수 있는 상황이기도 했다”며 “때문에 대선 보도에 임하고 있는 신뢰도에 금이 간다면 당연히 정정하고 사과드려야 한다”고 말했는데요. 

이처럼 선거 관련 데이터를 시각화할 때는 왜곡된 정보를 담지 않도록 신중해야 합니다. 모든 데이터 시각화가 왜곡된 의미를 전달하면 안 되지만, 특히 언론 매체의 데이터 시각화는 선거 개입이나 여론 몰이의 논란을 일으킬 수 있는 만큼 주의가 필요합니다. 

이번 콘텐츠에서는 막대, 라인, 지도 등 여러 언론 매체에 등장한 잘못된 데이터 시각화 사례를 바탕으로 어떤 오류가 있는지, 이를 어떻게 하면 데이터의 의미를 왜곡하지 않고 전달할 수 있는지 등을 확인해 보겠습니다.

1. 수치를 정확하게 표현했는지 확인하세요!

수치를 정확하게 표시하라니, 왜 당연한 이야기를 하냐고요? 모든 데이터 시각화 유형에서 수치를 정확하게 표시하는 것은 너무도 당연한 이야기지만, 기본을 지키지 못한 데이터 시각화를 의외로 자주 볼 수 있거든요. 

데이터를 비교할 때 많이 사용하는 막대 차트(Bar Chart)와 라인 차트 사례를 통해 어떤 오류가 생길 수 있는지 살펴보도록 하겠습니다.   

1) 기준이 일정하지 않은 막대 차트

첫 번째 사례는 제20대 대통령 선거를 앞두고 차기 대선 후보 지지율을 조사한 막대 차트입니다. 막대 차트는 가장 기본적이고 직관적인 차트로 막대의 크기를 비교하여 데이터의 크기를 비교하는데요, 평범한 막대 차트 같은데 어떤 오류가 있을까요?

▵ 제20대 대통령 선거를 앞두고 실시한 차기 대선 후보 지지율 설문 결과를 시각화한 막대 차트(출처: 시사오늘)

y축이 없어서 한 번에 이상한 점을 알아채기는 어렵지만, 가장 긴 42.9%의 막대를 놓고 봤을 때 다른 막대의 수치가 이상하다는 것을 발견할 수 있습니다. 두 자릿수 지지율을 보이는 이재명(42.9%), 윤석열(38%) 후보에 비해서 한 자릿수 지지율의 안철수(7.7%), 심상정(2%), 김동연(2.2%) 후보의 수치를 나타내는 막대의 크기가 비정상적으로 큽니다. 기타, 없다, 잘 모름이라고 응답한 수치도 마찬가지로 막대의 크기가 실제 수치보다 크게 나타납니다.

설문조사 결과를 가지고 다시 데이터를 시각화하면 아래와 같은 막대 차트를 그릴 수 있는데요!

▵ 제20대 대통령 선거의 차기 대선 후보 지지율 데이터를 바탕으로 재구성한 막대 차트(제작: 뉴스젤리)

위 이미지에서 윤석열 후보 막대의 반 정도를 차지하던 안철수 후보의 막대 크기가 ⅕ 정도로 줄어들었습니다. 그렇다면, 시사오늘은 왜 이런 실수를 했을까요? 아마도 데이터 시각화는 막대에 각 후보의 사진을 넣기 위해 크기를 임의로 변경한 것이라고 추정할 수 있는데요, 시각화의 디자인을 신경 쓰는 것도 좋지만 그전에 왜곡 없이 데이터의 의미를 정확하게 보여주는 유형을 사용하는 것이 중요합니다.

2) y축 수치를 벗어난 라인 차트

정당 지지율을 나타낸 라인 차트(Line Chart)를 보겠습니다. 라인 차트는 시간 흐름에 따른 데이터의 변화를 볼 때 활용하는 유형으로 전체 기간의 추이를 확인할 수 있습니다.

▵ 정당 지지율을 보여주는 라인 차트, 수정 전(출처: 데일리안)

위의 라인 차트에서 12월 3~4일 더불어민주당 지지도(30.9%)가 큰 폭으로 줄어든 것처럼 보이는데요,  왼쪽 y축을 보면 25라는 숫자가 보입니다. 위치가 잘못돼 있음을 알 수 있죠. 

이 사례의 경우 시각화를 제작한 데일리안 측에서 데이터 시각화의 오류를 인지하고 현재는 수정한 데이터 시각화 차트가 업로드돼 있습니다. 수정한 데이터 시각화를 보면 12월 3~4일의 지지도 30.9%가 y축의 30 위쪽에 위치합니다. 31.0%과 30.9%는 정말 작은 차이였네요!

▵ 정당 지지율을 보여주는 라인 차트, 수정 후(출처: 데일리안)

수정된 시각화 차트에서도 아쉬운 점이 있는데요! 이 라인 차트는 더불어민주당, 국민의힘, 열린민주당, 정의당, 국민의당의 상징색으로 라인을 나타내는데, 더불어민주당과 열린민주당의 컬러가 비슷해서 한눈에 구분하기 어렵습니다. 만약 더불어민주당의 상징색 중 하나인 민트색으로 표현했다면 정당을 구분하는데 더욱 직관적이지 않았을까 하는 아쉬움이 있습니다.

2. 면적을 정확하게 나타냈는지 확인하세요!

면적을 가지고 비교하는 두 가지 시각화 유형, 비례도형도(Proportional Shape Chart)와 게이지 차트(Gauge Chart)의 사례를 살펴보겠습니다. 

막대의 길이나 선의 높낮이로 데이터의 크기를 비교하는 막대 차트와 라인 차트에 비해 면적을 기준으로 데이터를 비교하기는 쉽지 않은데요, 인지적으로 데이터의 미묘한 차이까지 구분해 내기 어렵기 때문입니다. 그래서 면적으로 데이터의 크기를 비교할 때는 더욱 주의가 필요합니다. 어떤 오류가 발생했는지 함께 살펴볼까요?

1) 비율을 고려하지 않은 비례도형도

비례도형도는 항목별로 그린 도형의 크기를 바탕으로 데이터의 크기를 비교하는 데이터 시각화 유형입니다. 아래 이미지를 보면 사각형을 가지고 2022년 제8회 전국동시지방선거의 서울시장 후보 지지율을 나타내는데요, 송영길, 오세훈 후보 지지율을 나타낸 사각형의 크기는 동일하게, 권수정 후보의 지지율을 나타낸 사각형은 그보다 작게 표현했어요.

▵ 제8회 전국동시지방선거의 서울시장 후보 지지율을 나타낸 비례도형도(출처: KBS)

각 사각형에 쓰인 레이블(숫자)를 빼고 면적만 본다면 송영길, 오세훈 후보가 같은 지지율을 가지고 있고, 권수정 후보는 이보다 적다고 느껴지는데, 실제 데이터는 오세훈 후보가 49.9%, 송영길 후보는 26.9%, 권수정 후보는 1.8%의 지지율을 얻었습니다. 

어떤 의도로 제작된 시각화인지 정확하게 알 수 없지만, 세 명의 후보 중 두 명만 크게 보여주고 한 명만 차이를 두는 것은 공정하지 않다고 생각합니다. 또, 권수정 후보는 사진도 넣지 않았고요. 만약, 비례도형도로 데이터를 나타내고 싶었으면 비례에 맞게 사각형의 면적에 차이를 두어야 합니다.

▵ 비율에 맞게 재구성한 비례도형도(좌)와 지지율을 직관적으로 보여주는 막대 차트(우) (제작:뉴스젤리)

해당 기사 하단에 있는 여론조사 결과표를 바탕으로 비례도형도(상단 왼쪽)를 다시 그렸습니다. 이 여론조사는 앞서 시각화한 송영길, 오세훈, 권수정 후보 이외에 기타 후보, 없다, 모름・무응답의 문항도 포함돼 있었기에, 재구성한 시각화에는 모든 항목을 다 넣었습니다. 더 많은 유권자의 민심을 파악하기 위해서요!

하지만, 비례도형도처럼 면적을 기준으로 데이터의 차이를 비교하는 것은 쉽지 않은데요, 눈으로 면적의 차이를 정확하게 인식하기 어렵기 때문입니다. 그래서 막대 차트(상단 오른쪽) 유형으로도 재구성해 봤어요.

비례도형도(왼쪽)상 사각형의 면적이 비슷한 권수정, 기타 후보의 데이터 중 어느 후보의 데이터가 더 클까요? 막대 차트(오른쪽) 상 권수정, 기타 후보의 막대에서는 이 차이가 보다 직관적으로 보이지 않나요? 여러분은 어떻게 생각하세요?

2) 온전하지 않은 게이지 차트

두 번째 사례는 게이지 차트입니다. 도형을 나눈 조각의 크기를 기준으로 전체 데이터에서 각 항목이 차지하는 비율을 파악할 수 있는데요, 자동차의 계기판을 닮아 게이지 차트라고 부릅니다. 

▵ 문재인 대통령의 국정 수행 평가 조사 결과를 나타낸 게이지 차트(출처: 전국매일신문)

위 데이터 시각화는 문재인 대통령의 국정 수행 평가 조사 결과를 나타낸 게이지 차트인데 인물 사진에 차트 일부가 가려져 있네요! 어디까지가 시각화 영역인지 정확히 파악하기 어렵습니다. 

우리의 뇌는 자연스럽게 가려진 부분까지 도형이 있다고 인지하는데요, 가려진 부분까지 모름・무응답인 것처럼 인식해서 실제 데이터보다 조각이 더 크게 느껴지는 결과가 생깁니다. 즉, 모름・무응답 비중이 대략 1/3은 차지하는 듯한 느낌이 드는 것이죠!

뿐만 아니라 조사 결과에서 ‘잘못하고 있다’는 답변이 49.8%로 전체(100%)의 반 정도를 차지하는데 현재 상태로 보면 조각의 크기를 잘못 설정한 것인지 아니면 균형이 맞지 않는 게이지 차트인지 알 수가 없다는 점이 문제점으로 보입니다.

▵ 문재인 대통령의 국정 수행 평가 데이터를 재구성한 막대 차트(제작: 뉴스젤리)

앞서 언급했던 것처럼 면적을 가지고 데이터의 크기를 비교하는 것은 쉽지 않기에 막대 차트로 문재인 대통령의 국정수행 평가 결과를 시각화해 봤습니다. 어떤가요? 훨씬 더 직관적으로 이해가 되지 않나요?

레이블의 숫자는 시각화를 더욱 잘 이해하기 위해 활용되는 보조 수단으로 숫자를 보고 데이터의 의미를 받아들이는 것보다 최대한 시각화를 보고 직관적으로 데이터를 이해할 수 있도록 적합한 유형과 시각화 방법을을 사용하는 것이 중요합니다. 

3. 축과 범례가 빠지지 않았는지 확인하세요!

마지막은 축과 범례가 없어 혼돈을 일으키는 세 가지 사례를 보겠습니다. 데이터 시각화를 이해하는데 도움을 주는 축과 범례는 미관상의 이유로 제외하는 경우가 많은데요, 범례와 축이 없으면 어떤 혼란이 생기는지, 범례와 축의 중요성을 보여주는 콤보 차트(Combo Chart), 경사 차트(Slope Chart), 단계 구분도(Choropleth Map) 사례를 확인해 보겠습니다! 

1) 축과 범례가 없는 콤보 차트

콤보차트는 막대와 라인을 함께 사용해서 하나의 차트에 두 가지 지표를 담는 데이터 시각화 유형입니다. (콤보차트에 관한 자세한 내용은 콤보(혼합)차트 그려놓고 부끄럽지 않으려면?을 보면 도움이 될 거예요!)

▵ 역대 대선 투표율을 나타낸 콤보차트(출처: 시사오늘

위 데이터 시각화는 역대 대선 투표율을 보여주는 콤보 차트입니다. 콤보 차트는 두 가지 지표를 나타내기에 왼쪽과 오른쪽에 각각 어떤 데이터인지 알려주는 y 축이 필요합니다. 제목이 ‘역대 대선 투표율’이니 막대는 역대 대선 투표율을 나타내는 것 같은데, 라인은 어떤 데이터인지 알 수 없어요. 본문을 아무리 읽어봐도 라인에 관한 이야기는 없었고요.

또 한 가지, 역대 대선 투표율 데이터도 어디서 가지고 온 것인지 표시하지 않았는데요, 데이터의 출처가 어디인지 명확히 밝혀야 데이터의 신뢰도를 높일 수 있습니다. 선거 관련 데이터인 만큼 선거관리위원회의 선거통계시스템에서 역대 대통령 선거 투표율 데이터와 수치가 일치하는 걸 보니 해당 데이터를 활용한 것을 알 수 있었습니다.

▵ 역대 대선 투표율 데이터를 재구성한 막대 차트(제작: 뉴스젤리)

이번에도 보다 효과적인 시각화를 만들어보기 위해 알 수 없는 라인 데이터를 제외하고 막대 차트를 재구성했습니다. 축과 범례를 넣어 명확하게 표시하고, 크기 이외에 컬러로도 데이터를 구분할 수 있도록 그라데이션을 넣었어요. 컬러가 진할수록 투표율이 높고, 연할수록 투표율이 낮다는 사실을 한눈에 파악할 수 있습니다. 

2) y축과 범례가 없는 경사 차트

이번 사례는 y축과 범례가 없는 경사 차트입니다. 라인 차트와 비슷하게 생긴 경사 차트는 시간에 따른 데이터 변화를 직관적으로 보여주는 데이터 시각화 유형인데요, 라인 차트는 3개 이상의 시점을 표시하는 반면 경사 차트는 정확히 2개의 시점만 표시해서 데이터의 변화를 파악합니다. 

▵ 제20대 대통령 선거의 주요 대선후보 지지율을 나타낸 경사 차트(출처: 시사저널)

윤석열 후보의 데이터를 보면 2022년 2월 6일~8일 지지율은 44.8%고, 2월 20일~22일 지지율은 44.2%로 0.6% 하락했는데요, 이 간격(0.6%)보다 윤석열 후보(44.2%)와 이재명 후보(42.3%)의 격차(2.0%) 간격이 더 좁아 보이네요. 

또, 자세히 보면 이름과 사진은 네 개고, 라인은 다섯 개예요. 윤석열, 이재명, 안철수 후보는 이름과 지지율을 나타낸 레이블, 라인, 사진의 배경과 테두리 컬러가 같은 반면 심상정 후보의 라인, 사진의 배경과 테두리 컬러는 노란색이고 이름과 지지율을 나타낸 레이블은 검정색입니다. 심상정 후보 옆 숫자 2.5가 노란색 라인의 수치인지 회색 라인의 수치인지 불분명한 상황입니다.

하단에는 없음, 그 외, 모름의 수치를 텍스트로 나타냈는데 주요 후보의 지지도만 보여주고 싶었던 거라면 아예 제외하는 게 낫지 않았을까요? 

지지율 데이터를 바탕으로 경사 차트를 다시 그려보겠습니다. 앞서 재구성한 데이터 시각화와 마찬가지로 y축과 범례를 넣어 혼란을 방지했어요.

▵ 제20대 대통령 선거의 주요 대선후보 지지율 데이터로 재구성한 경사 차트(제작: 뉴스젤리)

앞서 시사저널에서 제작한 데이터 시각화와 기울기의 방향이 반대로 달라지는 것처럼 큰 변화는 없으나 y축의 영향을 받아 윤석열, 이재명 후보 데이터를 나타내는 라인의 경사각이 약간 달라졌어요. 2022년 2월 20일 기준 윤석열 후보의 지지율은 전보다 감소했고, 이재명 후보의 경우 증가했지만, 윤석열 후보와 이재명 후보의 지지율 차이를 정확하게 인지할 수 있습니다. 

3) 범례가 없는 단계구분도

마지막으로 투표율, 득표율 등을 나타낼 때 자주 사용하는 단계구분도의 사례를 보겠습니다. 단계구분도는 컬러의 진하기를 기준으로 데이터를 표현하는 지도 시각화 유형입니다. 컬러가 진하게 나타나면 데이터가 크다는 의미예요. 

아래의 데이터 시각화는 단계구분도와 막대 차트를 함께 보여주는데요, 단계구분도를 통해 해당 지역에서 득표율이 가장 높은 후보를 확인할 수 있고, 주변의 막대 차트를 통해 지역마다 후보별 상세 득표 현황을 확인할 수 있습니다. 

▵ 19대 대선의 시도별 득표율을 나타낸 단계구분도(출처: 경향신문)

이 데이터 시각화는 두 가지 유형의 지표를 함께 나타내는 만큼 명확한 구분이 필요한데요, 범례가 없어 지도와 막대에 사용한 컬러가 각각 무슨 의미인지 알기 어렵습니다. 전국 수치를 시각화한 막대 차트를 범례 대용으로 간주한다면 한다면, 지도의 컬러가 더욱 혼란스럽습니다. 즉, 단계 구분도 이 컬러 범례와 막대 차트의 컬러 범례가 각각 필요하다는 의미입니다.

지도 시각화에서 컬러의 진한 정도를 가지고 데이터를 나타내다 보니 막대 차트에서 사용한 유승민 후보의 하늘색이 지도에도 나타나는 것을 볼 수 있는데요. 사실 이는 유승민 후보의 데이터가 아니라, 각 지역에서 1위를 차지한 문재인 후보의 지지율을 나타냅니다. 다른 항목을 의미하는 지표에 같은 계열의 컬러를 사용하면 안 되는데요, 경험적으로 파란색이 짙으면 문재인 후보의 지지율이 높고, 붉은색이 짙으면 홍준표 후보의 지지율이 높다는 사실은 알 수 있지만 정확하게 구분할 필요가 있습니다.

여러 목적의 시각화 차트를 함께 사용할 경우 자칫 혼동될 수 있는 만큼, 목적에 따라 단계구분도와 막대 차트 두 가지 유형으로 나눠 새로운 시각화를 만들었어요.

먼저, 지역별 득표율 1위 후보를 보여주는 단계구분도와 지역별 최다 득표율을 보여주는 단계구분도, 두 가지 시각화를 제작했습니다.

▵ 19대 대선의 지역별 득표율 1위 후보를 나타낸 단계구분도(좌)와 지역별 최다 득표율을 나타낸 단계구분도(우)(제작: 뉴스젤리)

왼쪽 지도 시각화는 지역별 1위 득표율을 차지한 후보를 표현했습니다. 색의 구분을 통해 전국 시도 중 어느 시도에서 어떤 후보가 1위를 했는지 알 수 있습니다. 오른쪽 지도 시각화를 통해서는 색의 진한 정도로 해당 지역의 최다 득표율은 어느 정도인지 알 수 있고, 각 지역에 작성된 후보 이름을 통해 해당 득표율을 차지한 후보가 누구인지 확인할 수 있습니다.

지역별 후보별 득표율은 지도 시각화 옆이 아니라 별도의 이미지에 막대 차트로 나타냈는데요, 전국 득표율을 크게 보여주고 싶어 상단에 큰 막대 차트로 넣고, 시도별 득표율을 하단의 작은 막대 차트로 시각화했습니다.

막대 차트를 보니 어떠세요? 어느 지역에서 어떤 후보의 득표율이 가장 높은지 한눈에 확인할 수 있죠! 시도별 득표율을 보면 홍준표 후보는 광주광역시와 전라남도 지역에서 거의 득표를 하지 못했네요.

목적에 따라서 시각화를 나눠서 표현하니, 데이터의 의미가 더욱 명확하게 보이는데요! 왜 시각화 차트를 만드는지, 어떤 목적에 따라 만드는지 명확하게 인지하고 시각화를 제작할 필요성이 있습니다. 

에디터의 한마디

지금까지 언론 매체에 잘못 노출된 막대, 라인, 지도 등 여러 데이터 시각화 사례를 알아보았습니다. 잘못된 부분을 하나씩 살펴보니, 시각화 제작자가 데이터를 시각화할 때 데이터를 기준으로 하지 않고 그냥 이미지를 보여주는 데 집중해서 만드는 경우가 많은 것 같다는 생각을 했는데요! 오늘 소개한 사례 이외에도 비슷한 오류들을 여러 매체에서 확인할 수 있었기 때문입니다. 

여론조사 결과 등 정치와 관련한 데이터는 전체 판세를 바꿀 수 있을 정도로 큰 영향을 미칠 수 있는데요! 모든 데이터 시각화가 데이터의 의미를 왜곡하지 않고 전달해야 하지만 특히 정치・선거와 관련해서 잘못된 의미를 전달하는 데이터 시각화는 언론이 어느 한쪽에 유리한 방향을 만든다고 생각할 수 있는 만큼 만드는 사람도 보는 사람도 주의를 기울여야 합니다. 

데이터와 데이터 시각화에 관한 궁금증이나 잘못된 시각화 사례를 발견하셨다면 언제든 뉴스젤리에 알려주세요. 여러분의 적극적인 피드백을 기다리고 있겠습니다. 그럼 우리 다음 <데이터 시각화 재구성>에서 또 만나요!

*참고
– ​천금주, “특정 후보에 불리한 실수 수차례 있었다” 손석희 사과 영상, 국민일보, 2017.04.20.
– 조서영, [시사오늘 여론조사①] 이재명 42.9% vs 윤석열 38%…‘안철수 7.7% 약진’, 시사오늘, 2021.12.27.
– 고수정, [데일리안 여론조사] 국민 10명 중 8명 “대선 투표”…문대통령 지지율 39.4%, 데일리안, 2021.12.07. 
– 손서영·임종빈, [여론조사] 지방선거 D-30, 서울 오세훈 ‘우세’…경기·충남 등 ‘접전’, KBS, 2022.05.02. 
– 김윤미, [그래픽뉴스] 문대통령 국정수행, 긍정 47.8%・부정 49.8%, 전국매일신문, 2022.02.21.
– 정진호, [어땠을까] 역대 대선 투표율은?, 시사오늘, 2022.03.08.
– 김종일, 이재명 42.3% 윤석열 44.2%…1.9%p 오차범위 내 접전 [시사저널 여론조사], 시사저널, 2022.02.25.
– 유정인·구교형, 진보, 부산·강원 30년 만에 축배…강남선 ‘부자 동네’ 빼고 압승, 경향신문, 2017.05.10.

본 글의 원문은 여기에서 볼 수 있습니다.

뉴스젤리 브랜드마케팅팀

help@newsjel.ly
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

EU의 애플뮤직 과징금, 플랫폼 규제는 어떻게 이뤄져야 하나

유럽연합이 3월부터 플랫폼 규제를 좀 본격적으로 하고 있습니다. 이번에 대상은 사실 딱 짚어서 애플입니다. 그래서 오랜만에 이 플랫폼 규제에 대한...

디즈니는 왜 거액을 투자했을까?

디즈니가 에픽게임즈의 세계적인 인기 게임 포트나이트에 2조원 정도의 엄청난 투자를 하기로 했습니다. 디즈니는 설명이 필요 없는 회사죠. 전 세계 최고의 콘텐츠 기업이라고 누구나 인정을 하고 있는 그런 기업입니다.

'폰' 대신 '이것' 잘 만들어서 부활한 블랙베리 근황

지금의 블랙베리는 몰락한 기업일까요? 아뇨, ‘자동차 소프트웨어 전문기업’으로 제2의 도약 중입니다. 스마트폰 경쟁에서는 밀렸지만 새로운 길을 찾은 건데요. 블랙베리는 자동차와 IT가 연계된 커넥티드 카(Connected Car)와 자율주행차 시대가 올 것으로 전망하고, 자사의 강점인 보안 기술을 ‘자동차 소프트웨어’에 적용했습니다. 

알리와 테무는 정말 쿠팡에게 위협적인 존재일까요?

현재 중국 플랫폼 관련 이슈를 다루는 기사들 역시, 유사한 함정에 빠져 있는데요. 알리와 테무가 가진 진정한 강점이 중국 내 제조 상품들을 직거래 함으로써 얻는 가격 경쟁력이라는 점을 완전히 간과하고 있습니다.