오늘 연구소에서 있었던 세미나를 정리하고자 한다. 오늘의 강연자(Arlene Birt)는 어린 시절 일화로 강연을 시작하였다.

공학자이고, 과학자였던 그의 부모님이 항상 그의 주장에 “see data”라는 말로 대화를 풀어가셨다고 한다. 그래서 그는 어린 시절부터 이러한 환경에 익숙했는데, 커가면서 다른 가족 구성원이 “data”에 초점을 맞출 때 “see”에 초점을 맞추게 되었다고 한다.

강연을 들으면서, 대부분은 알고 있는 내용이었지만, 반대로 이야기하면 내가 아는 걸 모두가 안다고 가정하고 있었다는 자각이 생겼다. 그래서 그 내용들을 공유해야겠다는 생각도 들어, 글을 정리한다.

시각화를 시초를 논하면서 GIS의 시초와 연결지어 볼 수 있다. 지도라는 것이 결국 시각화의 일종이니까 타당한 주장이라고 생각한다. 19세기 중반 영국에서 집단 발병한 콜레라 발생의 원인을 찾기 위해 John Snow가 지도에 사망자 수를 표시하고, 이를 바탕으로 많은 사망자가 발생한 중심지에 우물이 있었다는 걸 발견했다는 예시였다. 두번째 예제는 비슷한 시기 좀 더 다양한 정보를 담고 있는 지도로 나폴레옹이 러시아 침공 과정에서 군인 수의 변화를 시각화한 것이었다. 군인 수를 지도 위에 플로우 차트로 표시하면서, 아래쪽에 중간 기착점에 도달했던 시간과 온도를 같이 도시함으로써 다수의 군인이 사망한 이유를 설명하고 있다.

우선 시각화 자료는 numerical과 narrative로 구분되는데, 오늘 세미나가 전자에 방점이 찍히기도 했고, 나 역시 전자에 훨씬 관심이 많으므로 전자에 대해서만 논의를 이어가겠다. 수치형 자료는 그 구성에 따라, 막대그래프, 파이차트, Stacked Bar chart, 버블차트, 분산형 그래프 등으로 그릴 수 있다.

막대 그래프는 가장 널리 쓰이고 있기도 하고, 오용되는 사례도 너무 많아서, 이것만 따로 다뤄야지 생각한 적이 있다. 기본적으로 막대 그래프의 막대는 비교를 위한 전체 양을 대표하므로, 세로축이 0에서 시작해야 한다. 특수한 경우 물결표시 같은 걸 이용할 수 있지만 좋지 않은 사용예이다. 그리고 막대 끝을 비교할 수 있어야 하므로, 막대 끝(위쪽)에 데코레이션을 삼가하자.

파이차트는 비율의 차이가 분명할 때 써야 하고, 12시를 중심으로 오른쪽에 첫번재, 왼쪽에 2번째 큰 항목이 오도록 배치하고 나머지는 시계방향 순으로 정렬하는 것이 베스트 프랙티스이다. 그리고 3차원은 절대 이용하지 말 것. 그 크기를 가늠하기 어렵고, 장점이 전혀 없다. 그저 MS의 개발자가 3차원 모델링을 할 줄 안다고 넣어놓은 기능일 뿐이다.

파이차트와 유사하게 도넛 그래프가 있는데, 도넛을 펼쳐놓으면 중첩형 그래프가 된다. 중첩형 그래프는 내부 비율을 비교하기 위해서 쓰기 적합하며, 비율끼리 비교하는 경우에 쓰기에 적합하다.

분산형과 버블차트는 2-4개의 항목이 서로 묶여 있을 때 표현하기 적합한 그래프이다. 흐름이나 관계를 설명하기 위해 좋은 그래프로 Sankey 그래프가 있고, Chord diagram은 그림은 예쁘게 나오나, 일반 독자들이 이해하기 어려워한다는 단점이 있다. 이외에 Treemap 역시 유용한 툴이며, Pictogram chart도 스토리텔링을 위해서 많이 쓰이는 방법 중 하나이다. 그리고 선거와 같이 면적보다 인구수가 더 중요한 경우는 cartogram를 이용할 수 있다.

관련 링크