[스포츠 데이터] 역대 축구 A매치 득점 데이터 수집 및 시각화

2021년 축구 국가대표 A매치 경기가 모두 마무리 되었습니다. 2021년까지 역대 남자 축구 국가대표 A팀의 데이터를 수집 및 시각화 해보겠습니다. 웹 페이지에서 특정한 영역에 있는 데이터를 xpath를 활용해서 스크래핑해 보겠습니다. 

xpath란?

XML Path Language로 XML 문서에서 특정 위치에 있는 값을 찾을 때(경로 지정) 사용하는 언어입니다. 

상위 폴더에서 하위 폴더로 구조화된 요소들을 찾아보겠습니다. 여기에서는 구글 시트에서 IMPORTXML 함수를 활용해서 필요한 xpath 영역을 가져오는 실습을 하겠습니다. 

데이터는 축구협회(KFA)의 데이터를 수집하겠습니다. 

  1. 구글 시트 (Google Sheets)에서 새로운 스프레드시트를 오픈합니다.

  1. 새로운 시트의 이름을 ‘역대 대한민국 축구 A대표팀 득점 순위’로 입력합니다. 

  1. 하단의 시트 이름을 ‘남자 A대표팀’으로 변경합니다.

  1. (다음부터는 가급적 IE 대신 크롬이나 파이어폭스 또는 웨일 브라우저 등을 사용하실 것을 추천 드립니다.) 여기에서 KFA 홈페이지의 ‘아카이브’ > 기록실 > 각종 기록실 페이지로 이동합니다. 이 곳의 URL은 ‘https://www.kfa.or.kr/archive/etc_record.php’입니다.

  1. 여기 메뉴에서 스크로을 아래로 옮긴 다음 ‘남자A매치(개인)_A매치 개인 최다 득점 순위(2021.11.17 기준)’ 클릭합니다. 그러면 1위 차범근부터 역대 득점 기준 순위가 테이블 형태로 나오는 것을 볼 수 있습니다. 
이미지 출처 : KFA 홈페이지
  1. ‘차범근’에 우클릭 후 맨 아래에 ‘검사’를 선택합니다. 그럼 여러분들의 브라우저 우측(또는 하단)에 개발자 도구 화면이 나타나는데, 이 때 좌측 상단에 있는 마우스 포인터로 스크래핑하려는 영역에 마우스 오버하면 개발자 도구에 해당 부분이 음영 처리되는 것을 볼 수 있습니다. 여기에서는 각 선수별 Row 기준 데이터를 불러오기 위해서는 <tr> 영역내 ‘1위’, ‘차범근’, ’58, ‘1976 올림픽 예선 2득점 포함. 2000년 FIFA 승인 기록은 55골’까지 모두 수집해보겠습니다. 
개발자 도구에는 다양한 정보를 수집할 수 있습니다.
  1. ‘1위 차범근’ 영역을 가져오기 위해 구글 시트의 ‘남자 A대표팀’ 시트의 A2 셀에 다음과 같이 입력합니다.
    =importxml("https://www.kfa.or.kr/archive/etc_record.php","//tr[14]/td/table/tbody/tr[1]")

  1. 그리고 A1 셀은 ‘순위’ B1셀은 ‘선수’, C1셀은 ‘득점’, D1셀은 ‘비고’로 씁니다. 결과는 다음과 같습니다. 

  1. 1위뿐만 아니라 전체 영역의 데이터를 모두 수집하고 싶다면 A2 셀을 다음과 같이 변경합니다.
    =importxml("https://www.kfa.or.kr/archive/etc_record.php","//tr[14]/td/table/tbody/tr[*]")

  1. 간단한 시각화 결과물은 다음과 같습니다. 축구공 이미지를 형상화해서 표현해봤습니다.카타르 월드컵 최종예선 이라크 전에서 골을 기록한 손흥민 선수는 A매치 30번째 골을 기록하며 역대 6위이자, 역대 Top 10 선수 중 유일한 현역 선수입니다. 

참고로 xpath를 활용한 데이터 수집 같은 경우에는 해당 웹 페이지를 운영하는 곳에서 페이지 개편 등이 있는 경우 이후에는 동일하게 실습이 안될 수도 있으니, 해당 영역을 어떤 식으로 스크래핑할 수 있을지 다양한 사례를 테스트 해보시기 바랍니다. 

데이터 수집 및 시각화 어렵지 않습니다!

원본은 여기서 볼 수 있습니다.

필자는 데이터 시각화 전문 기업 BigxData에서 데이터 시각적 분석 전문가로 활동하면서, 데이터에 스토리텔링을 입히는 일을 주로 하고 있습니다.   

저서로는 ‘데이터 시각적 분석 태블로로 끝내기’, ‘태블로 굿모닝 굿애프터눈’이 있습니다.
다양한 데이터 시각적 분석 예시는 저자가 운영하는 유튜브 채널 (http://bit.ly/YT_MDV)에서 만날 수 있습니다.

강승일

viztabviz@gmail.com
기자의 다른 기사보기
저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지

관련 기사

브랜딩보다 제품과 조직 문화 개선이 우선입니다

실제 유저가 말하는 커리어리와 퍼블리에 대한 단상. 이번에 비평할 대상은 바로 '퍼블리'라는 조직과 이들이 만드는 서비스인 '커리어리'와 '퍼블리 멤버십'이다.

포켓몬 빵과 NFT 연관성

생각보다 포켓몬 빵과 NFT 프로젝트는 유사한 점이 많다. 사람들이 구매하는 이유를 입에 담지 않는 마케팅 방식, 처음에는 동등하게 희귀한 이미지를 얻을 수 있다는 랜덤함, 그 희귀함이 가치를 만들어 수익까지 만들어 낸다는 점 등 생각보다 NFT 프로젝트와 포켓몬 빵은 비슷한 점을 많이 가지고 있다.

호환마마보다 무서운 인플레이션이 옵니다

아마존이 준 충격이 가시기도 전에, 이번에는 월마트와 타깃마저 올해 1분기 '어닝쇼크'를 기록하며 무너졌습니다. 아마존의 부진 원인은 리오프닝 시대로 전환되면서, 성장성이 떨어진 것이었는데요. 그렇다면 오프라인 기반의 리테일 기업인 월마트와 타깃의 실적은 뭐가 문제였을까요?

지구의 마지막 경고, 그 많던 꿀벌은 어디로 갔을까?

꿀벌들의 미래에 농업의 미래가 달려있고, 인간의 미래 또한 함께 할 것으로 예측된다. 꿀벌의 실종은 지구가 인간에게 하는 마지막 경고로 받아들여야 할 것이다.