여기 메뉴에서 스크로을 아래로 옮긴 다음 ‘남자A매치(개인)_A매치 개인 최다 득점 순위(2021.11.17 기준)’ 클릭합니다. 그러면 1위 차범근부터 역대 득점 기준 순위가 테이블 형태로 나오는 것을 볼 수 있습니다.
‘차범근’에 우클릭 후 맨 아래에 ‘검사’를 선택합니다. 그럼 여러분들의 브라우저 우측(또는 하단)에 개발자 도구 화면이 나타나는데, 이 때 좌측 상단에 있는 마우스 포인터로 스크래핑하려는 영역에 마우스 오버하면 개발자 도구에 해당 부분이 음영 처리되는 것을 볼 수 있습니다. 여기에서는 각 선수별 Row 기준 데이터를 불러오기 위해서는 <tr> 영역내 ‘1위’, ‘차범근’, ’58, ‘1976 올림픽 예선 2득점 포함. 2000년 FIFA 승인 기록은 55골’까지 모두 수집해보겠습니다.
‘1위 차범근’ 영역을 가져오기 위해 구글 시트의 ‘남자 A대표팀’ 시트의 A2 셀에 다음과 같이 입력합니다. =importxml("https://www.kfa.or.kr/archive/etc_record.php","//tr[14]/td/table/tbody/tr[1]")
그리고 A1 셀은 ‘순위’ B1셀은 ‘선수’, C1셀은 ‘득점’, D1셀은 ‘비고’로 씁니다. 결과는 다음과 같습니다.
1위뿐만 아니라 전체 영역의 데이터를 모두 수집하고 싶다면 A2 셀을 다음과 같이 변경합니다. =importxml("https://www.kfa.or.kr/archive/etc_record.php","//tr[14]/td/table/tbody/tr[*]")
간단한 시각화 결과물은 다음과 같습니다. 축구공 이미지를 형상화해서 표현해봤습니다.카타르 월드컵 최종예선 이라크 전에서 골을 기록한 손흥민 선수는 A매치 30번째 골을 기록하며 역대 6위이자, 역대 Top 10 선수 중 유일한 현역 선수입니다.
참고로 xpath를 활용한 데이터 수집 같은 경우에는 해당 웹 페이지를 운영하는 곳에서 페이지 개편 등이 있는 경우 이후에는 동일하게 실습이 안될 수도 있으니, 해당 영역을 어떤 식으로 스크래핑할 수 있을지 다양한 사례를 테스트 해보시기 바랍니다.
이제는 더이상 일상에서의 숙박 예약에 갇히지 않고, 여행을 위해 떠나는 사람들에게 여행을 준비하고 향유하는 순간, 모든 과정을 디지털로 전환해주는 여행 플랫폼으로 전환한 것입니다. 사람들은 야놀자를 통해 여행지의 숙소를 예약했을 뿐만 아니라, 여행지에서 무엇을 탈지, 무엇을 즐길지 야놀자 안에서 찾아보기 시작합니다. 그리고 그 키는 야놀자 클라우드에 있었습니다.
알리익스프레스(이하 알리)의 모회사 알리바바그룹이 한국 시장에 향후 3년간 11억 달러(약 1조 4,400억 원)를 투자한다고 합니다. 우선 2억 달러(약 2,600억 원)를 들여, 올해 안에 통합 물류센터를 지을 예정이라 하고요. 한국 셀러의 글로벌 판매 지원에도 1억 달러(약 1,300억 원)를 사용할 계획이라 합니다.
소셜댓글