전세계의 모든 산업에서 데이터 분석이 점점 중요해지고 있습니다. 세계적으로 가장 인기 있는 스포츠, 축구도 예외는 아닙니다. 영국과 독일을 중심으로 축구 빅데이터 산업이 발전하고 있는데, 몇몇 축구팀들은 ‘옵타’, ‘후스코어드’ 같은 축구 분석 업체와 함께 선수들의 데이터를 분석해서 좋은 선수를 찾아내기도 합니다. 이번 월간글립 (10월 호) 에서는 데이터들을 활용하는 여러 방법 중에서 ‘상관계수’를 활용하는 방법에 대해서 다뤄보려 합니다. 이를 활용하여 21세기 세계 축구 전술에 큰 영향을 끼친 두 감독 ‘디에고 시메오네’와 ‘펩 과르디올라’가 어떤 특징을 가지고 있는 선수들을 주로 기용했는지 설명드리려 합니다.
본격적인 통계학적 설명에 앞서 두 감독의 축구 전술을 간단하게 살펴볼까요? 시메오네 감독은 흔히 ‘두 줄 수비’라고 하는 강력한 수비 시스템으로 유명합니다. 미드필더 라인에서 조금은 거칠고 또한, 먼저 수비를 한 후에 빠르게 공격으로 전환하는 특징을 가지고 있습니다. 반면, 과르디올라 감독은 패스를 많이 하면서 기본적으로 공을 오래 가지고 있는 것을 중요하게 여깁니다. 그의 축구팀은 흔히 ‘티키타카’로 불리는 한두 번의 터치로 간결하게 패스를 많이 하며 경기를 풀어나가는 축구 철학을 가지고 있습니다. 그러면 이 두 감독의 경기 전략의 차이점을 상관계수라는 통계량으로 파헤쳐볼까요?
그림1. 디에고 시메오네와 과르디올라 (그림 출처: [4], [5])
상관계수란? 두 확률변수 X, Y의 표준편차가 모두 0이 아닐 때, X, Y의 공분산 (수식 (1))을 두 표준편차의 곱을 나눈 수 (수식 (2))이며 Corr(X, Y) 혹은 𝜌로 나타냅니다. (참고문헌 [3]) 이때, 공분산은 두 확률변수 간의 관계를 나타내는 통계량이며 이를 표준화 시킨 것이 상관계수입니다. 따라서, 상관계수는 -1 이상 1 이하의 값을 가지며 구체적인 수학적 증명은 (참고문헌 [3] p.66)에서 자세히 확인할 수 있습니다.
(수식1)
(수식2)
상관계수의 대표적인 성질은 절댓값이 커질수록 (X, Y)의 분포는 점점 직선에 가까워진다는 것입니다. 즉, 상관계수는 두 확률변수 간의 선형적 관계를 나타냅니다. 그림2는 실제 데이터를 활용하여 상관계수에 따라 그래프를 그린 것이며 추세선과 함께 비교해보면 위의 성질을 확인할 수 있습니다.
그림2. 상관계수에 따른 분포
또한, 상관계수는 부호에 따라 양의 상관계수와 음의 상관계수로 나눌 수 있으며 이의 절댓값에 따라 강한 상관관계, 상관관계가 있음, 약한 상관관계로 분류할 수 있습니다. (표1 참고)
표1. 상관계수의 해석
그러면 이제 위에서 선정한 두 감독이 어떤 유형의 선수를 많이 기용했는지 출전 시간과 다른 축구 데이터와의 상관계수를 구해서 알아봅시다. 즉, 위의 상관계수 수식 (2) 에서 변수 X를 출전 시간(단위: 분)으로 고정하고 변수 Y를 각각의 축구 데이터로 설정한 것입니다. 포지션별로 특성이 달라 대표적으로 공격수와 미드필더에 대해서 살펴보았으며 각각의 결과에서 감독별로 상관계수의 절댓값이 가장 큰 세 개의 데이터를 선정했습니다. 우선, 공격수에 대한 시메오네의 팀과 과르디올라의 팀의 결과는 표2, 3과 같습니다.
표2. 시메오네 공격진 표3. 과르디올라 공격진
시메오네의 팀의 경우 골을 많이 넣는 공격수가 출전 기회를 많이 받았습니다. 또한, 적극적으로 슈팅을 시도하여 분 당 슈팅 횟수가 많은 선수를 선호함을 알 수 있습니다. 반면, 과르디올라 감독의 경우 가로채기를 잘하고 앞쪽에서 수비를 잘해주는 선수를 선호함을 알 수 있으며 오히려 공격수들에게는 마무리 능력을 집중적으로 요구하고 어시스트 능력을 크게 요구하지 않음을 알 수 있습니다. 미드필더의 결과는 표4, 5와 같습니다.
표4. 시메오네 미드필더진 표5. 과르디올라 미드필더진
시메오네의 팀의 경우 드리블을 잘 안 하고 패스를 선택하며 태클을 많이 하는 강한 미드필더를 선호하는 반면, 과르디올라의 미드필더는 대부분의 선수가 비슷한 특성이 있어 특별한 경향성이 보이지 않습니다. 대신 분 당 골 수가 적은 선수가 많이 뛰는 특징이 -0.394지만 작게 보입니다.
그런데, 앞에서 언급했듯이 과르디올라의 팀의 색깔은 패스를 많이 하는 것인데 상관계수에서는 이 특성이 왜 나타나지 않았을까요? 여기에서 상관계수의 약점이 드러납니다. 아래의 표는 과르디올라가 맨체스터 시티의 감독직을 맡은 2016-17시즌부터 2019-20시즌까지 리그 내에서 매년 분당 패스 횟수 상위 10명의 선수의 팀 분포입니다.
Table 6. 2016-17시즌부터 2019-20시즌 90분 당
패스 횟수 상위 10명의 선수의 팀 분포
Table 6을 보면, 패스 횟수가 많은 선수 중 맨체스터 시티 소속 선수가 40명 중 15명으로 높은 비율을 차지했다는 것을 알 수 있습니다. 위의 사례에서는 선수들이 패스를 많이 하지만 Table 3, 5에서는 패스에 대한 정보를 얻을 수 없었습니다. 이는 상관계수가 경향성을 나타내는 데 효과적인 통계량이기 때문입니다. 예를 들어, 감독이 선수들에게 분당 5개 이상을 요구하고 그 이후에 6, 7, 8개를 하는 선수들 간에는 큰 차이를 두지 않았다고 해봅시다. 그러면, 패스를 많이 하는 선수들을 모아놓은 팀에서는 선수들이 기회를 받은 시간과 패스 횟수 간의 경향성이 존재하지 않을 수 있으며 이것이 Table 3, 5와 Table 6의 차이입니다.
이처럼, 우리는 수많은 축구 데이터 속에서 감독의 색깔이라는 의미 있는 정보를 얻을 수 있었습니다. 위에서 활용한 상관계수뿐만 아니라 다양한 통계량과 통계 모형 등을 통해 숫자 속에 숨어있는 좋은 정보들을 찾아낼 수 있습니다. 하지만, 상관계수가 모든 특징들을 설명할 수 없었듯이 각각의 분석 방법의 단점들을 다른 분석 방법을 통해 보완하여 조금 더 완벽한 분석에 다가갈 수 있습니다. 이것이 현실을 과학적으로 설명하는 학문으로서 통계학의 매력이라 생각합니다.
[부록: corrplot & ggplot]
과연 앞에 있는 상관계수들을 어떻게 구할 수 있었을까요? 이번 월간글립 10월호 부록에서는 사용한 프로그래밍 언어 R의 corrplot package의 일부 함수들과 tidyverse package의 ggplot에 대해서 소개하고자 합니다.
1) install.packages, library
install.packages를 통해 R의 package들을 설치하고 library를 통해 이를 불러와서 사용합니다.
2) corrplot
corrplot package에 있는 ‘cor’을 통해 지정된 변수 간의 상관계수들을 구할 수 있습니다. 이에 대한 결과를 cor.result에 저장한 것이며, soccer은 데이터 set의 이름입니다. 또한, ‘corrplot’을 통해 결과를 시각화시킬 수 있으며 다음 그림은 cor.result를 출력했을 때의 결과와 원을 이용한 방법, 숫자를 이용한 방법으로 시각화시킨 것입니다.
그림3. 상관계수 시각화
그림3에서 빨간색은 음의 상관계수를 의미하고 파란색은 양의 상관계수를 의미합니다. 두 그림에서 공통적으로 색깔이 진하게 나타날수록 상관계수의 절댓값이 크다는 것을 의미하고 흐리게 나타날수록 상관계수의 절댓값이 작다는 것을 의미합니다. 원의 경우, 원의 크기로도 상관계수의 절댓값이 표현됩니다.
3) ggplot
위의 코드는 ggplot을 이용하여 그래프를 그린 것입니다. 포인트는 크게 4개로 볼 수 있는데 첫 번째는 geom_point입니다. geom_point 대신에 geom_line, geom_hist 등을 이용하여 데이터에 맞는 그래프 유형을 선택할 수 있습니다. 두 번째는 color입니다. color를 통해서 그룹별로 점의 색깔을 다르게 설정할 수 있으며 이를 통해 필요한 정보를 그래프에 표현할 수 있습니다. 세 번째는 theme입니다. 아래의 그래프는 theme_light를 사용했는데 theme_classic, theme_gray 등의 다양한 유형을 선택하여 사용할 수 있습니다. 마지막으로 labs를 통해 그래프의 제목, 부제목, 축 이름을 설정할 수 있습니다.
Figure 4. ggplot을 이용한 그래프 예시
[데이터 출처]
[1] Whoscored.com, https://1xbet.whoscored.com/
*과르디올라: 맨체스터시티 2016-17시즌 ~ 2019-20시즌, 바이에른 뮌헨 2013-14시즌 ~ 2015-16시즌
*시메오네: 아틀레티코 마드리드 2012-13시즌 ~ 2019-20시즌
*리그 내 평균 출전 경기 수 이상 소화한 선수 데이터만 수집 (부상 고려)
[참고 문헌과 그림 출처]
[1] Hadley Wickham & Garret Grolemund, R for Data Science, O’Reilly Media, 2017
[2] Taiyun Wei, <corrplot>, <Rdocumentation>,
< https://www.rdocumentation.org/packages/corrplot/versions/0.84/topics/corrplot>
[3] 김우철, 수리통계학, 민영사, 2012
[4] 맨체스터시티 공식 홈페이지, https://kr.mancity.com/
[5] 아틀레티코마드리드 공식 홈페이지, https://www.atleticodemadrid.com/
Written by GLEAP 9기 이동현
Edited by GLEAP 학술팀·홍보팀
Comments