안녕하세요
스탯티즈 운영팀입니다.
지난 공지에서 약속했던 스포키 내 스탯티즈의 데이터 수치 조정이 마무리돼 이렇게 다시 글을 올립니다.
많은 분들이 공감할 수 있는 데이터를 제공하려다 보니 아무래도 시간이 조금 더 걸렸습니다. 그래도 여러분께 새로운 데이터를 보여드릴 수 있음에 설레면서도 한편으로는 많이 긴장됩니다. 일단 큰 틀과 주요 수치들은 적용을 마무리했으나 일부 오류가 있을 수 있습니다. 이런 부분들은 바로 수정 가능한 것들이거나 프로그램 업데이트가 지연되면서 발생한 가벼운 내용이니 언제든 편하게 게시판에 글을 남겨주시면 바로 반영하도록 하겠습니다.
일단 가장 중요한 이번 데이터 조정의 핵심은 ‘수비WAR 중 수비범위 평가 차이 완화’와 ‘파크팩터 계산법 변경’, 그리고 ‘WAR 계산에 적용되던 상대선수 요인(opponent factor) 과 유효타석 모델 적용 제거’입니다.
이외에도 여러 부문에 대해 검수 과정을 거쳤고, 수많은 고민
끝에 재조정된 수치를 공개하게 됐습니다.
안타깝게도 모든 사람이 만족하는 데이터를 제공할 수는 없습니다. 어떤
스포츠보다 기록이 강조되는 야구이기에 득이 있다면 누군가는 손해를 볼 수밖에 없는 구조입니다. 그런
것까지 마음에 두고 수치를 재조정했고, 최대한 많은 분들의 공감을 얻고자 노력했습니다.
아울러 이번 조정에서 비중이 줄어들게 된 수비 데이터 등 일부 데이터들은 좀 더 객관적이고, 더 높은 활용가치를 가질 수 있도록 고민하고 발전시키겠습니다.
마지막으로 새롭게 바뀐 데이터에 대한 자세한 설명은 아래 내용을 확인해주시면 됩니다. 건의사항이나 질문이 있다면 스탯티즈와 스포키 내에 위치한 게시판에 글을 남겨주세요. 저희가 답을 드릴 수 있는 선에서 최대한 성심껏 설명을 드리도록 하겠습니다.
또 이번 스탯티즈의 데이터 조정과 관련해 바뀐 부분을 영상으로 설명하는 콘텐츠를 준비하고 있습니다. 영상 촬영일자가 잡히면 추후 공지하도록 하겠습니다.
앞으로도 스탯티즈에 많은 관심과 애정 부탁드립니다. 계속해서
국내 최고의 야구 데이터 커뮤니티가 될 수 있도록 노력하겠습니다.
감사합니다
# 스탯티즈 데이터 조정 핵심 내용
1. 시즌
별 파크팩터 특히 홈런, 3루타 등 발생빈도가 상대적으로 낮은 이벤트별 파크팩터의 불가피한 불안정성을
완화하기 위한 계산방법 변경
2. 트래킹데이터가
아닌 영상 기준 데이터에 의존할 수밖에 없는 수비범위 평가의 오차를 완화하기 위해 선수별 편차를 정규화해서 수비범위 평가로 인한 전체 WAR평가 차이 완화
3. WAR계산에 적용되던 상대선수 요인(opponent factor) 과
유효타석 모델 적용 제거
#주요 이슈별 데이터 변화내용과 배경 설명
1. 파크팩터
:
KBO리그는 (고척돔, 사직구장
펜스높이조정 등으로 이전보다 다소 완화되긴 했지만) 홈런 팩터에서 압도적으로 투수친화적인 잠실구장의
존재, 그리고 MLB에 비해 휠씬 적은 10개 팀 체제 등으로 시즌별 파크팩터 값이 매우 불안정한 특징을 갖고 있습니다.
파크팩터는 일반적으로 투수친화-타자친화형으로 구분하지만 타격이벤트에
따라 양상이 각각 다르게 나타나는 경우도 많습니다. 예를 들어 잠실구장의 홈런팩터는 압도적으로 투수친화적이지만 3루타팩터는 더 큰 차이로 타자친화적입니다. 득점팩터 차이는 홈런팩터
차이보다 휠씬 작습니다.
파크팩터는 야구통계에서 중요한 부분이지만 여러 이유로 정확성과 객관성에 한계가 있는 모델입니다. 예를 들면 KBO리그에서는 잠실구장을 두 개 팀이 함께 사용하는데, 어떤 홈팀 기준으로 계산하느냐에 따라 많이 다른 결과가 나오기도 합니다. 파크팩터
계산방식이 구장의 물리적 특성을 충분히 반영하는데 한계가 있다는 뜻입니다. 결국 계산방법에 따라 구장간
차이가 과대평가되거나 과소평가됩니다.
최대한 정확하고 객관적인 방법을 찾아야 하지만 어느 선에서는 전략적으로 판단해야 할 부분이 있습니다. 이번 파크팩터 계산방법 조정에서는 다소 보수적인 방식을 택했습니다. 100%
정확할 수 없고 둘 중 하나를 감수해야 한다면 구장 간 차이 과대평가보다는 과소평가 쪽이 더 낫다고 판단했기 때문입니다. 다음과 같이 변경되었습니다.
해당 시즌 기준 (구장의 물리적 변화가 없는 범위에서) 3년 이동평균을 사용합니다. 이전 방식에서도 이동편균을 사용하지만 대신 해당 시즌에 가중치를 주었는데
새로운 방법은 3년 데이터를 같은 비중으로 반영합니다. 구장에
물리적 변화가 없다면 동일한 구장효과가 나타난다고 가정해야 하기 때문에 이쪽이 더 합리적입니다.
그러면서 사용하는 3년 데이터 범위가 달라졌습니다. 구장 변화로 전년도 또는 다음년도 데이터를 사용할 수 없을 경우, 사용가능한 -2년 또는 +2년 데이터를 사용해서 가급적 모든 구장에서 3년 데이터를 반영합니다.
2루타, 홈런 등
타격 이벤트별 파크팩터 계산의 분모를 경기수가 아니라 인플레이 타석수로 합니다. 파크팩터 적용의 의도는 구장 물리적 특징의 영향을 객관화하자는 것이기
때문에 예를 들어 어떤 경기가 삼진과 볼넷이 많아서 인플레이 상황 자체가 적었을 경우, 그 경기 홈런수가
적다고 해서 홈런팩터가 낮아지는 것은 합리적이지 않기 때문입니다. 분모를 경기수, 타석, 인플레이 타석수 각각으로 테스트했을 때 동일 구장의 연도별
파크팩터 변화에서도 인플레이 타석수를 분모로 한 경우가 약간이지만 더 안정적으로 나타났습니다.
하지만 3년 이동평균으로도 파크팩터는 충분히 안정되지 않습니다. 5년이나 7년으로 확장할 경우 값은 1에 좀더 가까워집니다. 더 많은 데이터를 사용했기 때문에 더 실재에
가까운 값입니다. 하지만 구장에는 크고 작은 변화가 생기기 때문에 현실적으로 이렇게 긴 기간에 대한
데이터를 사용할 수 없습니다. 그런
이유로 최종적으로 적용되는 값은 3년 파크팩터가 5년 이상
충분히 안정될 경우 예상되는 수준으로 조금 더 조정된 값입니다.
새로운 파크팩터가 적용되면서 선수평가스탯에서 구장 간 차이가
이전보다 더 적게 영향을 미치게 됩니다.
2. wRC
다른 조정과 비슷하게 woba, wrc, wrc+ 지표 계산방법도
다소 보수적인 방향으로 변경되었습니다.
woba, wrc를 기반으로
wrc+ 를 계산할 때 적용되는 파크팩터는 득점팩터입니다. (고전적인 방법과 같습니다) 그런데 타자의 공격유형에 따라 파크팩터 효과가 다소 다르게 작용합니다. 예를
들어 잠실구장을 쓰면서 출루보다
홈런 위주의 득점기여를 하는 선수라면 구장 간 차이가 큰 홈런팩터 대신 구장 간 차이가 작은 득점팩터 적용만 받기 때문에 상대적 과대평가가 생길
수 있습니다.
반대로 득점팩터 대신 타격 이벤트별 팩터를 사용할 경우 반대 효과가 생깁니다. 결국 이런 것들이 야구통계의 논점들입니다. 다만 이번 개편이 의도하는
바는 적어도 woba, wrc, wrc+ 지표 까지는 가급적 익숙하고 보수적인 계산방법을 채택해서 wrc+가 시즌, 파크조정된
advanced-OPS 정도 느낌으로 팬들에게 사용될 수 있도록 하자는 의도입니다. woba모델의
본래 취지 역시 그러하다고 생각합니다.
톰탱고 TheBook의
방법과 다른 점은 고의사구 기록 반영입니다. 고의사구는 상황의 경과이지만
부분적으로는 타자의 능력입니다. 또 고의사구 런밸류는 볼넷 런밸류의 절반 수준이기 때문에 이를 포함시키는
것이 더 합리적이라고 판단했습니다.
3. 야수의 WAR
가장 크게는 수비범위 평가가 WAR에 반영되는 비중이 결과적으로
줄어들었습니다. 이는 타구위치 또는 수비수 위치 정보가 충분히 정확할 수 없는 조건의 데이터의 한계를
고려했을 때, 이를 바탕으로 계산된 선수 간 차이가 과대평가되었다는 판단 때문입니다.
이전에 적용되던 비-유효타석
(희생번트, 실책 등 투수-타자의 완전한 승부가
아진 경우) 개념을 더이상 사용하지 않기 때문에 타격이벤트별 런밸류 계산결과(woba가중치)가 미세하게 달라집니다.
도루, 추가진루, 추가진루억제, 포수 블로킹, 병살회피 등은 일부 조정은 있지만 대체로 이전과 같이
반영됩니다. 수비범위와 다르게
경기영상에서 얻는 데이터가 객관성을 가질 수 있기 때문입니다. 또 타격 외 기여평가는 KBO리그
야구통계가 적극적으로 도전해야 할 분야이기 때문에 약간의 부정확성에서 생기는 단점보다 측정, 평가가능한
수준을 반영하는 것의 장점이 더 크다고 판단했습니다.
WAR에는 득점 파크팩터가 아니라 타격이벤트별 파크팩터가 반영됩니다. wRC가 득점파크팩터를 사용할 때 타자의
공격성향별로 과대평가 또는 과소평가가 생길 수밖에 없듯이 WAR에서도 그렇습니다. 대신 파크팩터를 최대한 보수적으로 조정했기
때문에 어느정도 완화되었습니다.
스탯티즈가 생각하는 것은, 타자 평가에서 wrc+ 까지는 가급적 보수적으로 예측가능한 평가를 우선하되, WAR은 ops나 wrc 모델로 평가하지 못했던 선수의 승리기여를 더 적극적으로
반영하는 것이 필요하다는 것입니다. 시행착오가
있었고 그로 인해 일부 이전에 모델을 수정하긴 했지만, 좀더 신중하고 조심스럽게라도 주루, 수비에 대한 평가범위를 넓혀 나가는 시도를 계속해나가려 합니다.
4. 투수의 WAR
타자 WAR에 비해 큰 차이는 없습니다. 큰 변화가 수비범위 평가와 타격이벤트별
파크팩터 변화에서 왔기 때문에 본래 득점 파크팩터 기반으로 계산되고 수비범위 평가가 반영되지 않는 투수WAR에서는
변화가 크지 않기 때문입니다. 득점파크팩터는 타격이벤트별 파크팩터보다 샘플사이즈가 휠씬 크기 때문에
이전 방식의 계산에서도 안정되어 있는 편이고, 그래서 새로운 방식의 계산 사이의 차이가 별로 크지 않습니다.
상대요인(oppeonent factor)는 더이상 사용하지 않습니다.
득점기여 값을 승수 값으로 환산할 때 사용하는 RPW(Runs per Win)에서 변화가 있습니다. 구원투수의 경우 dynamic
rpw(투수마다 각각 다른 RPW를 사용하는 것) 방법을
더이상 사용하지 않습니다.
위 두가지 요인이 WAR
값에 미치는 영향은 그리 크지 않습니다.
다만 dynamic rpw 경우 극단적으로 성적이 나쁜 구원투수의 WAR 평가에 영향이 있습니다.
새로운 지표들은 이전과 다른 경로, 방법으로 계산되기 때문에
기존 홈페이지에 공개되어 있는 중간값, 상수와 불일치가 있을 수 있습니다. 점차 반영합니다.
스탯티즈 WAR는 전체적으로 높습니다. 여러 이유가 있을 수 있지만 주로 대체선수레벨
차이에서 생기는 것으로 보고 있습니다. 대체선수레벨을
결정하는 것은 WAR계산모델에서 제일 까다로운 부분입니다. 대체선수레벨은 그 리그의 선수Pool 상태에
맞춰야 하고 그랬을때 KBO리그는 MLB에 비해 차이가 크고
경계선(war=0에 해당) 선수 레벨에서는 더욱 그렇습니다.
따라서 KBO리그를 기준할 경우 MLB와 비교해서 충분히 낮은 수준으로 설정하는 것이 합리적이며 현재 기준일 경우 대체레벨 선수로 구성된 팀의
승률은 0.230 이 되는 것으로 전제합니다.
끝.