테이블세터들의 단타가치에 대한 고찰.

리드오프로 나온 1번타자가 안타를 치고 1루로 출루한다.

이 안타의 득점으로 환산한 가치는 어느 정도나 될까? 

2002년 메이저리그 데이터를 근거로 했을 때, 0.385점이다.

무사 주자없는 상황의 득점기대치는 0.511, 무사 주자 1루 상황의 득점기대치는 0.896.

그 차이인 0.385가 이 안타의 가치가 되는 것이다.

그러나 이것은 어디까지나 2002년 메이저리그 전체의 평균일 뿐이다.

 

피긴스나, 이치로, 데릭 지터와 같은 최정상급 리드오프타자가 안타를 치고 1루에 있는 상황과, 마츠이나 오르티즈와 같은 발느린 지명타자들이 안타를 치고 1루에 있는 상황을 비교해봤을 때, 어느 쪽의 안타의 득점기대치가 높겠는가?

발이 빠른 타자가 루상에 있을 때 보다 득점하기 용이하므로 당연히 전자의 경우의 득점기대치가 높아질 것임은 분명하다.

점수가 꼭 필요한 상황에서 대주자를 기용하는 것도, 발 빠른 주자를 기용함으로서 찬스에서의 득점기대치를 높이려는 의도가 있는 것이다.

똑 같은 무사상황에 터진 선두타자 단타로, 메이저리그 평균치로 봤을 땐, 같은 0.385점의 득점기대치이지만, 명확한 주루능력의 차이 때문에 실제 득점기대치에서는 차이가 나는 것이다.

 

쏘왓은 루상의 주자를 진루시키는 면에서 이치로의 단타가 메이저리그 평균에 미치지 못한다고 하여, 그의 단타는 xr에서 부여하고 있는 가치값 0.5에 미달한다고 주장했었다.

이는 단순히 이치로의 안타만을 폄하하고 있는 것은 아니다.

그런 식의 논리라면, 발군의 장타력을 가진 리드오프로 각광받았던 헨리 라미레즈의 경우도, 그의 단타의 가치는 메이저리그 평균에 미치지 못한다.

이전의 글에서도 밝혔지만, 주자 2루상황에서의 타점수를 근거로 단타에 의한 선행주자 진루효과를 알아냈다는 쏘왓의 방식을 그대로 써보면, 헨리 라미레즈의 단타의 경우도 치프안타가 된다.

루상의 주자를 보다 멀리 진루시키는 것에는 주자의 주루능력도 관계되어 있다는 것을 깡그리 무시한, 최대한 변수를 억제하여 계산하여 서둘러 결론을 얻어내려한 것의 결과일테지만..

 

타자가 안타를 치고 나가면, 이번엔 타자가 아니라 주자가 된다.

득점기대치란, 어느 특정 아웃카운트, 주자상황에서 안타가 나왔을 때, 그 이닝이 종료된 후 얼마만큼의 득점이 창출되었는가라는 것을 근거로 안타의 가치를 정하는 회귀분석법에 의한 것이다.

따라서 어느 한 선수를 특정하여 이 선수의 안타가 얼마만큼의 가치가 있는지를 평가하기 위해서는, 안타를 치고 나간 그 타자가 루상에 나가 주자로서는 얼마나 훌륭하게 팀득점을 올리는데 주루플레이를 통해 기여했는지도 역시 포함되야 하는 것이다.

 

발이 빠른 타자들의 단타의 경우 발이 느린 타자라면 절대 안타가 될 수 없을 짧은 단타가 차지하는 비중이 클 수 밖에 없다.

그래서 자연히 단타하나가 루상의 주자를 얼마만큼 진루시킬 수 있는가라는 것을 따진다면 당연히 평균치보다 떨어질 수 밖에 없을 것이다.

그러나 그렇게 안타를 만들어낸 발은 루상의 주자가 되었을 때 후속타자가 친 안타의 루상의 주자 진루효과에 플러스 요인이 되면서 결국 팀의 득점가능성을 올려준다.

그러므로, 이닝 종료시의 획득된 평균점수를 토대로 안타의 가치를 매기는, 회귀분석법을 활용한 xr의 안타가치판단 기준으로 볼 때, 그 안타의 가치속에는 빠른 발을 통해 만들어낸 팀득점에 대한 기여도 역시 포함되는 것이다.

 

지금 생각해보면, xr의 개발자가 쏘왓이 의문을 품었던 부분을 생각하지 못하지는 않았을 것이다.

그러나 그런 부분들을 상쇄하는 여러요소들, 특히 빠른 발을 가진 타자들이 만들어내는 짧은 안타탓에, 이런 타자들의 단타의 루상의 주자 진루효과는 떨어지지만, 그대신 안타를 치고 나가 주자가 되었을 때 그 빠른 발을 통해 후속타자의 안타당 루상의 주자 진루효과를 업시켜주는 부분이 있기에 생각해볼 수 있는 상쇄효과, 분명 이것에 대한 고려가 있지 않았을까 하는 생각이 든다.


덧글

  • sayuksin 2010/01/26 10:52 # 삭제 답글

    국진님의 글중에 잘못된 것들이 좀 있네요.

    0.385의 가치는 그것을 얻어낸 타자의 것이죠. 후속타자는 후속타자의 행위후 변화된 득점 기대치로 평가하면 되죠. 이것은 리그평균과 비교하여 +,-가 매겨지는 것이고, 만일 XR,RC처럼 득점과 관계하여 평가할 때는 원래의 기대득점 0.511을 후속타자들과 나눠가지는 것이 되겠죠.

    피긴스가 안타시 추가진루율이 이치로보다 17% 높다고 해서 이치로보다 좋은 주루플레이어라고 보긴 힘듭니다. 이건, 쏘왓님이랑 비슷한 오류인데, 플러스 적인면만을 보지 말고, 마이너스적인 면까지 같이 봐야 합니다. 피긴스는 4075타석에서 OOB가 80이고, 이치로는 6607타석에서 56번입니다. 이치로의 출루율이 1푼5리 높다는 점을 생각해 보면, 둘의 차이는 더 벌어지겠죠.

    피긴스가 단타나, 2루타시 추가진루율이 17% 높음으로 해서 76.5베이스 더 진루했지만, 그는 과감한 리드,주루플레이로서 추가적으로 35번을 더 아웃당하였습니다. 주자의 아웃은 한베이스 진루하는 것보다 몇배의 마이너스 가치를 가집니다.

    여러가지를 말씀하셨지만, 기본적으로 타자의 임무는 득점이 많이 나는 상황을 최대한 만들어 가는 것이기 때문에, 고의사구가 폄하되거나 주자상황시 잘 못 불러들인다거나 하는 것은 편협한 사고이죠. 예를들어, 1사 주자 2,3루에서 고의사구 10번 나가는 것이, 10타수 4단타 보다 팀 득점을 더 높여줍니다. 1사2루에선 고의사구 2번이 2타수 1단타보다 더 좋구요.

    타점이 중요한 게 아닙니다. 최대한 득점이 많이 날 수 있는 상황을 만드는 선수가 좋은 선수입니다. 배리본즈가 고의사구 230개이고 푸홀스보다 타점이 훨씬 적었지만, 배리본즈가 훨씬 가치있는 선수이듯 말이죠.
  • sayuksin 2010/01/26 10:55 # 삭제 답글

    피긴스의 추가적인 35번의 아웃은 단순히 이치로의 타석대비 OOB로 계산한 것이고, 이치로의 출루율이 높은 점을 감안하면, 35번 이상의 아웃이겠네요.

    피긴스는 이치로보다 공격적인 주루플레이로 더 많이 진루했지만, 또한 더 많이 아웃당한 것이지요.
  • 안국진 2010/01/26 12:36 # 답글

    sayuksin// 1. 득점기대치의 정의상 0.385의 가치는 출루한 주자와 후속타자들이 합작해서 얻어낸 것입니다. 여기에서 0.385가 순전히 출루한 주자가 얻어낸 것이라고 주장하시려면 사용하신 모델과, 모델이 정확하다는 증명과, 그 모델에 따르면 후속타자 0.385의 가치에 대한 기여분이 0이라는 걸 증명하셔야 됩니다.

    2. 안됐지만, 피긴스에 대한 이야기도 틀리셨습니다. 이치로는 803번의 기회중에서 14번의 아웃을 당하면서 337개의 추가 진루를 얻어냈고, 피긴스는 450번의 기회중에서 14번의 아웃을 당하면서 267개의 추가 진루를 얻어냈습니다. 피긴스의 수치를 이치로와 맞추면 총 10.98번의 추가 아웃과 139.45루를 맞바꾼 셈이 됩니다. 오류가 난 부분은 OOB의 정의 때문인데, OOB의 정의상 후속타자의 안타시에 발생하는 주루사만을 의미하지 않기 때문에 발생하는 겁니다. 그 외에도 추가진루의 가치가 아웃에 의한 손해보다 꼭 작은 건 아닙니다.

    3. 고의 사구의 가치는 그런식으로 단순하게 나타낼 수 있는 게 아닙니다. 극단적인 예로 후속 타자들의 타율이 0할, 출루율 0할이면 고의사구로 10번 나가봐야 아무것도 못 얻습니다만, 단타면 타점을 올릴 가능성이 있으니까요. 결국 고의 사구가 얼마나 가치를 지니는가는 후속타자에 의해서 결정납니다.

    4. 최대한 득점이 많이 날 수 있는 상황을 만드는 선수가 좋은 선수인건 맞습니다만, expected runs matrix에서 나오는 값이 높다는 것과 득점이 많이 날 수 있는 상황이라는 건 또 다른 이야기입니다.
  • wizard 2010/01/26 21:05 # 삭제

    0.385는 안타가 나오기전 득점기대치를 안타가 나온후의 득점기대치에서 뺀 득점기대치증가분으로 안타를 친 타자의 공헌도입니다. 님 말대로 득점기대치는 여러선수가 함께 올려가는 것인데, 그중에서 한 선수가 얼마만큼의 공헌을 하였는지 알아보기 위해 득점기대치의 증가분을 구하는 거구요. 다시한번 말씀드리지만 0.385는 득점기대치가 아니라 득점기대치 증가분입니다. 헷갈리지 마세요.
  • wizard 2010/01/26 21:16 # 삭제

    그리고 님에게 아쉬운 것은, 제 글의 주된 논지는 뒷전이고 트집잡는데만 신경을 쓰는 태도입니다. 제 글의 논지는 같은 주자상황이더라도, 루상의 주자의 주루능력에 따라 평균득점은 비례한다는 매우 상식적인 이야기에서 출발한 겁니다.
    xr에서의 기본전제는 메이저리그 평균 데이터를 활용하는 것이죠. 즉 메이저리그의 평균데이터를 가진 가상의 타자를 통해 득점기대치를 구하는 것입니다.
    그런데 쏘왓이 사용한 방식은 이 평균적인 타자대신 이치로를 대입하여 직접적으로 그의 안타가치를 계산하려고 한 것이죠. 이렇게 되었을 때 고려해야 될 변수는 상당히 많아지죠. 메이저리그 평균이라면 문제가 되지 않지만, 각 개인의 타자의 경우 많은 변수가 존재하기 때문이죠. 이 중 쏘왓은 편리하게 루상의 주자를 얼만큼 단타로 진루시켰는가 하는 점만에 국한했던 거죠.
    저도 이 방식을 그대로 써서, 평균적인 타자대신 발이 빠른 테이블세터타자를 대입했을 때 그 주루능력이 득점기대치에 미치는 영향을 말한 겁니다.
    테이블세터는 일단 평균적인 타자들보다는 발이 빠르겠죠? 따라서 같은 주자상황이라 하더라도 평균적인 타자가 루상에 있을 떄보다는 득점기대치가 높겠죠? 그렇다면 한 선수의 안타가치를 알려주는 득점기대치의 증감분도 높아지겠죠?
    이것이 제 글의 핵심논지인데, 엉뚱하게도 님은 이치로와 피긴스, 헨리 라미레스간의 주루능력의 우열문제로 본질을 흐리고 계시네요.
    전 본문에 이런 비교는 일절 하지도 았았고, 할 생각도 없었는데 말이죠. 좀 당황스럽습니다.
  • 안국진 2010/01/26 23:04 #

    헷갈린 적 없습니다. 득점기대치 증가분 아니라고 한 적 없습니다. 득점기대치의 정의상 득점기대치의 증가분에도 후속타자의 기여도의 기대치가 포함될 수밖에 없다는 겁니다. 혹시 득점기대치의 뜻을 모르시는 건가요?

  • 안국진 2010/01/27 00:12 #

    wizard님이 말씀하신 주요 논지에 대해서 할 말이 있는데, 지금 시간이 없으니 이건 나중에 들어와서 정리해서 말씀드리겠습니다.
  • 안국진 2010/01/27 10:14 #

    주된 논지라는 말을 쓰셨는데, 님이 주장하신 주된 논지와 글에 쓰여진 논지가 일치하지 않습니다. 테이블세터가 메이저리그의 평균보다 주루에 도움을 준다고 하셨는데, 님이 원글에서 제시하신 건 "마츠이나 오르티즈"입니다. 제가 독심술을 하길 바라시는게 아니라면 그런 부분을 구체적으로 제시해주셔야 됩니다. 테이블세터의 평균과 전체 타자 평균인지, 아니면 각 테이블세터와 전체 타자 평균인지요.

    두번째로 님이 제시하신 주된 논지만으로는 님의 주장을 뒷받힘할 수 없습니다. 님이 주장하신 것처럼 안타에 의한 선행 주자의 진루효과(A)와 출루했을 때 주루플레이에 의한 효과(B)가 상쇄되려면, 언제나 A+B가 일정해야 됩니다. 즉, A와 B가 동시에 높거나, A와 B가 동시에 낮거나, A는 평균인데 B는 높은 등의 데이터가 거의 없어야 합니다. 심지어 이게 성립을 안하면 회귀분석에서 안타의 가치에 A, B에 대한 고려가 포함되지 않을 확률이 높습니다. 그리고 그 A+B가 일정하지 않다는 점은 제가 이미 데이터로 제시했고요.

    세번째로 그 제시하신 주된 논지조차도 그걸 지지하는 데이터가 포함되어 있지 않습니다. 전부 "상식"이나 아니면 당연할거라고 가정하시는데, 이건 매우 나쁜 태도입니다. 일단 상식이나 그런 머리속에서 생각한 가정은 많은 경우 실제 데이터와 맞아떨어지지 않습니다. 그리고 데이터가 제시되었을 때는 계산 방식을 보고 논지의 불명확한 점을 추측할 수 있기 때문입니다.

    네번째로 전 이치로와 피긴스, 헨리 라미레스간의 주루능력의 우열문제를 다룬 적이 없습니다. 제가 왜 그 데이터를 꺼내들었는지 이해를 못하시기 때문에 이런 소리를 하시는 건데 주루능력의 우열이 중요한게 아니라 이치로나 피긴스같은 극단적으로 다른 케이스가 존재하기 때문에 님이 주장하시는 분석방법이 안먹힌다는 걸 이야기한 겁니다.

    다섯번째로 쏘왓님에 대한 비판부분에서 사용하신 근거는 wizard님이 회귀분석에 대해서 전혀 이해를 못하고 계신 셈이 됩니다. "메이저리그 평균이라면 문제가 되지 않지만" 이거 문제가 됩니다. 가장 중요하게 영향을 미치는 변수들을 집어넣었고, 그리고 대부분의 타자(팀)들이 엇비슷한 패턴을 따르기 때문에 오차가 크게 나타나지 않는 것 뿐입니다.

    여섯번째로 쏘왓님이 사용하신 방법을 그대로 사용하셨다고 했는데, 제가 보기에는 완전히 다른 방법입니다. 실제로 쏘왓님은 굉장히 많은 데이터를 기반으로 하고, 그 데이터의 정의를 꽤나 충실히 이해하고 사용합니다. wizard님의 대부분의 경우 데이터없이 "상식"이라는 이름하에 자신이 가진 이미지를 가정하거나, 아니면 데이터를 사용하는 경우에도 데이터의 정의상 사용할 수 없는 방식으로 사용해서 결론에 끼워맞추고 있습니다.
  • wizard 2010/01/28 00:27 # 삭제

    대단히 죄송한 이야기지만, 득점기대치와 득점기대치의 증감분의 개념조차 확실하지 않은 님을 보면서, 제가 아무리 이야기를 한들, 거리를 좁히기 힘들다는 느낌을 강하게 받았습니다.
    이것이 흔들려버리면 절대 제가 펼친 논지를 이해하긴 힘들거든요.
    확실하게 먼저 득점기대치관련된 여러개념에 대해서 알기쉽게 포스팅할 필요성을 느겼습니다.
    아뭏튼 저의 글에 관심을 가져주시고 댓글 달아주신 것은 고맙게 생각하겠습니다.
  • 안국진 2010/01/28 00:56 #

    어이없군요. wizard님이 틀리지 않고 제가 틀렸다는 말의 근거는 뭔가요? 제가 득점기대치와 득점기대치의 증감분의 개념조차 확실하지 않다는 근거는 뭔가요? wizard님은 득점기대치와 득점기대치 증감분 이전에 기대치의 개념은 제대로 이해하고 계신가요? 지금 하신 말씀을 보면 기대치의 정의조차 몰라서 헷갈리고 있는게 뻔히 보이는데요.
  • sayuksin 2010/01/26 13:31 # 삭제 답글

    1.여기서 가정하는 것은 리그평균 타자에 비해 얼마나 가치있는 행위를 하였느냐 하는 것입니다. 0.385는 해당선수 후에 리그평균 타자가 나온다는 가정이지요. 선수의 가치는 그를 대체할 선수와의 비교에서 오는 것입니다. 여기서 따지는 것이 RC,XR같은 수치에서 이치로는 리그평균적인 선수보다 얼마나 짧은 안타를 많이 치느냐.... 하는 것이 주된 요지구요. 때문에, 후속타자를 리그평균으로 보아 해당 타자가 생산해낸 가치는 0.385 로 보는 것이 옳습니다.

    2.OOB는 베이스에서 아웃된 모든것을 말합니다. 피긴스가 리드를 많이 하거나 과감한 주루플레이로 많이 아웃당한 것을 모두 포함하지요. 님은 단지, 주루했을때 당한 아웃만 따지는데, 그에 따른 기회비용을 생각지 못하시는군요. 가령, 피긴스가 리드를 많이 해서 OOB가 늘어났더라도, 님은 리드를 많이 해서 안타시 추가진루하는데에 이득본 것만 생각하는 것입니다.

    추가진루가 아웃에 의한 손해보다 큰 경우는 1점승부라던가 아주 극히 드문 경우겠지요. 전체적인 평균가치를 따져야지, 극히 드문 경우를 따지는 것은 별 의미가 없습니다.

    3.여기서 생각하는 것은 후속타자는 리그평균적인 선수라는 가정에서 출발하기에 님의 세세한 가정은 쓸데없는 생각일 뿐입니다.

    4.기대득점은 수년간의 MLB상황별 얻어진 득점을 말합니다. 타자의 임무는 아웃을 적게 당하면서 많은 진루를 하는 것이고, 그것은 곧 득점을 많이 날 수 있는 상황을 만드는 것을 의미합니다.
  • 안국진 2010/01/26 23:37 #

    1. 위에 설명한 것을 참조하시고요.

    2. OOB는 베이스에서 아웃된 모든 것을 말합니다. 따라서 OOB에 의한 손해를 계산할 때는 그선수의 주루플레이 모두에 의한 이득도 포함해야 됩니다. sayuksin님은 후속타자가 안타를 쳐서 추가 진루가 가능한 상황에서의 이득만 포함한 수치과 OOB 전체에 의한 손해를 비교하고 있습니다.

    그리고 추가진루가 아웃에 의한 손해보다 큰 경우는 상당히 흔합니다만. 예) 1사에 주자가 3루, 플라이 볼 상황.

    3. 제 말은, 고의사구는 후속타자가 리그평균적인 선수라는 가정하지 않기 때문에 후속타자가 리그평균이라고 가정하고 하는 분석이 틀렸다는 겁니다.

    4. 구체적으로 하고 싶은 말씀이 무언지요? 제 말에 반박하는 부분은 하나도 없는데요.
  • wizard 2010/01/28 01:02 # 삭제 답글

    득점기대치라는 개념을 전제로 할때, 어느 한타자의 타격을 통해 이루어진 득점기대치의 변화량이 그 선수의 득점기대치에 대한 영향분이 아니라고 하는 것은 또 무슨 말씀이신지.. 어느 한 사람이 10000원인 돈을 20000원으로 불렸을 때, 그가 번돈이 10000원인 것처럼 아주 상식적인 이야기 아닌가요?
    한 선수가 얻어낸 타점은 득점기대치란 개념을 통해 그 타점에 공헌한 선수들에게 그 가치가 돌아갈 수 있는 것인데, 그 나눠진 가치가 바로 득점기대치의 증감분이구요.
    차라리 득점기대치 자체를 부정하시죠. 정말 기가 막혀 웃음이 나올 뿐입니다. 님은 매우 기초적인 부분부터 개념의 혼란을 겪고 계십니다. 다시한번 득점기대치를 공부하시고, 오십시요. 원하신다면 득점기대치에 대해 기초부터 설명해드릴 용의가 있습니다.
    제가 참고했던 텍스트들이 있으니까요.
  • wizard 2010/01/28 01:42 # 삭제 답글

    님이 무슨 생각을 하시는줄은 잘 알겠습니다. 득점기대치란 결국 현실화된 점수가 아니므로, 후속타자의 도움이 없으면 점수화 될 수 없는 것이니, 온전히 그 선수의 몫은 아니란 말씀이시죠?
    그런데, 득점기대치에서는 평균득점을 활용하고 있다는 것을 좀 염두에 두시기 바랍니다.안타를 쳤을 때 그 안타이후, 후속 타자의 활약여하에 따라 그 나올 수 있는 점수는 다양하겠죠. 그런데 평균적으로 계산해보니 몇점이 나오므로, 그 평균점수를 득점기대치로 정한 것이죠. 이게 회귀분석이라는 것이고, 득점기대치의 기 본개념이며, xr의 기본이기도 합니다.
    님은 근본적으로 득점과 직접적인 관련은 있는 요소들을 이닝 종료시의 평균득점에 따라 득점으로 가치를 부여하는 방식자체를 부정하고 있습니다. 그러면서 득점기대치를 논한다는 것 자체가 불가사의 할 뿐입니다.
    득점기대치 자체가 현실화되지 않은 득점이지만, 득점과 직접적인 관련이 있는 요소들을 나중에 얻어진 득점을 통해서 득점으로 그가치를 표현한 것이기 때문입니다.
    그렇게 쌓여진 팀의 득점기대치중에서 평가하고자 하는 선수외의 다른 선수가 쌓아놓은 득점기대치를 뺴준 것이 득점기대치가 증감분이며 이것이 평가하고자 하는 선수의 득점기대치 기여도가 되는 것입니다.


  • 안국진 2010/01/28 07:07 # 답글

    일단 wizard님은 기초적인 개념이 부족한데 스스로 잘 안다는 오만에 빠져있습니다. 아무리봐도 제가 더 정통으로 공부했는데, wizard님은 wizard님의 잘못된 지식으로 다른 사람을 평가하기때문에 제가 기초가 안되어있다고 생각하는 겁니다. 틀린 점을 몇 가지 지적해 드리지요.

    1. "그런데 평균적으로 계산해보니 몇점이 나오므로, 그 평균점수를 득점기대치로 정한 것이죠."

    평균점수와 득점기대치는 정의가 서로 다릅니다. 평균점수를 이용해서 득점기대치를 추정하는 것입니다. 예를 들어드리지요.

    동전던지기 게임을 한다고 가정하지요. 동전 앞면이 나오면 1점, 동전 뒷면이 나오면 0점, 그리고 동전 던지기는 모두 독립적으로 앞뒷면이 균일하게 1/2확률로 나온다고 가정하지요. 동전을 세번던져서 모두 앞면이 나왔다고 가정하면, 평균점수는 1입니다. 하지만 점수의 기대치는 1/2이지요. 서로 다른 개념입니다. 심지어 단 한번의 게임을 하지 않더라도 기대치는 정의가 되지만, 평균점수는 정의가 되지 않습니다.

    일반적으로 득점기대치 대신에 평균점수를 사용하는 이유는 충분히 많은 횟수를 반복할 경우 평균점수가 득점기대치로 수렴한다는게 증명되어 있기 때문이지, 평균점수를 득점기대치로 정한건 아닙니다.

    2. 평균점수를 고려한다고 해도 제대로된 기여도가 안나옵니다.

    또다시 예를 들어드리지요. A와 B가 한 팀이 되어서 게임을 한다고 해보지요. 두 사람에게 각자 카드가 한벌씩 주어지고, 각 카드에는 X 혹은 Y가 적혀 있습니다. 그리고 A, B모두 Y를 뽑은 경우에는 1점, 그 외의 경우에는 0점을 받는다고 해보지요. A, B모두 60% 확률로 Y를 뽑는다고 생각합시다. 그리고 전체 득점기대치는 0.25점이라고 가정하지요.

    이 게임의 특성을 살펴보면 사실 A가 먼저 뽑던 B가 먼저 뽑던 다른 한 사람이 Y를 뽑을 확률은 어차피 정해져 있고, A와 B의 능력치(즉, Y를 뽑을 확률)도 같으니 A와 B의 기여도의 기대치(이하 기여도로 줄여서 표시)가 같아야됩니다. (실제로는 누가 먼저뽑는가 자체가 의미가 없고, 둘이 동시에 뽑아도 동일한 게임입니다.)

    wizard님의 계산 방식에 따르면 A->B순서로 카드를 뽑으면 A의 기여도는 0.05, B의 기여도는 0.06이 됩니다. B->A순서로 뽑으면 기여도가 뒤집힙니다.

    더 재미있는 현상이 있는데, A, B가 각각 20%, 40% 확률로 Y를 뽑는다고 가정하지요. 그리고 다른 한 팀이 더 있어서 A', B'이 각각 20%, 50% 확률로 Y를 뽑는다고 가정하지요. 여기에 한가지더 전체에 팀은 둘뿐이고, 두번째 팀의 카드를 뽑는 순서는 항상 A'->B'이라고 가정하지요. 이경우 A->B순서로 카드를 뽑으면 A는 기여도가 0이고, B는 기여도가 음수값을 가집니다. B->A순서로 카드를 뽑으면 B의 기여도는 양수값이고, A의 기여도는 음수값을 가집니다.

    이런 문제가 발생하는 이유는 평균득점을 활용하고 있느냐 마느냐와 아무 상관이 없습니다. 득점기대치 증감분이 선수의 득점기대치 기여도라는게 성립하려면 후속타자들의 기여도가 주자상황에 상관없이 일정해야됩니다. 이게 대부분의 경우 성립하지 않습니다.
  • wizard 2010/01/28 21:01 # 삭제

    님이 제시하신 경우는 확률적 계산으로 기대점수는 0.5점인데, 실행을 해보니 기대점수와는 다르게 1점이 나왔다는 상황이지만, 야구에서의 안타의 가치는 확률적으로 정해진 값이 있는 것이 아닙니다. 님은 동전던지기의 경우처럼 어떤 안타의 점수는 몇점, 어떤 안타의 점수는 몇점 이렇게 확정지을 수 있습니까?
    만일 그런 것이 존재한다면, 굳이 회귀분석을 써서, 득점을 통해 안타가 얼만큼의 점수를 가져오는가를 계산하겠습니까?

    님이 계속해서 반복하는 오류가 또 보이는군요. 이론상의 카드게임처럼 야구에서의 안타는 어떤 안타는 몇점이 주어지고, 어떤 안타는 몇점이 주어진다라고 전제된 것이 아닙니다.
    그것을 알 수 없기 때문에 평균득점을 가지고 안타의 가치를 점수화하여 부여하는 것입니다.
    회귀분석이란 것이 뭡니까? 독립변수를 통해 종속변수의 값을 구해내는 것입니다.
    야구로 대입하면 주자상황과 아웃카운트가 종속변수가 되고 독립변수는 평균득점입니다.
    이 종속변수인 주자상황과 아웃카운트 상황의 각각을 독립변수인 평균득점으로서 가치를 매기는 것입니다.
    그렇게 해서 그런 주자상황과 아웃카운트를 변동시키는 타자의 타격이벤트의 가치를 표현하는 것입니다.
    한 타자의 타격이벤트가 득점에 끼친 영향은 그 타자가 타격을 하기전의 득점기대치를 타격을 통해서 변동된 득점기대치 값에서 빼주면 간단하게 구해지는 것입니다.
    링크를 걸어드리겠습니다. 득점기대치의 개념에 대해서 설명한 것입니다.
    http://www.h4.dion.ne.jp/~p-taka/gijyutu/tokubetsu8.htm

  • 안국진 2010/01/28 23:35 #

    일단 회귀분석부터 좀 공부하고 오시지요? 회귀 분석에서 이야기하는 독립변수와 종속변수도 헷갈리면서 도대체 무슨 이야기를 하려고 하시나요?
  • wizard 2010/01/29 23:34 # 삭제


    제대로 답변을 안하셔서, 앞서 말씀드렸던 내용을 좀더 부연할까 합니다.
    님이 예로 드신 동전던지의 점수와 야구에서의 점수간의 차이가 있음을 다시한번 강조합니다.
    동전던지기의 경우는, 이론적인 기대치를 알 수 있죠. 앞면과 뒷면이 나올 확률은 1/2이니까요. 그래서 동전의 앞면이 1점, 동전의 뒷면이 0점이라고 정의할 때, 기대치는 0.5가 나오는 겁니다.
    그러나 야구에서의 점수는 어떤 점수가 어떤 확률로 나올 수 있는지 수학적으로 정의된 확률을 구할 수가 없습니다.
    1점이 어떤 확률로 나올지, 2점이 어떤 확률로 나올지..... 점수 x가 나올 확률은 확률 x입니다.
    따라서, 님이 말씀하신 동전던지기의 경우의 점수기대치와 평균점수의 관계는 성립하지 않습니다.
    어떤 아웃카운트,주자상황에서 이닝종료시 몇점을 얻을 수 있는가란 득점기대치는 곧 그 상황에서 얻어낸 평균득점과 동일한 의미입니다.
    동전던지기와 같은 상황에서나 존재할 수 있는 득점기대치와 평균득점의 관계를 그런 모델과는 다른 야구에 적용하여 재단하는 것이 매우 이상하게 생각됩니다.
    득점기대치란 용어가 그렇게 마음에 들지 않으면, 어디 한번 다른 용어를 제시해주십시오.
    그런데, 이 야구용어중의 하나인 득점기대치는 상당히 대중적으로 쓰이는 것입니다.
    그리고 용어와는 상관없이 그 개념자체도 무의마한 것이라고 님은 보십니까?
    그런데 분석의 대상에 있어서, 님이 늘 거론하시는 카드게임이나, 동전던지기와 같은 모델만이 있을까요?
    오히려 그렇지 않은 모델이 더 많다고 생각합니다.
    야구에서의 주자상황,아웃카운트에 따른 득점기대치모델도 이에 속하는 것이구요.
    그럼 이런 모델들은 모두 무의미 한 것입니까?
    전 아니라고 생각합니다.
    세이버 메트리릭스는 통계학의 연장이고, 데이터를 통해서 값을 추정하는 것입니다.
    계속 동전던지기나 카드게임나 통용되는 설명과 개념을 가지고 데이터를 통한 통계를 이용하는 세이버메트릭스에 적용하는 것이 상당히 잘못되었고, 무의미하다고 느꼈습니다.
    전 말싸움을 하고 싶은 것이 아니라, 토론을 하고 싶습니다.
    님의 지식이 얼마나 대단한진 모르겠지만, 제가 느낀 점은 토론이 목적이 아니라, 나름대로 자신이 있으신듯한 확률론에 대한 지식으로 한번 눌러보겠다라는 의도밖에 보여지지 않았습니다.
    말싸움에서 패배는 있을 수 없는 일이므로, 그동안 줄곧 xr은 회귀분석이 아니다라고 강변하시다, 그것이 거짓말로 드러나자 모든 댓글들에서 그 흔적들을 지워내고 수정하셨던 것이겠죠.
    그러나 전 토론을 바라지, 말싸움을 원하지 않습니다. 말싸움은 얻는 것이 없지만, 토론은 얻는 것이 있거든요. 님의 지식은 인정해드릴테니까 진정한 토론을 해보고 싶습니다.
  • 안국진 2010/01/30 11:09 #

    "말싸움에서 패배는 있을 수 없는 일이므로, 그동안 줄곧 xr은 회귀분석이 아니다라고 강변하시다, 그것이 거짓말로 드러나자 모든 댓글들에서 그 흔적들을 지워내고 수정하셨던 것이겠죠."
    ==> 이런 적 없는데요. wizard님 자꾸 없는 이야기 지어내시지 마시지요.

  • 안국진 2010/01/30 11:52 #

    wizard님이 자꾸 말도안되는 소리를 하니까 짜증이 나는데, wizard님이 지금 수준으로 무려 토론을 하겠다는 것 자체가 오만입니다. 지금 하는 이야기를 이해하려면 수학과에서 1~2년정도 공부해야 되는건데, 지금 wizard님은 수학과 과정 이전에 고등학교 수학부분도 충실하게 이해하지 못하고 있습니다.

    1. "1점이 어떤 확률로 나올지, 2점이 어떤 확률로 나올지..... 점수 x가 나올 확률은 확률 x입니다."
    일단 "점수를 X라는 random variable로 두었을 때 점수가 x가 나올 확률은 Pr(X=x)입니다"라고 표기하는게 좋습니다. 점수 x가 나올 확률은 확률 x입니다라고 하면, 2점을 낼 확률이 2라는게 되는데, 정의상 확률은 0에서 1까지의 수만 가질 수 있습니다.

    2. 두번째로 상황 A에서 득점기대치의 정의는 아래와 같습니다.
    sum_i=0^infinity i*Pr(X=i|A)
    wizard님 현재까지 이야기한 건 Pr(X=i|A)를 이론적으로 계산할 수 없다는 겁니다. 근데 전이걸 이론적으로 계산할 수 있다고 주장한 적이 없고, 실제로 계산할 수 없다고 해도 멀쩡하게 성립하는 이야기들입니다. 즉, wizard님은 제 글을 공격하기 편하게 마음대로 뜯어고친다음에 그걸 공격하고 있을 뿐입니다. 정의를 한다는 것이 이론적으로 계산할 수 있다는 것과는 서로 다른 이야기입니다.

    3. 통계학
    wizard님이 착각하는게 통계학은 제가 제시한 것과 같은 수학적 모델에 근거하지 않는다고 생각하시는 건데, 실제로는 통계학은 저런 수학적 모델을 사용합니다. 단지 실제 모델에서 우리가 모르는 부분이 있다고 가정하는 것이지요. 이 모르는 부분을 데이터를 사용해서 추정해내는 것이 통계학입니다. 이때 중요한건 아무런 수학적 증명이 없이 그냥 이값은 이것일 것이다라고 이야기하면 안됩니다. 수학적으로 "이런 추정방법을 사용하면 얼마만한 데이터가 있을 때 얼마나 정확하게 우리가 모르던 부분을 추정할 수 있다"고 증명하는 겁니다. wizard님은 그런 증명을 전혀 안하고 있고요.

    동전던지기의 예로 돌아가서 통계학에서 생각하는건 동전이 앞면 혹은 뒷면이 나올 확률이 정해져 있으나 우리가 그 값을 모른다고 가정합니다. (동전 앞면이 나올 확률을 p라고 하겠습니다) 그리고 그 값을 추정할 수 있는 방법을 제시합니다. 마지막으로 데이터를 충분히 모아서 제시된 방법대로 추정할 경우, p가 무엇이었든지 간에 작은 오차로 p값을 추정할 수 있다는 점을 증명하면 됩니다. 여기에서 중요한게 만약 우리가 모른다고 가정한 부분이 있을 경우(이 예에서는 p) 그 부분이 어떤 형태를 띄던간에 오차가 크면 안된다는 겁니다. 이 예에서 p=0.5인 경우에는 동전을 아무리 던져도 0.6으로 추정하게 되는 방법은 사용하면 안됩니다.

  • 안국진 2010/01/30 12:10 #

    통계학 예제). XR과 linear regression의 경우

    앞에서 설명한 것과 같이 통계학에서는 우리가 모른다고 가정하는 부분에 대해서는 (충분한 데이터가 있다는 가정하에) 거기에 어떠한 값이 오던지간에 항상 근사한 답을 내어야 됩니다. XR의 경우 다음과 같은 수학적 가정을 사용합니다.
    a) 안타, 2루타, ... 과 같은 플레이 하나하나는 일정한 가치를 지닌다.
    b) 이 가치를 총합에 noise를 더하면 팀의 총득점이 된다.
    이 모델에서 우리가 모르는 부분은 각 플레이의 가치가 됩니다. 이 모델을 따른다는 가정하에 충분한 데이터를 모아서 linear regression을 돌리면, 우리가 구하는 추정치는 이 가치에 근접한 값을 얻게 된다는 걸 수학적으로 증명할 수 있습니다.

    여기에서 한가지 더 해야 되는게 있는데, a) b)라는 가정하에는 이게 성립하는데, 근데 애시당초 a), b)가 성립하지 않으면 이건 완전히 무의미합니다. 그래서 그 다음에 하는 행동이 최종결과물과 실제 데이터를 비교해서 맞아들어가는지 살펴보는 겁니다.
  • 안국진 2010/01/30 12:27 #

    잘못된 예제) wizard님의 방식

    지금 wizard님이 하고 계신 주장(+가정)은 다음과 같습니다.
    a) 플레이마다 팀득점에 대한 기여도가 있다.
    b) 기여도의 합에 이닝 시작시 득점기대치를 더하면 팀의 이닝에서 전체 득점이 된다.
    c) 플레이에 의해서 상황 A가 상황 B로 바뀌면 기여도는 아래와 같다.
    E[X|A]-E[X|B] (X: 그 이닝에서 팀의 총 득점)
    통계학이 해 주는건 충분한 데이터를 모으면 E[X|A]를 추정할 수 있다는 것밖에 없습니다.

    그럼 XR의 경우과 같이 a), b), c)가 실제 데이터와 맞아떨어지는지를 알아야 됩니다. 여기에서 첫번째 문제점이 발생하는데, 기여도를 계산하기 위해서 이미 실제 데이터를 사용해야 됩니다. 특히 팀의 득점수치가 기여도를 사용하기 위해서 사용됩니다. 따라서 모델을 사용하여 득점을 계산하고 이를 실제 득점과 비교하는 방식은 불가능합니다.

    이런 경우 그럼 a), b), c)를 검증하는 방법은 어떤 종류의 게임이 오더라도 a), b),c)가 항상 성립한다는 걸 증명하거나, 여태까지 이야기되지 않은 야구에서 기여도의 특성을 증명해 내는 겁니다. 후자가 가능하려면 실제 득점기대치에 대한 거의 완벽에 가까운 수식이 나와줘야 됩니다. 그게 아니면 첫번째 것을 증명해야 되는데, 제가 이미 a), b), c)가 성립하지 않는 게임의 예를 들었으니 첫번째 방법도 사용이 안되지요.
  • 안국진 2010/01/30 12:46 #

    여기까지 이야기한게 통계학을 사용할 때 항상 사용해야 되는 방법론입니다. 이런저런 통계를 낼때 도대체 어떤 가정을 하고(A), 사용한 가정하에서는 어떤 통계방법을 사용해야 되고(B), 그리고 가정을 어떻게 증명할 것인가(C)에 대한 이야기가 각 경우마다 다를 뿐 이 과정이 항상숨어 있습니다.

    지금 wizard님이 가지는 문제점은 이런 통계학에 대한 기초지식을 전혀 모르는 상태라는 겁니다. wizard님은 주장을 우기기위해서 원래 통계학이나 확률이론에서 당연히 지켜줘야 되는 규칙들을 다 무시하고 아무거나 주워들은 단어들을 대충 조합해서 문장을 만들어 내고 있습니다. 거기에 한술 더 떠서 wizard님이 틀린 점을 지적하면 자신이 맞다고 우기기까지 합니다.

    지금까지 wizard님에게 지적한 내용들은 통계학을 공부한 사람이라면 당연하다고 이야기할 것들입니다. 거의 1+1=2같은 수준의 이야기들이지요. 그런데 wizard님은 1+1=3이라고 주장하면서 제가 통계학을 모른다고 주장을 하시지요. 그런데 무슨 토론이 됩니까.
  • wizard 2010/01/31 00:40 # 삭제

    저번에도 말했던 것 같은데, 득점기대치는 제가 지어내 주장하는 사견이 아니라, 이미 대중화된 세이버메트릭스 이론의 근간이 되는 것중 하나입니다.
    저번에 링크까지 걸어드렸던 걸로 기억하는데요.
    그리 저의 주장이라고 정리해놓은 내용도 사실과 다르군요. 링크를 제발 참조하시길 바랍니다.

    득점기대치 개념은 아웃카운트가 적을수록 주자가 많이 진루할수록 주자가 많이 모일수록 득점이 증가한다라는 인과관계에서 출발하는 것입니다.
    그리고 이것을 확인하기 위해 데이터를 활용하여 각 아웃카운트별 주자상황별, 그 이후 이닝종료시의 평균점수를 조사하여 그것이 증명되었습니다. 평균점수는 그에 따라 증가한 것입니다.
    어느 한타자가 아웃카운트를 소모하지 않고 루상의 주자를 진루시켰다면 이것은 곧 팀의 득점기대수준을 높힌 것임엔 틀림없습니다. 그가 타석에 들어서기 전의 주자상황보다 그가 주자를 진루시켜 만들어놓은 새로운 주자상황이 팀득점수준을 높힌 것은 분명하죠.
    이 공헌도를 아웃카운트별 주자상황별, 그 이후 이닝종료시의 평균득점을 이용하면 득점기대치로 수치화할 수 있지 않겠습니까? 그가 주자를 진루시켜 득점기대수준을 높혀놓은 새로운 주자상황의 평균점수에서 변동되기 전 주자상황에서의 평균점수를 빼주면 되잖아요.

    님은 득점기대치를 높혔다 해서, 반드시 팀의 득점이 늘어나지 않는 게임의 경우도 있다고 하는데,야구에서의 득점기대치분 증가란, 아웃카운트를 소모하지 않고 주자를 진루시키는 것으로, 이는 기대득점의 상승과 확실한 인과관계를 맺고 있는 것임을 알았으면 좋겠습니다.
    님이 늘 예로 드는 동전게임과 같은 경우는 님이 말했던 것처럼 시행한번 해보지 않고도 이론적으로 기대치를 만들 수 있습니다.
    하지만 야구의 경우는 그럴 수 없으므로, 아웃카운트별, 주자상황별 이닝종료시의 득점기대치를 실제 데이터에서의 평균득점을 통해 구합니다.
    그러나 그렇다고 해서 이것이 의미가 없는 것일까요? 득점과 주자상황은 확실한 인과관계가 있기때문에 의미가 없는 것이 아닙니다.

    그리고 님의 태도중에 정말 이해가 가지 않는 것은 득점기대치는 부정하면서 xr은 증명이 되었다라고 하는 것입니다.
    그런데 이 두가지 모두 메이저리그의 득점데이터를 통해서 기대치를 얻어내는 방식임은 같습니다.
    동전던지기처럼 시행을 하지 않고도 이론적인 기대치를 만들 수 없는 것은 마찬가지란 것입니다.
    xr의 모델이라는 것도 결국 실제 데이터를 사용하여 만들어낸 것이고, 그것을 또 데이터를 통해서 검증한 것입니다.
    득점기대치의 경우는 안되고, xr의 경우는 된다 이것이 말이 됩니까?
    xr과 득점기대치의 차이란, xr은 평균득점을 통해서 안타의 가치를 매긴 것이고, 득점기대치란 아웃카운트,주자상황의 가치를 평균득점을 통해서 매긴 것입니다.
    그런데 안타란 것은 결국 무엇인가요? 루상의 주자를 진루시킴으로써 득점에 기여하게 되는 것입니다.
    안타와 득점간의 관계에는 사실 아웃카운트가 적을수록 주자가 보다 더 많이 진루할수록 주자가 많이 모일수록 득점이 유리하다라는 득점기대치의 개념도 포괄하고 있는 것입니다.


  • 안국진 2010/01/31 08:34 #

    지금 wizard님이 하는 이야기는 전부 틀린 이야기이고, 제가 왜 틀렸는가도 이미 다 설명한 겁니다. wizard님은 남이 하는 이야기중에서 wizard님의 주장에 유리한 부분들은 틀렸든 맞았든 이유도 제시 안하고 무조건 우기고 있습니다. wizard님이 링크하신 글에는 득점기대치 증가분이 기여도라는 주장만 담겨있지, 그게 왜 그렇게 되는지에 대한 어떠한 이유도 없습니다. 토론을 하시고자 한다면 최소한 "왜" 부분을 당연하다느니 상식이라느니 하는 말을 사용하지 않고 설명하실 수 있어야 합니다.
  • 안국진 2010/01/31 08:49 #

    그리고 남의 글은 좀 제대로 읽으세요. wizard님이 반박하기 쉽도록 해석하지 마시고요. XR은 데이터로 검증이 되었고, 님이 주장한 기여도부분은 데이터로 검증이 안된다는 이야기를 했더니 왜 마음대로 글을
    "득점기대치의 경우는 안되고, xr의 경우는 된다 이것이 말이 됩니까?"
    이렇게 바꾸어 놓습니까?
  • 안국진 2010/01/31 08:54 #

    혹시 추가 답글을 기대하실까봐 이야기하겠는데, 전 이글 더 이상 체크 안할 겁니다. wizard님은 토론을 하자면서 자꾸 "아무런 근거없이" 자신이 맞다고 주장하는데, 토론의 의미가 없네요. 계속 토론을 원하시면 일단 확률통계를 정식으로 공부하시고 나서 제 블로그에 댓글을 남겨주시던가 하세요. 그 전까지는 wizard님에게 어떤 말도 안통하겠습니다.

    (참고: 기본적으로 제가 하는 이야기를 이해하시려면 대학에서 수학 혹은 통계학과에서 가르치는 걸 2~3학기정도 어치를 공부하셔야 되는데, 지금 wizard님은 고등학교 수학에서 헷갈리고 계십니다.)
  • wizard 2010/01/31 10:51 # 삭제

    결국 실컷 동전던지와 카드게임 이야기만 하시다 가시는군요. 왜 야구의 득점과 같은 모델은 단 하나도 예를 들지 못하시는 걸까요?
    제가 계속해서 동전던지기와 야구는 다르지 않느냐? 뻔히 정해진 확률과 정의로 이론적인 기대치 산출이 가능한 동전던지기와는 달리 어떤 점수가 어떤 확률로 나올지 알 수 없는 야구에선 수식을 세우기 위해서는 먼저 시행결과에 따라 데이터를 이용할 수 밖에 없다라는 점을 지적했으면, 적어도 동전던지기가 아닌 야구와 비슷한 다른 경우를 예로 들 수 있어야 하는데, 전혀 그렇게 하지 못하시죠.
  • 안국진 2010/01/28 07:12 # 답글

    돈에 대한 이야기를 하셨으니, 돈을 이용해서 또 다른 예를 들어보지요. A, B 두사람이 5:5로 공동 투자해서 어떤 회사를 세우기로 했습니다. 확률적으로 A가 9천만원 아니면 1억1천만원을 반반 확률로 마련할 수 있고, 아직 미정이서 B가 A가 준비해오는 만큼 맞춰서 돈을 투자하기로 해줍니다. 이 시점에서 투자하는 돈의 기대치는 2억이 됩니다. 여기서 A가 1억1천만원을 준비해오면 B도 1억1천만원을 준비해와서 기대치가 2억 2천만원이 됩니다. wizard님식으로 계산하면 A의 기여도는 2천만원 어치고 B의 기여도는 0원어치가 됩니다. 그런데 실제 기여도는 양쪽이 동일합니다.
  • 안국진 2010/01/28 07:21 # 답글

    한 가지 더 이야기하자면 XR은 득점기대치와 전혀 상관없이 만들어진 값입니다. 아래는 XR을 어떻게 만들었는지에 대한 이야기가 나옵니다. 결국 데이터를 linear regression으로 분석한건데, 그 데이터에 득점기대치는 안들어가 있습니다. 어떤 변수가 사용되었는지를 포함한 자세한 항목은 아래 글을 참조하시면 됩니다.

    http://www.baseballthinkfactory.org/btf/scholars/furtado/articles/IntroducingXR.htm
  • wizard 2010/01/28 12:26 # 삭제

    참. 자신이 올린 글의 내용도 제대로 파악하지 못하면서.. 님의 올린 링크에 나오는 한 부분을 소개합니다.
    Runs through regression
    Using regression analysis, I determined which statistical ingredients should get throw into my run estimation pot. After literally running hundreds of regressions, and after comparing some of my own regressed numbers with those generated by others (again, see the "Runs through Regression Analysis" section of the “Why Do We Need Another Player Evaluation Method?” essay), I generated some ball park numbers to start with.
    regression analysis라는 단어가 보이죠? 이것이 회귀분석입니다. 혹시 본문에 나오는 linear fomular란 단어때문에 이것이 회귀분석이 아니라고 생각하신겁니까? 이건 선형공식이란 뜻이지 분석법을 말하는 것이 아닙니다.
    퇴근후에 좀더 심도있게 답변드리죠. 기다리세요.
  • 안국진 2010/01/28 12:49 #

    저기 linear regression이 회귀 분석의 일종이거든요? 심지어 linear regression이 뭔지도 모르는 겁니까?

    http://en.wikipedia.org/wiki/Linear_regression

    "Linear regression was the first type of regression analysis to be studied rigorously, and to be used extensively in practical applications."

    저렇게 linear formulation해놓고 regression이라고 해놓으면 linear regression이라고 보면됩니다. 제발 좀 모르는 주제에 아는척 좀 그만하세요.
  • wizard 2010/01/28 20:13 # 삭제 답글

    참. 그렇게 잘 아시는 분이 그동안 xr은 회귀분석이 아니라고 열변을 토하셨습니까? 아님 회귀분석인 것을 알면서 거짓말을 한 것인지도 모르겠군요. 그럼 일단 xr은 회귀분석이 아니다라고 한 말은 틀렸다는 것은 인정하시죠?
  • wizard 2010/01/28 21:03 # 삭제 답글

    이제 보니, xr은 회귀분석이 아니라고 했던 댓글들은 모두 수정하셨군요. 참 비겁하시네요. ^^
  • 안국진 2010/01/29 12:13 #

    wizard님이 틀렸다고 증명되니 남이 하지도 않은 말을 뒤집어 씨우시는 군요. 참 비겁하시네요. ^^
  • wizard 2010/01/28 21:22 # 삭제 답글

    http://azarashigumogumo.hp.infoseek.co.jp/katen.htm
    이 링크에는 득점기대치의 증가분에 대한 설명이 있습니다. 그리고 그것이 한 선수의 공헌도라고 말하고 있습니다. 가점이라고도 하죠. 참조하시기 바랍니다.
  • sayuksin 2010/01/28 23:57 # 삭제 답글

    A가 1억1천, B가 1억1천 투자했으면, A 1천,B 1천의 기여도가 되지, 어떻게 A가 2천의 기여도가 된다는 건지..
    이상한 논리네요.

    C타자가 안타를 쳐서 기대득점이 0.5점 늘었을때, D타자가 나와서 또 안타를 쳐서 득점 기대치가 0.6 늘었다면, C타자가 1.1을 다 가져가는 게 아니라, C 0.5, D 0.6점의 공헌도를 보이는 것이죠.

    그리고, XR의 3루타와 홈런 가중치를 보건데, 득점 기대치를 참고한 것이 맞습니다. MLB,KBO 모두 회기분석으로 선형가중치를 도출시 3루타의 가중치가 홈런보다 크게 나올 겁니다. 평균적으로 3루주자가 60%정도 득점하기에 홈런-0.4 정도의 가중치를 부여한 것이죠.
  • 안국진 2010/01/29 00:18 #

    A가 1천, B가 1천이 되어야 되는데 wizard님 방식으로 하면 A가 2천, B가 0이 나오기 때문에 wizard님의 방식이 틀렸다는 건데요. 기대치로 따지면 A가 1억1천을 투자하는 순간 B의 1억1천도 확정되기 때문에, 기대치는 A가 1억1천을 투자하는 순간 2억에서 2억2천으로 올라갑니다. 수학적으로 이야기하자면 변수간 correlation이 있을 때 어떤 현상이 일어나는가에 대한 이야기입니다.
  • 안국진 2010/01/29 00:22 #

    "MLB,KBO 모두 회기분석으로 선형가중치를 도출시 3루타의 가중치가 홈런보다 크게 나올 겁니다."
    ==> 그럴 수도 있겠고, 아닐 수도 있겠습니다만, 그게 득점기대치를 참고했다고 볼 수 있는 강력한 근거는 아니지요. 게다가 sayuksin님이 말씀하신 방법은 주자의 득점 확률을 사용한 것이지 득점기대치를 사용한 것도 아니지요. 그리고 전체 값을 획귀분석으로 구해놓고, 이론상 뭔가 이상하다싶은 걸 고쳐놓은걸 득점기대치를 이용해서 플레이의 가치를 메겼다고 말할 수는 없지요.
  • sayuksin 2010/01/29 01:36 # 삭제 답글

    세이버메트리션들이 토론할때 그런식으로 논의를 합니다.
    "회귀분석으론 3루타가 홈런보다 높게 나오지만, 3루주자는 60%정도 득점하므로 약 0.6점의 가치가 있고, 홈런보다 0.4점 가치가 낮다고 봐야 한다." --> 이런식으로 논의를 하고, 가중치를 부여하기도 합니다. 3루주자중 60%가 득점하므로 0.6점의 가치가 있다고 해서, 기대득점표와 별로 틀릴 것이 없습니다. 가령, 1루주자가 27% 정도 득점한다면, 1루주자의 가치는 0.27이라 보는 것과, 기대득점표로 24상황별로 평균적으로 1루주자의 가치를 구하는 것이나 차이가 없어지죠.

    회귀 분석으로 선형가중치를 구한다고 해서, 그것만으로 XR이나 BR같은 공식을 만드는 것이 아니고, 야구 특성에 맞게, 기대득점표를 참고하고, 희비나 희타의 경우 선수의 능력치, 도루-도실의 경우 상황(WPA)을 고려해서 가중치를 정하기도 하고 그러죠. 회귀분석을 이용해서 공식을 산출한다는 것이지, 회귀분석만으로 선형가중치를 정하는 것은 아닙니다.

  • 안국진 2010/01/29 04:13 #

    1. "일단 회귀분석을 이용해서 공식을 산출한다"의 의미가 불명확한데요. 좀 자세히 설명해주셔야 될 것 같습니다. 제가 생각한 뜻이 맞다면 sayuksin님도 wizard님과 마찬가지로 회귀분석에 대해서 완전히 잘못 알고 계신건데, 그외에 어떤 의미로 쓰였는지는 짐작이 안되네요.

    2. "3루주자중 60%가 득점하므로 0.6점의 가치가 있다고 해서, 기대득점표와 별로 틀릴 것이 없습니다."
    이 문장에 대한 어떠한 근거도 제시되어 있지 않습니다.

    3. "기대득점표로 24상황별로 평균적으로 1루주자의 가치를 구하는 것"
    이런 식으로 쓰지 마시고, 구체적으로 어떤 계산 과정을 거쳐서 구하는 지 설명해 주세요. 수학적으로 아무런 모델없이 이걸 계산하는 건 불가능합니다. 모델이 없으면 1루 주자의 가치는 각 상황별로 12개의 변수가 됩니다. 1루주자를 제외한 다른 주자(타자포함)들의 가치가 총 24개의 변수가 됩니다. 하지만 방정식은 24개밖에 안나옵니다. 결국 변수간의 관계를나타내는 추가적인 방정식이 포함되어야 되는데, 이 방정식을 만들기 위해서는 추가적인 가정들이 필요합니다.
  • 안국진 2010/01/29 04:21 #

    회귀분석에 대해서 추가적으로 이야기하면, 회귀분석이 해줄 수 있는 유일한 일은 sayuksin님이 선형가중치라고 부른 parameter들을 추정해주는 겁니다. 그 parameter를 아주 약간씩 손대는게 아니라, sayuksin님이 주장하신 것처럼 고친다면, 그건 회귀분석을 무시하는 겁니다.

    또한 sayuksin님이나 wizard님이 주장하신 것처럼 수정을 가하면 가장 먼저 해야 될 일은 그렇게 가한 수정이 과연 올바른 것인가 검증하는 것입니다. 그런데 도대체 어떤 방식으로 검증했다는 건지 wizard님이나 sayuksin님은 전혀 제시하지 않고 있습니다. 그냥 안타의 가치가 그렇게 정해진다고 이야기하고 계시죠.
  • 안국진 2010/01/29 04:32 #

    그리고 "세이버메트리션들이 토론할때 그런식으로 논의를 합니다"라고 하는데, 구체적으로 어느 세이버메트리션들이 그렇게 이야기했는지가 중요하지요. (혹시 카더라 통신이라면 사절입니다.) XR을 만든 Jim Furtado가 XR을 만들기 위해서 그렇게 했다는 이야기라면 모를까, 누군지 구체적으로 설명되지 않은 세이버메트리션들이 그렇게 논의한다는게 XR을 만들 때 그렇게 만들었다는 것의 근거가 어떻게 되는지 모르겠습니다.
  • sayuksin 2010/01/29 10:03 # 삭제 답글

    좀만 생각해 보시면 아실듯 한데, 일일이 설명을 해달라고 하시는군요.

    1루주자가 평균적으로 27% 득점을 하고, 2루주자가 평균적으로 44% 득점을 한다면, 도루 성공시 도루의 가치는 얼마가 될까요?

    tom tango와 mgl이 Super-LWts 만들때 논의하던 것으로 기억합니다. 그리고, MLB,KBO 회귀분석 해 보세요. 어떻게 3루타의 가중치를 정했을지도 고민해 보시구요. 희타,희비는 어떻게 정해야 할지, 기대득점표, 표본들이 발생하는 빈도수를 가지고 연구를 해 보세요. 데이터를 모르신다면, retrosheet에 가시면 다 구할수 있습니다. 님은 이런식을 만드는데 거의 생각도 안해보신 것 같은데요?

    득점과의 관계로서 주로 정확성을 검증하는데, 3루타의 경우 횟수가 적기 때문에, 가중치를 현실적으로(홈런보다 가치가 작아야겠죠) 변경하더라도 상관계수가 거의 변하지가 않습니다.
  • 안국진 2010/01/29 11:57 #

    MLB 지난 10년간 데이터에 linear regression(least squares) 돌린 결과입니다.
    1B 0.5618
    2B 0.7246
    3B 1.1698
    HR 1.4437
    HBP+TBB-IBB0.3457
    IBB 0.0161
    SB 0.0345
    CS -0.1003
    AB-H-K-0.1024
    K -0.1348
    GIDP -0.3207
    SF 0.5925
    SH -0.0862

    데이터출처: www.baseball-reference.com
  • 안국진 2010/01/29 12:08 #

    1. "좀만 생각해 보시면 아실듯 한데,"
    좀만 생각해 보시면 이게 얼마나 말이 안되는 소리인지 아실 건데요.

    2. "1루주자가 평균적으로 27% 득점을 하고, 2루주자가 평균적으로 44% 득점을 한다면, 도루 성공시 도루의 가치는 얼마가 될까요?"
    일단 확률통계 제대로 배운 사람이면 이 질문이 말이 안된다는 걸 당장에 알 수 있습니다. 님이 생각하시는게 0.44-0.27이면, 정말 바보짓인게 1루주자가 도루해서 2루주자가 된 경우와 그외에 그냥 2루주자가 된 것이 동일한 상황이 아니거든요.
  • 안국진 2010/01/29 12:10 #

    3. "득점과의 관계로서 주로 정확성을 검증하는데, 3루타의 경우 횟수가 적기 때문에, 가중치를 현실적으로(홈런보다 가치가 작아야겠죠) 변경하더라도 상관계수가 거의 변하지가 않습니다."
    이건 "나 검증따위 안해봤다"와 동일한 소리입니다. 지금 수정한 후와 수정하기 전을 비교해서 어느게 맞느냐는 걸 검증해야 되는데, 수정하기 전하고 수정한 후와 별 차이가 없다고 주장하면 곤란합니다. 틀리게 수정했더라도 검증과정에서 찾아내지 못한다는 소리인데요.
  • sayuksin 2010/01/29 12:57 # 삭제 답글

    멀좀 아시는것 같은데, 산수에서 헷갈리시나요?

    1루주자가 평균적으로 27% 득점합니다. 1루주자의 가치는?
  • 안국진 2010/01/29 13:19 #

    sayuksin님 혹시 conditional probability가 뭔지 모르시는 건가요?
댓글 입력 영역