로딩 중

동영상 대본

이번 동영상에서는 두 확률변수의 공분산의 개념에 대해 소개하겠습니다 정의를 내려 보면 각 확률 변수의 평균으로부터의 거리를 정의를 내려 보면 각 확률 변수의 평균으로부터의 거리를 곱한값의 기댓값입니다 곱한값의 기댓값입니다 이걸 써두도록 하죠 먼저 X가 있는데, 다른 색을 쓰겠습니다 확률변수 X에서 X의 기댓값을 뺀 값입니다 이걸 X의 모평균이라 볼 수도 있고 이건 확률변수 Y입니다 Y로부터 Y의 모평균 또는 Y의 기댓값까지 사이의 거리를 곱합니다 Y로부터 Y의 모평균 또는 Y의 기댓값까지 사이의 거리를 곱합니다 아직 잘 이해가 안 된다면 물론 언제든지 숫자를 대입해서 어떻게 이렇게 되는 건지 볼 수 있지만 사실 이 두 값에 얼만큼의 변동이 일어나는지를 나타냅니다 모든 자료값에는 각각 X와 Y가 있습니다 전체 모집단을 알고 있다고 가정합니다 모든 좌표값 X, Y 가 여러분이 여기에 대입시키는 값입니다 만약 X가 평균보다 크고 Y가 평균보다 작다고 합시다 모집단에서 자료값 하나를 가져옵니다 확률변수를 예시화하면 모집단에서 표본을 하나 가져왔을 때 X는 1이고 Y는 Y는 3이라 하겠습니다 X의 기댓값이 0인 것을 알고 있습니다 X의 기댓값이 0인 것을 알고 있습니다 Y의 기댓값은 4라고합니다 이 경우에는 어떤 일이 일어날까요? 전체 공분산은 모르지만 확률변수의 표본 하나만 가지고 있습니다 하지만 무슨 일이 일어날까요? 1 빼기, 전체 기댓값을 계산하는 건 아니지만 1 빼기, 전체 기댓값을 계산하는 건 아니지만 기댓값 안의 값을 계산하면 뭐가 나오는지만 보고 싶으니까요 1 – 0이니깐 1에 (3 – 4)이니깐 (-1)를 곱합니다 1 – 0이니까 1에 (3 – 4)이니깐 (-1)를 곱합니다 1 곱하기 –1은 -1이죠 무슨 뜻인가요? 적어도 이 표본에서는 확률변수 X와 Y의 표본을 가져왔을 때 X는 기댓값보다 크고 Y가 기댓값보다 작습니다 이걸 전체 모집단에 적용하면 음의 공분산이 있다는 게 설명되겠죠 음의 공분산이 있다는 게 설명되겠죠 하나가 올라가면 다른 하나는 내려갑니다 하나가 내려가면 다른 하나는 올라갑니다 둘이 같이 올라가거나 같이 내려가면 양의 분산을 가지고 있겠죠 둘이 같이 올라가거나 같이 내려가면 양의 분산을 가지고 있겠죠 두 값의 크기가 공분산의 크기를 알려 줍니다 공분산이 우리에게 무엇을 알려주는지에 대해 이해하는 데 도움이 됐길 바랍니다 하지만 이 동영상에서의 더 중요한 점은 이 공식을 연결하는 것입니다 이 공분산의 정의를 지금까지 최소 제곱 회귀를 가지고 해온 것들과 연결하고 싶군요 이렇게 연결하는 법을 여러분께 보여 드리는 건 수학의 재미를 보여주고 공분산의 정의를 어디에 사용할 수 있는지를 보여주기 위해서입니다 회귀를 배우면서 공분산이 쓰이면서 큰 동기가 된 것 같습니다 모두 이전에 본 것이지만 다른 방식으로 알아 보는 것입니다 이 동영상에서는 공분산의 정의를 여기 다시 쓸게요 이건 기댓값과 같고 여기 두 이항들은 그냥 곱하겠습니다 여기 두 이항들은 그냥 곱하겠습니다 확률변수 X의 기댓값 곱하기 확률변수 Y이고 X를 먼저 계산할게요 + X × (Y의 음의 기댓값) - X × (Y의 기댓값)이라 할게요 이 마이너스 표시는 여기서 온 겁니다 - (X의 기댓값) × Y이고 분배법칙을 두 번 사용했습니다 마지막으로 (X의 음의 기댓값) 곱하기 (Y의 음의 기댓값)이 있습니다 마이너스 부호는 없어집니다 + (X의 기댓값) × (Y의 기댓값)만 남아요 + (X의 기댓값) × (Y의 기댓값)만 남아요 이제 전체의 기댓값을 구해야합니다 이제 전체의 기댓값을 구해야합니다 이걸 다시 쓸 수 있나 봅시다 확률변수들의 합의 기댓값 또는 그 합과 차의 기댓값은 확률변수들의 기댓값의 합이나 차와 같습니다 확률변수들의 기댓값의 합이나 차와 같습니다 확률변수들의 기댓값의 합이나 차와 같습니다 많은 경우 기댓값은 그냥 평균이라고 할 수 있다는 점을 기억하세요 또는 연속분포의 경우 확률가중합이나 확률가중적분이라고 볼 수도 있습니다 모든 것들이 전에도 본 적이 있는 개념입니다 다시 써볼게요 이건 확률변수 XY의 기댓값과 같고 X × Y입니다 알아보기 쉽게 색깔을 쓸게요 그리고 –X × Y의 기댓값이 있습니다 -X의 기댓값 × Y의 기댓값이 있습니다 -X의 기댓값 × Y의 기댓값이 있습니다 여기 있는 값들의 기댓값을 뺍니다 여기 있는 값들의 기댓값을 뺍니다 여기 있는 값들의 기댓값을 뺍니다 (X의 기댓값) × Y 기댓값들 때문에 무척 혼란스러워 보일 수도 있다는 건 압니다 하지만 기댓값들을 쉽게 알아 보려면 숫자를 대입하면 됩니다 이미 기댓값을 안다고 하고 기댓값 표시는 뺍니다 기댓값의 기댓값은 기댓값과 같으니까요 기억해두기 위해 여기에 쓸게요 X의 기댓값의 기댓값은 X의 기댓값입니다 이렇게 생각해 보세요 확률변수에 대한 모평균이라 생각해 볼 수 있습니다 그러면 이미 아는 값이 됩니다 모집단에 값이 존재합니다 그 값의 기댓값은 원래 값과 같겠죠 모평균, 또는 X의 기댓값이 5라면 5의 기댓값은 5이고 5의 기댓값은 5이고 그건 X의 기댓값과 같습니다 이해하셨기를 바랍니다 잠시 뒤에 사용하게 될 테니까요 거의 다 했습니다 기댓값을 계산했고 항 하나가 남았는데요 마지막 항의 기댓값입니다 여기서부터 방금 배웠던 것을 이용해 보겠습니다 써놓을게요 이 기댓값은, 먼저 대괄호를 만들고 이 값의 기댓값 말입니다 (X의 기댓값) × (Y의 기댓값) 간단히 할 수 있나 봅시다 두 확률변수의 곱의 기댓값과 같은 값입니다 그냥 이대로 둘게요 제가 그대로 두는 것들은 건드리지 않겠습니다 제가 그대로 두는 것들은 건드리지 않겠습니다 XY의 기댓값입니다 여기엔 뭐가 있나요? X의 기댓값 곱하기 다시 말하지만 아까 다뤘던 내용으로 돌아가면 Y의 기댓값은 그냥 숫자가 됩니다 이걸 괄호 밖으로 뺄 수 있습니다 이게 3X의 기댓값이라면 3 × X의 기댓값과 같겠죠 (Y의 음의 기댓값) × (X의 기댓값) (Y의 음의 기댓값) × (X의 기댓값)으로 다시 쓸 수 있습니다 이걸 기댓값에서 꺼내와 계산했다고 볼 수 있습니다 이렇게요 여기엔 빼기를 합니다 여기도 똑같습니다 X의 기댓값은 계산에서 제외할 수 있습니다 -(X의 기댓값) × (Y의 기댓값) E 자가 워낙 많아서 슬슬 헷갈리기 시작하는 것 같네요 E 자가 워낙 많아서 슬슬 헷갈리기 시작하는 것 같네요 마지막으로 이 녀석의 기댓값 기댓값 두 개입니다 그러면 그냥 그 두 기댓값의 곱이 되겠죠 따라서 이건 건드리지 않고 + (X의 기댓값) × (Y의 기댓값) 여기엔 뭐가 있죠? Y의 기댓값 × X의 기댓값이 있습니다 Y의 기댓값 × X의 기댓값이 있습니다 Y의 기댓값 × X의 기댓값이 있습니다 이 둘은 똑같습니다 맞죠? 따라서 이건, 그전에 여길 보세요 두 번 뺀 다음 하나를 더합니다 이 값들은 다 같습니다 이건 Y의 기댓값 × X의 기댓값이고 이것도 Y의 기댓값 × X의 기댓값입니다 순서를 다르게 썼을 뿐이죠 이것도 Y의 기댓값 × X의 기댓값입니다 두 번 뺀 다음 한 번 더하는 겁니다 다른 방법으로는 이 값과 이 값을 소거하면 됩니다 이 값과 이 값으로 할 수도 있었습니다 그러면 뭐가 남죠? 남은 것은 두 확률변수의 공분산입니다 X와 Y는, 그 전에 이게 최종 결과니까 색깔을 다시 바꿀게요 X × Y의 기댓값 X × Y의 기댓값 빼기 이건 뭔가요? (Y의 기댓값) × (X의 기댓값)입니다 여러분이 각 확률변수의 확률분포나 밀도함수를 안다면 이 기댓값을 계산할 수 있습니다 아니면 확률변수를 예시화 할 때의 표본이 나온 전체 모집단을 알고 있으면 됩니다 하지만 일단 확률변수의 표본만 가지고 있다고 합시다 어떻게 값을 추정하죠? 기댓값을 추정한다면 자료값이 여러 개 있다고 좌표가 여러 개 있다고 칩시다 이게 회귀와 어떻게 연결되는지 보이기 시작할 것 같은데요 이게 회귀와 어떻게 연결되는지 보이기 시작할 것 같은데요 X × Y의 기댓값은 X × Y의 기댓값은 X × Y의 표본평균을 구함으로 근삿값을 구할 수 있습니다 이게 X와 Y의 표본평균이 됩니다 XY 조합을 가져다가 곱을 구하고 그 전체 평균을 구합니다 이게 X와 Y의 곱이죠 여기 있는 Y의 기댓값는 Y의 표본평균으로 근삿값을 구할 수 있습니다 X의 기댓값은 X의 표본평균으로 근삿값을 구할 수 있습니다 두 확률변수의 공분산은 무엇으로 추정되나요? 근삿값을 어떻게 구하죠? 이게 여러분의 표본에서 나온 곱의 평균이고 Y의 표본평균 × X의 표본평균을 뺍니다 Y의 표본평균 × X의 표본평균을 뺍니다 Y의 표본평균 × X의 표본평균을 뺍니다 이제 익숙해 보이기 시작할 텐데요 익숙해 보일 겁니다 이걸 보세요 이값은 분자입니다 회귀직선의 기울기를 구하려고 할 때 분자로 놓았던 식입니다 회귀직선의 기울기를 구하려고 할 때 분자로 놓았던 식입니다 회귀직선의 기울기를 구하려고 할 때 상기시켜 드리기 위해 공식을 여기 다시 쓸게요 각 자료값의 곱, 또는 XY의 평균에서 각 자료값의 곱, 또는 XY의 평균에서 Y의 평균 × X의 평균을 뺀 값입니다 위의 값을 X²의 평균으로 X × X의 평균으로 나눴다고 봐도 괜찮아요 하지만 X²의 평균 - (X의 평균)² 이라고 쓰겠습니다 하지만 X²의 평균 - (X의 평균)² 이라고 쓰겠습니다 이렇게 해서 회귀직선의 기울기를 구했습니다 다른 좋은 방법으로는 회귀직선에 있는 좌표들이 모집단을 대표할 수 있는 표본이라고 생각하면 모집단을 대표할 수 있는 표본이라고 생각하면 우리가 회귀적선의 기울기의 근삿값을 구하고 있다 할 수 있습니다 이 조그만 모자 모양을 책에서 많이 볼 수 있습니다 여러분을 헷갈리게 하고 싶지 않아요 표본을 사용해서 그 모집단의 회귀직선을 예상한다는 것입니다 표본을 사용해서 그 모집단의 회귀직선을 예상한다는 것입니다 지금까지 배운 것은 여기 있는 게 공분산입니다 또는 X와 Y의 공분산의 근삿값입니다 이건 뭔가요? 방금 말했듯이 이 밑부분은 방금 말했듯이 이 밑부분은 X × X 그러니까 X²의 평균으로 쓸 수 있습니다 X × X 그러니까 X²의 평균으로 쓸 수 있습니다 거기서 (X의 평균) × (X의 평균) 을 빼줍니다 (X의 평균)²과 같은 값이니까요 이건 무엇입니까? X, X의 공분산이라고 할 수도 있습니다 하지만, 이미 본 적이 있습니다 그리고 예전에 이게 무엇인지 처음 배울 때 보여 드린 적 있습니다 확률변수 자신에 대한 공분산은 그 확률변수의 분산과 같습니다 직접 확인하실 수도 있습니다 Y를 X로 바꾸면 (X – X의 기댓값) × (X – X의 기댓값) (X – X의 기댓값) × (X – X의 기댓값) 혹은, (X – X의 기댓값)²의 기댓값입니다 혹은, (X – X의 기댓값)²의 기댓값입니다 이것은 분산의 정의입니다 우리가 구한 회귀직선의 기울기에 대해 생각해보는 또 다른 방법은 두 확률변수의 공분산을 X의 분산으로 나누는 법입니다 아니면 독립확률변수라고 생각할 수도 있습니다 아니면 독립확률변수라고 생각할 수도 있습니다 이것은 회귀직선의 기울기입니다 아무튼 저는 흥미롭다고 생각했습니다 통계의 서로 다른 부분과 연결짓고 실제로 연결되어 있다는 것을 여러분께 보여드리고 싶었습니다