현재 시간:0:00전체 재생 길이:7:05
0 에너지 포인트
동영상 대본
두개의 기계를 상상해보세요. 둘 다 메시지를 출력합니다. A,B,C 또는 D 알파벳으로 부터요 기계1은 각 기호를 무작위로 만들어냅니다. 무작위작업은 25%를 발생시킵니다. 반면에 기계2는 기호를 다음의 확률에 따라서 만들어 냅니다. 어떤 기계가 더 많은 정보를 생산할까요? 클라우드 섀넌이 문제를 뜻을 더 분명하게 하기위해 바꾸어 묻습니다. 만일 당신이 각 기계로부터 다음의 기호를 예측해야만 한다면 최소로 질문해야할 Yes/No 문제의 질문 수는 몇 개가 될까요? 기계1을 봅시다. 가장 효과적인 방법은 확률을 반으로 나누는 질문을 제기하는 것입니다. 예를 들면, 우리의 첫 질문은 만일 'A냐, B냐' 같은 두개의 기호가 있다면 우리는 물을 수 있죠. A 또는 B가 될 확률이 50% 이니까요. 그리고 C 나 D가 될 기회도 50% 고요. 답을 얻은 후에는 우리는 확률의 반을 제거할 수 있으니까요. 그리고 나면 우리에게는 두개의 기호가 남을 거에요. 그래서 우리는 간단히 하나를 뽑습니다. "A일까?" 그리고 이 두 번째 질문 후에 우리는 기호를 정확하게 판별할 수 있을 겁니다. 기계 1의 불확실성은 기호에 따른 두 질문이라고 볼 수 있습니다. 기계 2는 어떨까요? 기계 1처럼 다음 기호를 파악하기 위한 질문 2개를 할 수 있습니다. 하지만 이번에는, 각 기호의 확률이 다릅니다. 그래서 우리는 다르게 질의해야 합니다. 여기 A는 50% 의 발생 기회가 있습니다. 그리고 A를 뺀 다른 나머지 알파벳들이 될 확률도 50% 입니다. "A입니까?" 질문으로 시작해보죠. A라면, 이런 경우에는 우리의 할 일은 다 끝난 것이고. 그렇지 않다면 , B, C, D 냐는 질문이 남습니다. "D입니까" 라고 질문할 수 있습니다. 맞다면, 두개의 질문으로 끝난 것이고 그렇지 않다면 세번째 질문을 해야만 합니다. 마지막 두 기호가 무엇인지 알아내려면요. 평균적으로 기계2에서 기호를 알아내려면 몇 번의 질문을 해야 할 거라고 생각하시나요? 이것은 비유를 통해 잘 설명할 수 있습니다. 가정해봅시다. 기계1과 기계2를 만들고자 하는데 디스크(원반)을 동등하게 같은 방향으로 못에 튕겨서 우리는 기호를 만들어낼 수 있습니다. 어디로 떨어지느냐를 토대로 기호를 발생(만들어) 낼 수 있죠. 기계1에 우리는 2단계를 더할 필요가 있습니다. 또는 2번째 바운스를 만들 필요가 있죠, 그래서 두번 튕기게 하는 겁니다. 그것은 4 등확률 결과물을 낳게 합니다. 디스크가 어디에 떨어지느냐에 근거해서 A, B, C, 또는 D를 출력합니다. 이제 기계2입니다. 이 경우에는 첫번째 튕김이 50%의 확률이 있는 A로 가거나 또는 두번째 튕김으로 갑니다. 그리고 나서 25% 확률의 D를 출력하거나 3번째 튕김(바운스)로 가게 되죠. 그리고 나면 12.5 % 확률의 B나 C로 갑니다. 이제 우리는 다음의 평균을 계산합니다. 예상 바운스(튕김)의 숫자는 기호A의 확률 곱하기 1바운스 더하기 B확률 곱하기 3바운스 더하기 C확률 곱하기 3바운스 더하기 D 확률 곱하기 2바운스 입니다. 이것은 1.75 바운스가 나옵니다. Yes/No 질무과 이 바운스와의 연관성을 주목해보세요. 질문의 예상 수는 바운스의 예상 수와 같습니다. 따라서 기계 1은 기호들을 만들어 내기 위해 2번의 바운스가 필요합니다. 모르는 기호를 알아내기 위해서 2개의 질문이 필요하듯이 말이죠. 기계2는 1.75 바운스(튕김)이 요구됩니다. 우리는 평균적으로 1.75의 질문을 해야 합니다. 이 뜻은 만일 우리가 이 두 기계를 이용해 100개의 기호를 알아내기 위해서는 우리는 기계1에게는 200개 질문을 기계2에게는 175개의 질문을 해야한다는 뜻입니다. 이것은 기계2가 적은 정보를 만들어낸다는 뜻이죠. 출력물(산출물)에 대한 불확실성이나 예상외의 일이 적기 때문입니다. 클라우드 섀넌은 이것을 평균적 불확실성의 측정 " 엔트로피" 즉 "예측불허" 라고 부릅니다. 그리고 그는 그것을 나타내기 위해 철자 H 를 사용합니다. 섀넌이 선택한 예측불허 유닛은 동전뒤집기의 불확실성에 근거하고 있습니다. 그는 그것을 "비트" 라고 부릅니다. 그 비트는 페어 바운스와 동등한 것입니다. 우리의 바운스 유추를 이용하면 같은 결과에 도달하죠. 예측불허 H 는 각 기호의 총체(시그마), 그 기호의 확률 곱하기 바운스의 수입니다. 차이점은 어떻게 우리가 바운스의 숫자를 좀더 일반적인 방법으로 표현하는가 입니다. 우리가 봤듯이 바운스의 숫자는 우리가 얼마나 아래로 멀리 굴리는가에 달렸습니다. 간단히 말하지면 바운스의 숫자가 한 레벨의 출력물의 로그와 같다고 말할 수 있습니다 한 레벨에서 나오는 출력물의 숫자는 또한 한 레벨에서 산출되는 숫자가 그 출력물의 확률로 나눠진 것과 같다는 확률에 근거하고 있죠. 바운스의 숫자는 사실 그 기호의 확률 분의 일의 로그와 같습니다. 최종 등식을 봅시다. 예측불허 H 는 각 기호의 확률의 총체(시그마) 곱하기 기호의 확률 분의 일의 로그를 곱한 것입니다. 섀넌은 이것은 살짝 다르게 씁니다. 로그 안의 표현을 뒤집으므로써 음수를 더하게 됩니다. 두 공식은 똑같은 결과를 났습니다 요점정리해 봅시다. 예측불허(엔트로피)는 모든 결과물이 동등하게 나오는 최대치입니다. 당신이 등확률 결과로부터 멀어지거나 예측가능성을 만들어낼 때 엔트로피는 떨어져야 합니다. 근본적인 아이디어는 이겁니다. 만일 정보의 엔츠로피가 떨어진다면 그것은 우리가 결과물을 추측하기위해 질문을 적게 해야한다는 것을 뜻합니다. 섀넌 덕분에 엔트로피의 단위인 "비트"는 정보의 정량적 측정, 예상치못한 경우의 정량적 측정으로 채택되었습니다.