주요 내용
컴퓨터과학
의사소통의 수학적 이론
클로드 섀넌 (Claude Shannon)은 마르코프 체인 (Markov chains)을 사용하여 "영어처럼 보이는" 텍스트를 생성하는 방법을 찾았습니다. 만든 이: Brit Cruise
동영상 대본
섀넌은 방금 암호학과 관련된
이론을 완성시켰습니다 그 이론에 의해 사람의 의사소통은 무작위와 통계적 의존이
뒤섞인 것임을 알 수 있습니다 우리 말의 글자들은 분명하게도 그 전의 글자들에 의존합니다 1949년에 그는 획기적인 논문인 "커뮤니케이션의 수학적 이론"을
발표했습니다 여기에서 그는
마르코프 모델을 기초로 삼아 우리가 의사소통을 생각하는
방법을 다뤘습니다 예로 쉬운 경우를 사용했습니다 알파벳 A, B, C로 이루어진 텍스트를 상상해 보세요 이 언어에 대해
아무 것도 모른다고 해도 A들이 집단을 이룬다는 것을
알아차릴 겁니다 B와 C는 그렇지 않고요 섀넌은 마르코프 체인을 이용하여 유사한 텍스트를 만드는 기계를 디자인 할 수 있다고 했습니다 그는 독립적으로
A, B, 또는 C를 무작위로 선택하고 문자의 나열을 만들어내는 영차 근사로 시작했습니다 그러나 그 나열은 원래 것과 같아 보이지 않네요 섀넌은 일차 근사를 사용하면
더 낫다고 말했습니다 글자들이 독립적으로 선택되지만 원래 텍스트에서
문자들이 가지고 있던 확률을 따르기 때문이죠 A들이 비슷해서 더 나아 보이죠 그러나 여전히 구조를 완벽히
만들어내진 못합니다 다음 단계가 중요합니다 이차 근사는 발생할 수 있는 문자들의 쌍을 고려합니다 이 경우 세 상태를 가지죠 첫 번째 상태는 모든 쌍들이
A로 시작하는 경우 두 번째는 모든 쌍들이
B로 시작하는 경우 세 번째는 모든 쌍들이
C로 시작하는 경우죠 A컵에는 AA쌍이 많이 담겨있는데
원본 텍스트에서 A 다음에 A가 오는 조건부 확률이
더 높기 떄문입니다 이차 순서 근사를 이용하여 이렇게 쉽게 글자를
열거할 수 있습니다 어디서든 타일을 골라서 그 결과를 첫 글자로 적습니다 그리고 두 번째 글자로 정의된
다음 컵으로 갑니다 새 타일을 고르고 이것을 무한히 반복합니다 이 나열은 이제 원본 텍스트와 비슷해지기 시작합니다 이 모델이 글자들간의 조건적인 의존을 고려했기 떄문이죠 더 나은 결과를 위해서 삼차 근사를 이용할 수 있습니다 세 글자의 집합 즉 삼선형을 고려하는 것이죠 이 경우는 아홉 가지 상태가
필요합니다 섀넌은 이와 같은 논리를 실제 영어 텍스트에 적용했고 글자, 쌍, 삼선형 등으로 알려진
통계를 사용했습니다 그는 영차 순서의 무작위 글자에서 일차, 이차, 삼차로 가면서 아까와 같은 진행을 보여주었습니다 그렇게 계속하고, 같은 것을 문자가 아니라
단어를 사용해 시도했습니다 그는 이렇게 썼죠,
원본 텍스트와의 유사성은 각 단계마다 확연하게 높아진다 당연히 이 기계는 의미 없는 텍스트를 만들지만
그 텍스트는 실제 영어와 거의 똑같은 통계적 구조를 보여줍니다 섀넌은 정보의 양적 측정을 정의하고자 했습니다 그는 어떤 메시지의 정보의 양은 비슷한 나열을 만드는 기계에 기반을 두고 있어야 함을 깨달았습니다 그것은 그의
엔트로피 개념으로 이어지죠