반복적 죄수의 딜레마 게임에서 최강의 전략은?

죄수의 딜레마(prisoner's dilemma)는 원래 1950년 수학자이자 프린스턴 대학교수인 앨버트 터커(내시균형이라는 용어를 탄생시킨 존 내시의 지도교수)가 강의때 사용한 일종의 사고실험이다. 이 사고실험은 2인조 은행강도가 경찰에 체포되어 각자 다른 방에서 취조를 받을 때 경찰관은 용의자들에게 다음과 같이 압박한다는 사고 실험이다.

"만약 두사람이 모두 묵비권을 행사한다면 증거불충분으로 형기는 1년, 두사람 모두 자백하면 형기는 5년이 된다. 하지만 만약 상대가 묵비권을 행사하고 당신이 자백하면 수사협력에 대한 사례로 당신은 무죄석방되고 상대의 형기는 10년이 된다." 이때 두명의 용의자는 다음과 같이 생각할 것이다.'먼저 상대가 묵비권을 행사한다고 가정할 경우, 내가 자백하면 무죄석방이고 내가 묵비하면 형기는 1년이므로 자백하는 편이 낫다. 반면 상대가 자백한다고 가정할때 나도 자백하면 형기는 5년, 내가 묵비하면 형기는 10년이 되므로 이경우 역시 자백하는 편이 낫다. 즉 상대가 자백을 하든 묵비를 하든 내게는 자백하는 것이 합리적이다.이처럼 이득을 최대화하기 위한 합리적인 전략을 채택한다고 해서 반드시 참가자 전체의 이득이 최대화되는것은 아니라는 논리로 이를 'non-zero sum game'이라고 한다.

한편, 죄수의 딜레마는 단 한번의 의사결정으로 참가자의 이득이 결정되는 게임인데 이를 발전 시킨 것이 '반복적 죄수의 딜레마'게임으로 설명하면 다음과 같다.'이 게임에서는 참가자가 각각 협조와 배신의 카드를 갖고 있다가 신호와 함께 동시에 상대에게 한가지 카드만을 보여준다. 두사람 모두 배신을 선택하면 둘다 10만원의 상금을 얻고 두사람 모두 협조을 선택하면 둘다 30만원을 상금으로 받는다. 만약 1명이 배신하고 다른 한명이 협조하면 배신한 사람에게 50만원의 상금이 주어지고 협조한 사람에게 아무것도 주어지지 않는다.'어떤 선택을 해야 가장 많은 상금을 얻을 수 있을까에 대해총15개의 프로그램이 한 시합당 게임을 200회씩, 총5번의 시합을 실시해 평균점수를 비교해본 결과 응모된 프로그램중 가장 단순한 3행으로 이루어진 프로그램이 우승했다. 이는 토론토대 심리학교수 아나톨 래퍼포트가 작성한 프로그램으로 처음에 협조를 내고 그다음에는 바로 전에 상대가 냈던 것을 똑같이 내고 이것을 계속 반복하는 것이다.

이프로그램의 강점에 대해 미시간대학 교수 로버트 액설로드가 다음과 같이 설명한다.

첫째,이프로그램은 결코 자신이 먼저 배신하지 않는다. 우선 협조하고 상대가 협조하는 한 협조를 계속하는 '좋은 녀석'전략을 구사한다. 둘째, 상대가 배신하면 그자리에서 자신도 배신으로 돌아선다. 계속 협조하다가 상대가 배신하면 상대에게 페널티 준다. 셋째, 상대가 다시 협조로 돌아오면 협조로 돌아서는 포용성도 갖고 있다. 이미 끝난 일은 잊어버리고 미래를 위해 협력하는 깔끔한 전략을 펼친다. 넷째, 이프로그램은 상대측에서 보면 '내가 배신하지 않는한 이녀석은 좋은 사람이지만 내가 배신하면 상대도 바로 배신한다.'는 사실이 분명해서 파악하기 쉽고 예측하기도 수월하다. 이후 제2회 콘테스트에서도 이프로그램으로 다시 우승을 차지했다는 것을 보면 다른 사람에 대해 도둑이라고 생각하라는 격언을 재고해야 할 것 같다.

야마구치 슈의 '철학은 어떻게 삶의 무기가 되는가?'중에서

저작자표시

'잡다한 이야기' 카테고리의 다른 글

스피노자의 욕망-욕망은 인간의 본질이다 (0)	2023.06.25
라캉의 욕망 – “인간의 욕망은 타자의 욕망이다” (0)	2023.06.22
시치미의 유래 (0)	2023.04.04
구름은 왜 하얀색일까요? (0)	2023.03.30
하늘이 파란 이유는?, 노을이 붉은 이유는? (0)	2023.03.29