[책] How to Measure Anything 1부 - 측정에 대해서

제 1부 측정은 이미 존재한다.

  • 측정은 불확실성을 줄이기 위한 최적화 문제로 생각해야 합니다.
  • 측정은 “불확실성을 줄이기 위한’ 것이지, 불확실성을 완전히 제거하기 위한 것이 아닙니다.

왜 측정 불가능한 것은 없는가?

  • 측정이 불가능하다고 생각하는 이유
  • 측정의 개념에 대한 오해
  • 측정의 대상이 잘 정의되지 않았음
  • 측정의 방법을 잘 모르고 있음
  • 측정을 반대하는 이유
  • 경제적 측면에서의 반대
  • 통계의 의미나 유용성에 대한 반대
  • 윤리적 반대

측정의 정의

  • 측정: 하나 이상의 관찰을 통해 정량적으로 표현된 불확실성의 감소
  • 기존의 정의와 달리 무한한 정확성을 가져야할 필요가 없어집니다.
  • 이런 측정의 정의는 정보이론에 기반합니다.
  • 정보이론에서 정보는 신오에서 불확실성이 감소하는 양으로 정의되고, 그 신호에 의해 제거되는 불확실성을 “엔트로피”로 정리됩니다.
  • “불확실성을 줄이는” 정보에 대한 셰논의 관점은 사업 경영의 의사 결정에서 매우 중요합니다.
  • 사람들이 생각하는 것처럼 측정이 항상 정량적일 필요는 없습니다.
  • 불확실성은 적어도 정량적이어야 하겠지만, 관찰의 대상이 정량적인 값일 필요는 없는데, 어떤 집합의 포함관계 같이 전적으로 정성적인 것도 관찰과 측정의 대상이 될 수 있습니다.
  • 하지만 그런 관찰 결과에 대한 불확실성은 반드시 정량적으로 표현되어야 합니다

측정의 대상

  • 앞에서 이야기한 유용한 측정의 개념(불확실성을 줄여주는 관찰)을 받아들이더라도, 우리가 문제를 처음 접했을 때 그것이 무엇을 의미하는지 알 수 없는 것은 여전히 측정할 수 없는 것처럼 보입니다. 이것은 측정의 대상이 명확하게 정의되지 않아서 그렇습니다.
  • 이 경우 “연쇄 설명(Clarification Chain)”이라고 부르는 작업을 하거나, 그것도 제대로 작동하지 않으면 일종의 사고 실험을 할 수도 있습니다.
  • 무엇을 측정할 수 없다고 생각하는 데에서부터 그걸 구체화할 수 있다고 생각하기까지 연결하는 과정입니다.
  • 만약 어떤 알려지지 않은 대상을 측정하고자 한다면, 그 알려지지 않은 무엇인가와 우리가 원하는 혹은 원하지 않는 결과가 서로 연결되어 있기 때문일 것입니다.
  • 둘째, 만약 어떤 대상을 관찰할 수 있다면, 동시에 그 대상을 정량할 수도 있을 것입니다. 우리가 무언가를 여러 번 관찰할 수 있다면, 그것이 상대적으로 많고 적은 것도 관찰할 수 있을 것입니다.
  • 만약 우리가 그 정량의 값을 인정할 수 있다면, 마지막 단계는 매우 쉽습니다. 대상을 정량의 값으로 관찰할 수 있다면, 그건 측정 가능한 것입니다.
  • 무엇을 측정하고자 하는가를 이해하기 위해서 왜 그것을 측정하려고 하는지 정의하는 것도 중요합니다.

측정의 방법

  • 네 가지 유용한 측정의 가정
  • 당신의문제는당신생각처럼독특한것이 아닙니다.
  • 당신은 생각하는 것보다 더 많은 데이터를 가지고 있습니다.
  • 당신은 생각하는 것보다 적은 데이터를 필요로 합니다.
  • 적당한 양의 새로운 데이터는 당신이 생각하는 것보다 쉽게 구할 수 있습니다.

측정을 반대하는 이유

경제적 이유

  • 어떤 항목이 측정하기에 “너무 비싸다” 또는 “너무 어렵다”는 얘기가 나온다면, “무엇과 비교해서요?”라는 반문을 해야 합니다. 그 항목을 측정했을 때 정보 가치가 거의 없다면, 그 측정은 필요가 없습니다.
  • 하지만 가치가 있다면, “이 항목의 불확실성을 줄일 수 있는 경제적인 측정 방법이 있지 않을까?”라는 질문을 해봐야 합니다. 불확실성을 부분적으로라도 줄이는 것에 대한 가치를 인식할 수 있다면, 보통 이 질문에 대한 답은 “예”가 될 것입니다.

통계적 이유

  • 측정이 가능하더라도 흔히 인용되는 “거짓말, 새빨간 거짓말, 그리고 통계”에서처럼 통계와 확률 자체가 의미가 없기 때문에 측정 자체가 의미가 없다는 것입니다.
  • 사람들이 “통계로는 무엇이든지 증명할 수 있다”고 말할 때 “통계”는 원래 그 자체보다는 다양한 형태의 숫자들, 특히 백분율을 의미하는 것 같습니다.
  • 위에서 언급한 다른 문구들은 확률이나 위험, 측정의 기본이 되는 개념에 대한 오해에서 비롯된 것입니다.
  • 우리가 확률을 사용하는 이유는 그 결과를 완전하게 확신할 수 없기 때문입니다.

윤리적 반대

  • 사실 사소한 것이라도 개선하려는 태도에 비해 문제 자체를 무시하려는 태도는 절대 도덕적으로 우월하다고 할 수 없습니다.

측정에 대한 통일된 접근

  • 1.의사결정 문제와 관련된 불확실한 부분을 정의합니다
  • 2.지금 무엇을 알고 있는지 확인합니다.
  • 3.추가정보의 가치를 계산합니다
  • 4.관련된 측정 도구를 가치가 큰 측정에 사용합니다
  • 5.3단계로 돌아가서 반복합니다
  • 6.행동에 옮깁니다.

Read more

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성은 잘못된 인과추론 결과를 만들어낼 수 있습니다.

다중공선성(Multi Collinearity) * **Multi-Collinearity(다중공선성)**는 독립 변수들 간의 강한 상관관계가 존재할 때 발생합니다. 즉, 한 독립 변수가 다른 독립 변수에 의해 설명될 수 있을 정도로 상관관계가 높은 상황을 의미합니다. * 이 문제는 주로 회귀 분석에서 나타나며, 변수들 간의 관계를 해석하는 데 있어 큰 장애물이 될 수 있습니다. * 일반적인 회귀식을 $Y=

Bayesian P-Value는 불확실성을 감안하여 모델의 적합도를 평가합니다.

Bayesian P-Value는 불확실성을 감안하여 모델의 적합도를 평가합니다.

Bayesian P- Value * Bayesian P-Value는 **모델의 적합도(goodness-of-fit)**를 평가하는 데 사용됩니다. * 사후 분포(posterior distribution)를 이용하여 실제 데이터와 모델이 생성한 예상 데이터를 비교함으로써, 관측된 데이터가 모델에 의해 얼마나 잘 설명되는지를 평가합니다. * 빈도주의 p-값은 "관찰된 데이터보다 극단적인 데이터가 나올 확률"을 계산하지만, Bayesian P-Value는 "모델이 실제

Non-Identifiability는 Model Parameter를 고유하게 식별할 수 없는 현상입니다.

Non-Identifiability는 Model Parameter를 고유하게 식별할 수 없는 현상입니다.

Non Identifiability * Non-Identifiability는 주어진 데이터와 모델에 대해 특정 파라미터를 고유하게 식별할 수 없는 상황을 의미합니다. 즉, 여러 파라미터 값들이 동일한 데이터를 생성할 수 있으며, 이로 인해 특정 파라미터 값을 확정적으로 추정하기 어렵게 됩니다. * 베이지안 추론에서 Non-Identifiability는 사후 분포가 특정 파라미터 값에 대해 명확하게 수렴하지 않고, 여러 값들에 대해 비슷한 확률을

Rootgram은 큰 분산을 갖거나 비정규 형태의 데이터를 위한 히스토그램입니다.

Rootgram은 큰 분산을 갖거나 비정규 형태의 데이터를 위한 히스토그램입니다.

Rootgram * 히스토그램의 변형으로 데이터가 비정규적이거나 큰 분산을 가지는 경우, 정확한 분포를 파악하기 위해 사용됩니다. * 일반적으로 히스토그램은 데이터의 빈도를 직접적으로 나타내기 때문에, 큰 값이 빈번하게 발생하는 경우 상대적으로 작은 값을 잘 드러내지 못하는 경향이 있습니다. 반면, Rootgram은 빈도를 제곱근 형태로 변환하여, 데이터 분포의 차이를 더 잘 시각화할 수 있도록 돕습니다 * 여기서