[책] How to Measure Anything 1부 - 측정에 대해서

제 1부 측정은 이미 존재한다.

  • 측정은 불확실성을 줄이기 위한 최적화 문제로 생각해야 합니다.
  • 측정은 “불확실성을 줄이기 위한’ 것이지, 불확실성을 완전히 제거하기 위한 것이 아닙니다.

왜 측정 불가능한 것은 없는가?

  • 측정이 불가능하다고 생각하는 이유
  • 측정의 개념에 대한 오해
  • 측정의 대상이 잘 정의되지 않았음
  • 측정의 방법을 잘 모르고 있음
  • 측정을 반대하는 이유
  • 경제적 측면에서의 반대
  • 통계의 의미나 유용성에 대한 반대
  • 윤리적 반대

측정의 정의

  • 측정: 하나 이상의 관찰을 통해 정량적으로 표현된 불확실성의 감소
  • 기존의 정의와 달리 무한한 정확성을 가져야할 필요가 없어집니다.
  • 이런 측정의 정의는 정보이론에 기반합니다.
  • 정보이론에서 정보는 신오에서 불확실성이 감소하는 양으로 정의되고, 그 신호에 의해 제거되는 불확실성을 “엔트로피”로 정리됩니다.
  • “불확실성을 줄이는” 정보에 대한 셰논의 관점은 사업 경영의 의사 결정에서 매우 중요합니다.
  • 사람들이 생각하는 것처럼 측정이 항상 정량적일 필요는 없습니다.
  • 불확실성은 적어도 정량적이어야 하겠지만, 관찰의 대상이 정량적인 값일 필요는 없는데, 어떤 집합의 포함관계 같이 전적으로 정성적인 것도 관찰과 측정의 대상이 될 수 있습니다.
  • 하지만 그런 관찰 결과에 대한 불확실성은 반드시 정량적으로 표현되어야 합니다

측정의 대상

  • 앞에서 이야기한 유용한 측정의 개념(불확실성을 줄여주는 관찰)을 받아들이더라도, 우리가 문제를 처음 접했을 때 그것이 무엇을 의미하는지 알 수 없는 것은 여전히 측정할 수 없는 것처럼 보입니다. 이것은 측정의 대상이 명확하게 정의되지 않아서 그렇습니다.
  • 이 경우 “연쇄 설명(Clarification Chain)”이라고 부르는 작업을 하거나, 그것도 제대로 작동하지 않으면 일종의 사고 실험을 할 수도 있습니다.
  • 무엇을 측정할 수 없다고 생각하는 데에서부터 그걸 구체화할 수 있다고 생각하기까지 연결하는 과정입니다.
  • 만약 어떤 알려지지 않은 대상을 측정하고자 한다면, 그 알려지지 않은 무엇인가와 우리가 원하는 혹은 원하지 않는 결과가 서로 연결되어 있기 때문일 것입니다.
  • 둘째, 만약 어떤 대상을 관찰할 수 있다면, 동시에 그 대상을 정량할 수도 있을 것입니다. 우리가 무언가를 여러 번 관찰할 수 있다면, 그것이 상대적으로 많고 적은 것도 관찰할 수 있을 것입니다.
  • 만약 우리가 그 정량의 값을 인정할 수 있다면, 마지막 단계는 매우 쉽습니다. 대상을 정량의 값으로 관찰할 수 있다면, 그건 측정 가능한 것입니다.
  • 무엇을 측정하고자 하는가를 이해하기 위해서 왜 그것을 측정하려고 하는지 정의하는 것도 중요합니다.

측정의 방법

  • 네 가지 유용한 측정의 가정
  • 당신의문제는당신생각처럼독특한것이 아닙니다.
  • 당신은 생각하는 것보다 더 많은 데이터를 가지고 있습니다.
  • 당신은 생각하는 것보다 적은 데이터를 필요로 합니다.
  • 적당한 양의 새로운 데이터는 당신이 생각하는 것보다 쉽게 구할 수 있습니다.

측정을 반대하는 이유

경제적 이유

  • 어떤 항목이 측정하기에 “너무 비싸다” 또는 “너무 어렵다”는 얘기가 나온다면, “무엇과 비교해서요?”라는 반문을 해야 합니다. 그 항목을 측정했을 때 정보 가치가 거의 없다면, 그 측정은 필요가 없습니다.
  • 하지만 가치가 있다면, “이 항목의 불확실성을 줄일 수 있는 경제적인 측정 방법이 있지 않을까?”라는 질문을 해봐야 합니다. 불확실성을 부분적으로라도 줄이는 것에 대한 가치를 인식할 수 있다면, 보통 이 질문에 대한 답은 “예”가 될 것입니다.

통계적 이유

  • 측정이 가능하더라도 흔히 인용되는 “거짓말, 새빨간 거짓말, 그리고 통계”에서처럼 통계와 확률 자체가 의미가 없기 때문에 측정 자체가 의미가 없다는 것입니다.
  • 사람들이 “통계로는 무엇이든지 증명할 수 있다”고 말할 때 “통계”는 원래 그 자체보다는 다양한 형태의 숫자들, 특히 백분율을 의미하는 것 같습니다.
  • 위에서 언급한 다른 문구들은 확률이나 위험, 측정의 기본이 되는 개념에 대한 오해에서 비롯된 것입니다.
  • 우리가 확률을 사용하는 이유는 그 결과를 완전하게 확신할 수 없기 때문입니다.

윤리적 반대

  • 사실 사소한 것이라도 개선하려는 태도에 비해 문제 자체를 무시하려는 태도는 절대 도덕적으로 우월하다고 할 수 없습니다.

측정에 대한 통일된 접근

  • 1.의사결정 문제와 관련된 불확실한 부분을 정의합니다
  • 2.지금 무엇을 알고 있는지 확인합니다.
  • 3.추가정보의 가치를 계산합니다
  • 4.관련된 측정 도구를 가치가 큰 측정에 사용합니다
  • 5.3단계로 돌아가서 반복합니다
  • 6.행동에 옮깁니다.

Read more

ML 코드 작성시 유의사항

ML 코드 작성시 유의사항

유의사항 * 코드의 작성방식: 다른사람이 코드를 읽고 이해할 수 있는가? * 코드의 성능: 의도치 않은 부작용이 발생하는가? * 코드의 복잡성: 유스케이스에 비해 설계가 과도하고 부족한가 * 개선의 용이성: ML코드가 지속적으로 리팩토링 되는가? 코드 작성방식에 따른 개발자(+데이터과학자)의 유형 분류 출처 * 머신러닝 엔지니어링 인 액션

ELPD는 모델이 새로운 데이터를 얼마나 잘 예측하는지를 보여주는 지표입니다.

ELPD는 모델이 새로운 데이터를 얼마나 잘 예측하는지를 보여주는 지표입니다.

기본 개념 * ELPD(Expected Log Predictive Density)는 모델이 새로운 데이터를 얼마나 잘 예측하는지를 나타내는 지표로, 주어진 데이터 포인트에 대해 모델이 예측한 확률의 로그 값(로그확률)을 합산한 것입니다. $$\text{ELPD} = \sum_{i=1}^{n} \log p(y_i \mid \text{data})$$ * $n$: 데이터 포인트의 수 * $y_i$ : 실제 관측된

잭나이프 샘플링은 표본의 변동성 추정 방법중 하나입니다.

잭나이프 샘플링은 표본의 변동성 추정 방법중 하나입니다.

잭나이프 샘플링이란? * 잭나이프 샘플링은 표본 데이터에서 하나의 관측치를 제거한 여러 하위 샘플을 만들어, 이들 샘플에 대해 통계량을 계산한 후 그 결과를 바탕으로 전체 표본의 변동성을 추정하는 방법입니다. 잭 * 나이프는 주로 표본의 분산을 추정하거나 통계량의 편향을 줄이기 위해 사용됩니다. 예시 * 주어진 표본이 [x1, x2, x3, x4]라면, 잭나이프 샘플링은 다음과 같은

정확한 단위로 대화를 하는 것이 중요합니다.

정확한 단위로 대화를 하는 것이 중요합니다.

자전거를 타고 약속장소로 이동하는 중이었습니다. 근처 과일 가게에 이런 문구가 적혀있었습니다. "한 상자에 X,000원" 과일을 직접 사먹지는 않는 편이기 때문에 가격은 모르지만 꽤 매력적인 가격대였습니다. 그래서 잠시 "살까?" 망설였습니다. 하지만 이내 자전거를 타고 다시 가던 길을 갔습니다. 한 상자 안에 몇개가 들어가 있을지를 몰랐기 때문입니다.