Data
앞으로는 신뢰가 가장 큰 자산이 될 것입니다.
저녁에 샤워를 하고 있을 때였습니다. 세수를 위해 폼클렌저를 집는데, "나노버블"이라는 단어가 갑자기 눈에 띄었습니다. 그 때 머리속에 이런 질문이 떠올랐습니다 사람들이 나노버블의 의미를 이해하고 있을까? 이해한다면 얼마나 이해하고 있고 그 이해도는 얼마나 정확할까? 보통 우리가 문제를 해결할 때를 생각해보면 대부분의 문제는 초기 솔루션이 대부분의 문제는 해결합니다. 해결의
Data
저녁에 샤워를 하고 있을 때였습니다. 세수를 위해 폼클렌저를 집는데, "나노버블"이라는 단어가 갑자기 눈에 띄었습니다. 그 때 머리속에 이런 질문이 떠올랐습니다 사람들이 나노버블의 의미를 이해하고 있을까? 이해한다면 얼마나 이해하고 있고 그 이해도는 얼마나 정확할까? 보통 우리가 문제를 해결할 때를 생각해보면 대부분의 문제는 초기 솔루션이 대부분의 문제는 해결합니다. 해결의
Life
육아휴직을 하면서 종종, 다양한 분들과 커피챗을 하게 됩니다. 이번에도 그렇게 커피챗 일정을 잡고 논의를 하는 중이었습니다. 저와 커피챗을 진행하신 분은 저를 좋게 봐주셨는지, 혹시 회사 입사 프로세스를 진행하실 생각이 있으실지 이야기를 주셨습니다. 그래서 가족과 이야기를 나눈 후 정중하게 메일을 써서 거절을 하였습니다. 그리고 받은 메일을 보았는데, 굉장히 당황스러웠습니다. 딱 세문장이었습니다.
Life
휴직 중에, 가장 많은 시간을 투자하고 있는 활동은 바로 사람을 만나는 것입니다. 기존에 알고 있던 사람들을 만나면서 의사결정을 하는 과정과 근황에 대해서 이야기를 나누고 있습니다. 회사에서 다양한 문제를 해결해볼 수록, 느끼는 것은 결과물의 품질만큼이나, 왜 결과물을 이렇게 만들었는지에 대한 이야기 역시 중요하다 입니다. 이 과정에서 정말 어디서도 듣기 쉽지 않은
Data
Gradio import tensorflow as tf import numpy as np import gradio as gr # MNIST 데이터 로드 (x_train, y_train), (x_test, y_test) = tf.keras.datasets.mnist.load_data() # 데이터 전처리 x_train = x_train.reshape(-1, 28, 28, 1).astype('float32') / 255 x_test = x_test.
Data
Definition * 연속적인 함수 공간에서 정의된 확률 과정으로, 주어진 데이터로부터 함수의 분포를 추정하는 강력한 비모수적 방법입니다. * Gaussian Process는 주로 회귀 분석, 분류, 최적화 문제에서 사용되며, 특히 불확실성을 정량화하는 데 유용합니다. * Bayesian Analytics에서 Infinite Space에 대해 Prior를 적용하기 위한 방안으로 활용됩니다. Pros & Cons Pros 1. 비모수적 접근: 모델의 구조를 사전 정의하지
Team
이전에 수학과 논리학에 관한 책을 보다가 수학에 관한 재미난 정의를 본 적이 있습니다. 수학은 여러 논쟁 끝에 얻어낸 단단한 논리 기반 위에 차곡차곡 쌓아 올린 학문이기에 가장 정확한 사실을 전달해주는 언어이다라는 내용이었던 것으로 기억합니다. 이 이야기를 듣고 나니, 왜 고등학교에서 배우던 수학의 정석의 첫 단원이 집합이고, 그 이후에 이어지는 내용이
Data
Definition * **커널 함수(Kernel Function)**는 기계 학습과 통계에서 사용되는 함수로, 두 데이터 포인트 간의 유사도를 측정합니다 * . 주로 비선형 데이터를 고차원 공간으로 변환하여 선형 분리가 가능하게 하는 데 사용됩니다. * 커널 함수는 Support Vector Machines (SVM), Gaussian Process, 커널 PCA와 같은 다양한 알고리즘에서 핵심적인 역할을 합니다. Motivation * 기계 학습에서 많은 데이터는
Life
아침에 집을 나서는데 비가 정말 많이 오고 있습니다. 비가 이렇게 많이 오고, 해는 보이지 않으니 정말 어제 걸어간 길이 오늘 걸어가는 길이 맞는지 상상이 되지 않습니다. 여기에 덧붙여 잠까지 설치고 나니, 하루 아침은 그야말로 우중충충하기 그지 없습니다. 하지만, 이런 날씨에 그다지 놀람은 없었습니다. 곧 멈출 것이니까요. 이렇게 생각하고 나니, 문득
Data
Double ML: Residual on Residual Regression + Cross-Fitting * 통제 변수를 조정하여 잔차 회귀(Residual on Residual Regression)와 교차 적합(Cross-Fitting)을 결합하여 사용합니다. * 장점 * 편향 감소: 잔차 회귀를 통해 통제 변수의 영향을 제거하여 인과 효과 추정의 편향을 줄입니다. * 일관성 보장: 교차 적합을 통해 과적합을 방지하고 추정의 일관성을 보장합니다. * 유연성: 다양한
Data
Average Treatment Effect (ATE) * $ATE=E[Y(1)]−E[Y(0)]$ * 전체 인구에서 처치의 평균 효과를 측정하는 지표입니다. * ATE는 처치를 받은 경우와 받지 않은 경우의 결과 차이를 평균적으로 나타냅니다. * 장점 1. 단순하고 직관적: 전체 인구에 대한 처치의 평균 효과를 쉽게 이해할 수 있습니다. 2. 정책 결정에 유용: 전체 인구에 대한
Life
주말, 아이를 데리고 서울을 서울을 벗어나 근교로 나가기 위해 운전중이었습니다. 운전을 그리 좋아하지 않기에 긴장 속에 지도를 계속 주시하면서 간만에 운전을 하였습니다. 그러던 중 남산으로 올라가는 길과 남산터널로 가는 깃을 헷갈릴 뻔하여, 빠르게 가는 방향을 트는 사건이 발생했습니다.. 아침 일찍 나가는 길이었기에 차가 없어서 크게 문제가 없었지만, 도착지까지 가는 내내
Data
Binomial 분포 * Binomial 분포는 고정된 횟수의 독립적인 시행에서 각 시행이 동일한 성공 확률을 가지는 이항 실험에서 성공의 횟수를 나타내는 분포입니다 * Binomial 분포는 두 매개변수 $n$ (시행 횟수)과 $p$ (성공 확률)로 정의됩니다. * Binomial 분포의 확률 질량 함수(PMF)는 다음과 같습니다. * 여기서 $\binom{n}{k}$는 이항 계수로, n번의
"클리어 씽킹"이라는 책을 읽었습니다. 유튜브에서 엄청 광고를 하는 것을 보니, 바이럴을 태우려는 책이구나 싶었죠. 그래도 파남스트리트를 종종 접속해서 보는 입장에서는 이 책이 굉장히 궁금하였습니다. 생각에 대한 통찰력 있는 글을 여러차례 본 적이 있기 때문입니다. 그래서 전자책 사이트에 들어가서 책을 구매하려고 마음 먹고 평점을 보았습니다. 놀랍게도 4점 밑이었습니다.
Team
갑자기 엄청나게 많은 업무 요청이 들이닥칠 때가 있습니다. 그래서 어느 업무부터 진행하면 좋을지 문의하면 종종 이렇게 답변하던 분이 있었습니다. 모두 다 중요하고 급합니다. 중요도와 긴급도는 정도에 따라 구별되는 것이고, 중요한 업무가 있다면, 반대로 중요하지 않은 업무가 있다는 것입니다.그런데 모든 업무가 중요하다니, 굉장히 이상한 말이었습니다. 이 말을 돌아서서 집에 오는
Data
Definition * **Sample Ratio Mismatch(SRM)**는 실험 설계나 데이터 수집 과정에서 샘플의 비율이 의도한 비율과 일치하지 않는 상황을 의미합니다 * 예를 들어, A/B 테스트에서 두 그룹(A와 B)로 사용자 트래픽을 균등하게 나누려고 했으나, 실제 데이터에서는 비율이 맞지 않는 경우가 SRM입니다. * SRM은 실험의 무작위성(randomness)을 보장하고, 통계적 검증의 신뢰성을
Data
Definition * K-Core 알고리즘은 그래프 이론에서 사용되는 알고리즘으로, 그래프의 특정 부분을 추출하는 데 사용됩니다. * K-Core는 각 노드가 최소한 K개의 이웃 노드를 가지는 최대 부분 그래프를 의미합니다. Motivation * 소셜 네트워크, 생물학적 네트워크, 인터넷 구조 등 다양한 분야에서 밀집된 하위 구조를 식별하기 위해 등장했습니다. 개인적인 경험에서는 FDS 관련 사기거래를 집단으로 하는 업체를 탐지하기