Latest

Lemmatization과 Stemming은 활용목적이 다를 수 있다.

Data

Lemmatization과 Stemming은 활용목적이 다를 수 있다.

Lemmatization vs. Stemming 1. 정확성 vs. 단순화 * Lemmatization: 더 정교하고 정확한 방법입니다. 단어의 문법적 역할(품사)을 고려하여 원형을 찾아줍니다. 예를 들어, "better"는 "good"으로 변환됩니다. * Stemming: 단어의 어근만을 단순하게 추출합니다. 더 빠르고 간단하지만, 때로는 의도치 않은 결과를 초래할 수 있습니다. 예를 들어, "running&

By Bongho, Lee
리더와 실무자의 언어는 다르다 - 5W1H의 측면에서

Team

리더와 실무자의 언어는 다르다 - 5W1H의 측면에서

최근에 취업준비생의 프로젝트를 도와주는 멘토로서 일을 하고 있다. 사회 경험이 일천한 친구들과 이야기를 하면서 나 역시도 많은 것을 배우고 있다. 그 중의 하나가 바로 언어에 관한 것이다.  사실상 리더에 가까운 느낌으로 이 친구들과 일을 하고 있는데 대화를 하면서 서로 구사하는 언어의 포커스가 다른 것을 경험하고 있다 이를 육하원칙에 맞춰서 구분해보면

By Bongho, Lee
패널데이터 분석에서 개체와 시간을 변동하기 위한 TwoWay Fixed Effect, Interactive Fixed Effects

Data

패널데이터 분석에서 개체와 시간을 변동하기 위한 TwoWay Fixed Effect, Interactive Fixed Effects

Two-Way Fixed Effects Definition * 두 가지 고정 효과(Two-Way Fixed Effects) 모델은 패널 데이터 분석에서 개체와 시간에 대한 변동을 모두 통제하는 방법입니다. * 이는 개체와 시간의 고정 효과를 모두 포함하여, 분석 대상 변수의 변동을 설명합니다. Motivation * 이 모델은 개체와 시간에 따른 변동을 모두 통제하여 더 정확한 분석을 가능하게 하기 위해 등장했습니다.

By Bongho, Lee
실험시스템의 신뢰성을 테스트하기 위한 방법,A/A테스트

Data

실험시스템의 신뢰성을 테스트하기 위한 방법,A/A테스트

Motivation * A/A 테스트는 A/B 테스트의 한 형태, 두 개의 동일한 버전(A와 A)을 비교하여 실험 시스템이 제대로 작동하는지 확인하는 방법입니다. * 주로 실험 설계 및 실행 프로세스의 신뢰성을 검증하고, 데이터 수집 및 분석 과정에서의 오류를 감지하는 데 사용됩니다. * 그 외에, 통계적 유의성 검증, 시스템 업데이트 후 검증, 데이터

By Bongho, Lee
정규분포 분산의 사전분포로 활용되는 Inverse Chi-Square 분포

Data

정규분포 분산의 사전분포로 활용되는 Inverse Chi-Square 분포

정의 * Inverse Chi-Square 분포는 주로 베이지안 통계에서 분산을 모델링하는 데 사용되는 확률 분포입니다. * 이는 Chi-Square 분포의 역분포로, 자유도와 스케일 파라미터에 의해 정의됩니다. * Inverse Chi-Square 분포는 베이지안 분석에서 사후 분포로 자주 사용되며, 특히 정규 분포의 분산에 대한 사전 분포로 활용됩니다. 장점 1. 베이지안 분석에 적합: 분산 추정을 위한 사전 분포로서 사용되며,

By Bongho, Lee
Author Topic Modeling, 저자 - 주제 관계를 포함한 토픽모델링

Data

Author Topic Modeling, 저자 - 주제 관계를 포함한 토픽모델링

Author Topic Modeling * **Author Topic Model(ATM)**은 텍스트 데이터에서 주제와 저자 간의 관계를 동시에 모델링하는 기법입니다. * 이는 저자가 작성한 문서의 주제 분포를 추정하고, 각 주제에 대한 저자의 기여도를 파악하는 데 유용합니다. * 학술 문서 분석, 소셜 미디어 데이터 분석 등 다양한 텍스트 마이닝 분야에서 사용됩니다. Motivation * 단순한 토픽 모델링 기법(

By Bongho, Lee
좋은 리더십을 위해, 스토리텔링이 필요합니다.

Team

좋은 리더십을 위해, 스토리텔링이 필요합니다.

최근에 리더십에 대한 강의를 들은 적이 있습니다. 코칭에 관심이 있기에 평가, 피드백 등에 대해서 조금 더 공부해보고 싶었던 저에게는 꽤나 흥미있던 내용이었습니다. 엔지니어링 매니저로 최근 일해왔고,  엔지니어링 매니저로서 단기로는 회사의 문제를 해결하는 것이 중요하나 장기적으로는 사람들의 능력이 최대한 활용되어 성장할 수 있도록 기여하는 것이 중요하다고 생각했기 때문입니다. 예상한대로 강의 중간에서는

By Bongho, Lee
[책]식물을 보며, 우리는 항상 배울 수 있다, "선인장은 물을 좋아한다"

Book

[책]식물을 보며, 우리는 항상 배울 수 있다, "선인장은 물을 좋아한다"

언제인지 기억이 나지 않는다. 회사에서 경제지를 읽고 이야기하는 모임의 뒷풀이였다. 자신의 소개를 하다가 언틋 식물을 좋아해서 글을 쓴다고 하는 분이 있었다. 성격상 그냥 듣고 흘릴 수 없어 글을 찾아보았다. 검색을 해서 본 그 분의 글은 굉장히 인상깊었다. 식물에 이 정도 애정을 쏟을 수 있구나를 처음 느꼈다.  모든 학문은 극의에 도달하면

By Bongho, Lee
다항분포의 사전분포로 사용되는 다변량 확률분포, Dirichlet 분포

Data

다항분포의 사전분포로 사용되는 다변량 확률분포, Dirichlet 분포

정의 * Dirichlet 분포는 다항 분포의 사전 분포로서 사용되는 다변량 확률 분포입니다. * 각 항목이 0과 1 사이의 값을 가지며 모든 항목의 합이 1이 되는 특성을 가집니다. * 특히 베이지안 통계에서 다항 분포의 사전 분포로 자주 사용됩니다. 이는 켤레 분포(conjugate prior)의 특징을 갖습니다. * Dirichlet 분포의 켤레성은 다음과 같은 베이지안 업데이트 규칙을

By Bongho, Lee
[책]쿨하게 생존하려면 삶에 대한 숙고와 정리가 필요하다, "쿨하게 생존하라"

Book

[책]쿨하게 생존하려면 삶에 대한 숙고와 정리가 필요하다, "쿨하게 생존하라"

직업에서 자신의 분야를 찾아내어 전문성을 쌓고(고), 그런 일을 오래하기 위해 놀이로 충전하며(플레이), 삶의 여정을 계속하기 위해서는 때때로 지도를 펼쳐보는 시간(스톱)이 필요합니다 이 문장이 적어도 저에게는 이 책 "쿨하게 생존하라"의  핵심이라고 생각했습니다. 이 책은 최근에 이 책을 쓴 김호작가님의 "왓두유원트"를 밀리에서

By Bongho, Lee
시기별로 회사에 필요한 리더의 스타일은 다를 수 있다.

Team

시기별로 회사에 필요한 리더의 스타일은 다를 수 있다.

벌써 회사생활을 한지 두자릿수를 완연히 넘어서게 되었다. 처음 사회생활을 한 이후 어떻게 살아왔는지 기억조차 나지 않는데, 정말 빠르게 시간이 지났다. 그 사이 가족의 수도 늘어났다. 최근에 첫 회사에서 만났던 인턴이 결혼을 한다기에 만나서 이야기할 기회가 있었다. 그(그녀)는 회사에 대한 이런저런 이야기를 하면서 자신이 다녔던 회사의 리더와는 모든 면에서

By Bongho, Lee
적절한 시점에 배움이 있던 책 “행복한 택배기사“

Book

적절한 시점에 배움이 있던 책 “행복한 택배기사“

이 책은 아내로부터 소개를 받게 되었다. 업무차 저자를 만나게 된 아내는, 저자의 일생이 굉장히 흥미롭다고 하면서 이 책을 추천해준 것이다. ”행복한 택배기사“라는 제목부터 풍겨지는 이 책은 저자가 본인의 삶에 대해서 풀어놓은 하나의 에세이와 같은 책이었다. 저자는 주재원 시절을 기점으로 자신의 삶을 담담함게 풀어놓는다. 압축적이기에 정제된 듯하면서도, 다시 정되지 않은

By Bongho, Lee
Pydantic, 데이터 서빙시, Interface Data Validation 관련 라이브러리

Data

Pydantic, 데이터 서빙시, Interface Data Validation 관련 라이브러리

Motivation * Pydantic은 Validation Check를 위한 라이브러리로, 잘못된 데이터가 시스템에서 유입되고 운용되는 것을 막기 위한 라이브러리 * 비동기 웹 프레임워크인 FastAPI와 함께 많이 쓰임 @app.post("/items/") async def create_item(item: Item): # 비동기 처리를 포함한 작업 수행 return item Pros & Cons Pros * 데이터 모델을 정의 후에 자동으로 데이터

By Bongho, Lee
당신이 AI(ML)팀과 대화가 안되는 3가지 이유

Data

당신이 AI(ML)팀과 대화가 안되는 3가지 이유

ChatGPT의 등장 이후, 학계에서나 들렸던 다양한 인공지능의 언어들이 사회 곳곳에서 들리기 시작한다. 굳이 인공지능과 관련없던 일을 하는 사람들도 지금은 인공지능을 삶의 곳곳에서 자연스럽게 쓰고 있다. 불과 몇년 사이에 벌어진 일이다. 자연스럽게 많은 회사에서 AI를 비즈니스 전면에 도입하는 모습도 심심치 않게 볼 수 있다. 하지만  아직은 비용측면보다는 (AI를 활요하는) 기술기업임을 과시하고

By Bongho, Lee

Team

리더로서 실무에서 손을 떼는데서 오는 두려움에 대해

실무를 하다가 엔지니어링 매니저로 일을 전환한지 2년이 넘었다. 매니저로 전환할 때는 인공지능의 홍수 속에서 의사결정을 하는 직업은 불확실성을 안고 책임을 져야 하기 때문에 인공지능에 의해 대체되기 어렵다라는 생각을 하고 의사결정을 하였다. 이 의사결정은 여전히 유효하고 자신감이 있다. 이에 반해 여전히 고민되는 부분이 있는데 바로 실무에서 손을 뗀다는 두렴이다. 실무에서 손을

By Bongho, Lee
여러 분포를 결합하여 데이터의 분포를 모델링하는 Mixture Model

Data

여러 분포를 결합하여 데이터의 분포를 모델링하는 Mixture Model

Mixture Model is * Mixture Model은 여러개의 분포를 결합하여 데이터의 전체 분포를 모델링함 * 이 때 각 분포는 Component라고 보통 불리며 데이터가 각 Component로부터 생성될 확률을 가중치로 갖음 * 통상 실무에서 Mixture Model이라고 하면 대체로 GMM(Gaussian Mixture Model)임 Motivation * 대부분의 현실 데이터는 단일 분포로 설명하기 어렵기 때문에 Mixture Model이 쓸모가 있음

By Bongho, Lee