Data

Lemmatization과 Stemming은 활용목적이 다를 수 있다.

Bongho, Lee

2024년 7월 4일 — 2 min read

Photo by Loren Biser / Unsplash

Lemmatization vs. Stemming

정확성 vs. 단순화
- Lemmatization: 더 정교하고 정확한 방법입니다. 단어의 문법적 역할(품사)을 고려하여 원형을 찾아줍니다. 예를 들어, "better"는 "good"으로 변환됩니다.
- Stemming: 단어의 어근만을 단순하게 추출합니다. 더 빠르고 간단하지만, 때로는 의도치 않은 결과를 초래할 수 있습니다. 예를 들어, "running"과 "runner"는 모두 "run"으로 변환됩니다.
텍스트의 성격
- 정교한 분석이 필요한 경우 (예: 문서 요약, 감성 분석 등): Lemmatization이 더 적합합니다. 이는 단어의 의미와 문법적 역할을 더 잘 반영하여 분석의 정확도를 높입니다.
- 대량의 텍스트를 빠르게 처리해야 하는 경우 (예: 실시간 검색 엔진, 대규모 데이터 마이닝 등): Stemming이 더 적합합니다.
컴퓨팅 자원
- Lemmatization: 더 많은 컴퓨팅 자원과 시간이 소요됩니다. 특히 대규모 데이터셋에서는 처리 속도가 느려질 수 있습니다.
- Stemming: 상대적으로 적은 자원과 시간으로 빠르게 처리할 수 있습니다.
언어의 복잡성
- Lemmatization: 다양한 형태의 단어들이 동일한 기본 형태로 변환되어 언어의 복잡성을 줄이는 데 효과적입니다.
- Stemming: 언어의 복잡성을 단순하게 처리하지만, 때로는 의미를 왜곡할 수 있습니다.

실제 예시

문서 분류:
- Lemmatization: 문서의 내용을 정확히 이해하고 분류할 때 유용합니다.
- Stemming: 대량의 문서를 빠르게 분류할 때 유용합니다.
검색 엔진:
- Lemmatization: 사용자의 검색 의도를 정확히 이해하고 관련 결과를 제공할 때 유용합니다.
- Stemming: 검색어와 일치하는 더 많은 결과를 빠르게 제공할 때 유용합니다.
소셜 미디어 분석:
- Lemmatization: 감성 분석과 같은 정교한 분석이 필요할 때 유용합니다.
- Stemming: 트렌드 분석과 같이 대량의 데이터를 빠르게 처리할 때 유용합니다.

내가 놓치고 있던 미래, 먼저 온 미래를 읽고

장강명 작가의 책은, 유학시절 읽고 처음이었다. 유학시절 "한국이 싫어서"라는 책은 동기부여가 상당히 되는 책이었다. 한국을 떠나 새로운 정채성을 학생으로서 Build up 해나가고 있던 상황에서 이 책은 제목부터 꽤 솔깃하였다. 물론 결말이 기억날 정도로 인상깊은 책은 아니었지만 말이다. 그렇게 시간이 흘러 장강명 작가의 책은 더 이상 읽지 않던

immich Docker Log

.env & docker-compose Download wget -O docker-compose.yml https://github.com/immich-app/immich/releases/latest/download/docker-compose.yml wget -O .env https://github.com/immich-app/immich/releases/latest/download/example.env Modification Log * .env에서 UPLOAD_LOCATION를 수정 * NFS로 처음에 진행하였으나 SMB로 수정 NFS Issue * UID/GID 불일치 문제이슈 발생 * 서버와

고객 경험이란 무엇일까?

고객경험이란 무엇일까? 1. 과거 어느 대형 프로젝트에서 있던 일이다. 신사업을 위해서 예측 모델 값을 제공해야 하는 상황이었다. 데이터도 없고,어느정도의 정확도를 제공해야 하는지 답이 없었다. 점추정을 할 것인가? 구간 추정을 할 것인가를 가지고 논의중이었다. Product Manager 줄기차게 고객경험을 내세우며 점추정으로 해야 한다고 주장하였다. 근거는 오롯이 "고객 경험"이었다.

수요예측, 수정구슬이 아닌 목표를 향한 냉정한 나침반

수요예측의 정의와 비즈니스에서의 중요성 기업의 성장과 운영 효율화를 위해 **수요예측(Demand Forecasting)**은 선택이 아닌 필수 요소로 자리 잡았다. 많은 경영진들이 수요예측을 미래 판매량을 정확히 맞히는 '예언'으로 기대하지만, 이는 수요예측의 본질을 오해하는 것이다. 수요예측의 진짜 의미: 미래를 점치는 수정구슬이 아니라, 우리가 도달해야 할 '목표'를