Latest

대량 데이터에 대한 유사도 측정의 대안, MinHash & LSH

Data

대량 데이터에 대한 유사도 측정의 대안, MinHash & LSH

MinHash & LSH are * MinHash는 두 집합간의 유사도를 측정하는 기술로 각 집합을 기존 데이터보다 적은 형태의 Signature로 변환하여 연산비용을 줄여준다 * LSH는 Locality Sensitivity Hashing의 약자로, 해싱(Hashing()을 이용, 높은 확률도 유사한 아이템을 같은 버킷(Bucket)에 분류하는데 이용된다. Motivation * 대량 데이터셋에서 유사도를 비교하는 것은 연산비용이 크게 들 수 있다.

[책]두렵다는 것은 촉이 좋은 것이니 행동만 하면 된다, 커리지

Book

[책]두렵다는 것은 촉이 좋은 것이니 행동만 하면 된다, 커리지

사실 이제는 출처가 기억이 나지 않는 이야기가 있다. 한 일본 검사에 관한 이야기였던 것으로 기억한다. 아이는 두려움이 너무나도 많아 툭하면 울곤 하였다. 이를 사람들은 울보라며 놀리곤했다. 그 때 누군가 아이에게 말한다. 우는 것은 굉장한 재능이야. 미래를 알기 때문에 반응하는 거란다. 이 위로를 계기로, 검사는 빠르게 성장하여 일본 제일의 검사가 된다는

Representation Fine Tuning

Data

Representation Fine Tuning

FineTuning 장점 * Privacy * Reliability * Cost-Efficient Performance * More Control FineTuning * Full Fine Tuning: 모든 Layer & Parameter를 업데이트 * Parameter-Efficient Finetuning (PEFT): Parameter의 일부만 업데이트 * Low Rank Adaptation (LoRA) * AdaLoRA * Adaption Prompt (LLaMA Adapter). * Alignment Raining: 사용자 선호도를 반영하기 위한 방식 * Direct Preference Optimization * Representation Finetuning * Parameter(Weight) 업데이트 대신 모델 내

[책]모든 것을 생각하기란 생각보다 어렵다, 모든 순간의 물리학

Book

[책]모든 것을 생각하기란 생각보다 어렵다, 모든 순간의 물리학

사실 왜 이 책을 읽게 된지는 기억이 정확하게 나지 않는다. 데이터 업에 근무한 이래, 우리가 보는 데이터는 어떠한 분포의 산물일 뿐이고, 나머지가 불확실성으로 가려져있다는 것을 알게 되었을 때가 기억난다. 그 이후로 세상을 더 이해하고 싶었다. 이후에 잠시 아팠을 때는, 몸의 무수한 세포들이 각자의 확률분포 함수를 가지고 있을 텐데, 이 수많은

Team

팀에서 프리라이더가 있을 때 리더가 해야할 네 가지 액션

리더로서 일을 한지도 2년이 넘었다. 그 전에도 CEO Staff으로 일하면서 프로젝트를 위해서 버추얼 팀(Virtual Team)팀의 리더로 일한 적이 있었으나, 과제에만 집중할 뿐 리소스 관리에는 고민을 크게 할 필요가 없었기 때문에 리더로서의 경력은 순전히 이제 2년을 조금 넘은 수준이라고 생각된다. 리더로서 일을 하면서 감사하게도 좋은 사람들을 정말 많이 만났지만,

[책] 다르더라도 좋은 점은 의식적으로 받아들이자, “나는 주식으로 월급 두 번 받는다“

Book

[책] 다르더라도 좋은 점은 의식적으로 받아들이자, “나는 주식으로 월급 두 번 받는다“

사실 이 책을 읽은 이유는 순전히 제목 때문이었다. 월급을 두 번 받는다니, 게다가 나와 비슷한 공대생이라니 저 사람은 어떻게 할 것인가? 하지만 내용을 훑어보고는 금새 덮어버리고 말았다. 기술적 분석이라니 말이다. 하지만 곧 책을 다시 펼쳐서 보기 시작하였다. 개인적으로 별로 좋아하지 않는 기술적 분석에 대한 내용이 펼쳐졌고, 머리 속에 내용이 들어오지

[책]삶의 설계에 대한 거칠지만 솔직한 자기고백, 직업으로서의 소설가

Book

[책]삶의 설계에 대한 거칠지만 솔직한 자기고백, 직업으로서의 소설가

왜 읽으려고 했을까? 사실 정확히 정리되지는 않았다. 그런데 회사의 상사 역시 이 책을 통해서 회고하고 있었고, 다른 누군가도 비슷한 행위를 하고 있었다. “노르웨이의 숲“ 작가 정도로 기억에 남는 무라카미 하루키의 책을 가지고 왜 이렇게 활용하고 있을지 궁금해졌다. 한 명도 아닌 두 명이 이 책을 동일한 용도로 활용하고 있다니 말이다. 그렇게

어떤 데이터를 어떻게 볼지는 엔지니어링 이전에 결정되어야 한다.

Data

어떤 데이터를 어떻게 볼지는 엔지니어링 이전에 결정되어야 한다.

데이터가 없는 회사는 없다. 활용하지 않을 뿐이다. 모든 회사는 데이터를 가지고 있다. 그리고 그러한 데이터가 보다 전사에 체계적으로 흐를 필요가 있다고 느낄 시점이 될 때 대부분 회사는 데이터 조직을 꾸리기 위해서 시장에 뛰어든다. 그리고 그 시작점으로 데이터 엔지니어 채용부터 시작하는 경우들이 있다. 하지만 실상은 그렇지 않다. 오히려 문제를 복잡하게 만들

AB테스트 시 비회원의 그룹할당을 고민해야 하는 이유

Data

AB테스트 시 비회원의 그룹할당을 고민해야 하는 이유

A/B테스트 시, 비회원은 어떻게 그룹할당할지 고민하지 않으면, 특정 그룹으로 쏠리거나, 아예 반영되지 않는 상황을 야기할 수 있다. 통상 비회원은 회원번호를 공통으로 처리하고 있기 때문이다. 예를 들어 "000000000000"으로 한다. 회원번호를 문자로 하기보다는 Sequence 형태로 Integer Type으로 하는 경우가 많기 때문에 비회원도 수치로 표현하는 경우가 많다. 이렇게 수치로

[데이터 조직] 사내 데이터 조직을 새로 만들었던 케이스

Team

[데이터 조직] 사내 데이터 조직을 새로 만들었던 케이스

배경 * 조직장은 개발 및 데이터 관련 업무를 한 경험은 있지만, 경력 자체는 데이터 관련 경험이 많지 않았음 * 사내 데이터 엔지니어링, 분석, 과학자 관련 역할을 하는 사람 없었음 인터뷰를 통한 유관부서 니즈 파악 * 팀장이든 아니든 다른 부서의 동료들과 일대일 미팅 진행 → 현재 상황을 이해하고, 데이터 과제에 대해서 본인들을 어떻게 포지셔닝하는지 이해하기

Multi Task 기반 확률 모델링으로 배달시간플랫폼을 구축한 DoorDash

Data

Multi Task 기반 확률 모델링으로 배달시간플랫폼을 구축한 DoorDash

Overview Multi Task Model * Multi Task(MT) Model 사용시 장점 * 신규 서비스 배달시간 예측시, Foundation Layer에 추가적으로 레이어릅 붙이는 식으로 대응이 가능 * 플랫폼 내부에서 고객의 여정에 따라 여러번 배달시간을 업데이트해줘야 하는데, 이 부분에 대해서 빠르게 대응 가능, 기존에 별도 모델 사용할 경우,모델간 시간예측 결과 일관성을 보장하기 어려웠음 * 최대한 많은

[책]에디토리얼씽킹 - 우리의경험은 헛되지 않으며 앞날을 환히 비출 수 있다.

Book

[책]에디토리얼씽킹 - 우리의경험은 헛되지 않으며 앞날을 환히 비출 수 있다.

이 책을 읽으면서 처음으로 Editorial이란 단어의 뜻을 다시 한 번 찾아보았던 것같다.Editorial은 Noun 또는 Adjective로서 활용된다. 그 중 Adjective로서 뜻은 다음과 같다. adjective: editorial 1. relating to the commissioning or preparing of material for publication. "the editorial team" * relating to the part of a newspaper or magazine

Gibbs Sampling과 MH Sampling 공통점과 차이점 정리

Data

Gibbs Sampling과 MH Sampling 공통점과 차이점 정리

공통점 * MCMC 알고리즘: 두 알고리즘 모두 마르코프 체인을 사용하여 확률 분포에서 샘플링합니다. 마르코프 체인은 과거 상태만 고려하여 다음 상태를 결정하는 확률적 모델입니다. * 베이즈 추론: 두 알고리즘 모두 베이즈 추론에서 사후 분포를 추정하는 데 사용됩니다. 베이즈 추론은 사전 정보와 관측 데이터를 결합하여 사후 분포를 계산하는 방법입니다. 차이점 * 제안 분포: 깁스 샘플링은