Data
대량 데이터에 대한 유사도 측정의 대안, MinHash & LSH
MinHash & LSH are * MinHash는 두 집합간의 유사도를 측정하는 기술로 각 집합을 기존 데이터보다 적은 형태의 Signature로 변환하여 연산비용을 줄여준다 * LSH는 Locality Sensitivity Hashing의 약자로, 해싱(Hashing()을 이용, 높은 확률도 유사한 아이템을 같은 버킷(Bucket)에 분류하는데 이용된다. Motivation * 대량 데이터셋에서 유사도를 비교하는 것은 연산비용이 크게 들 수 있다.