중복이미지 검출(Duplicate Image Detection)

모델 선정시 요구사항

  • 현재 가지고 있는 이미지 데이터 규모
  • 중복이미지 검출시 정확도
  • Inference 시 실시간 여부

쓸 수 있는 기술

  • FileName: File Naming Scheme에 대해서 통제가 가능해야
  • FileHash: File이 Binary여야 하고, 조금만 변경이 발생해도 Hash값이 달라질 수 있음
  • Perceptual Hash: File size나 Format이 달라도 Pixel에 기반해서 식별 가능하고 속도가 빠른 편, Hash간 Distance를 계산해서 중복 이미지 검출 뿐만 아니라, 비슷한 이미지도 검출 가능
    • 하지만 이미지의 세부사항이나 Semantic Meaning을 고려하지 않기 때문에 False Positive가 많이 발생할 수 있음
    • 즉 완전히 다른 컨텐츠가 있어도 유사하게 보일 수 있는 이미지가 중복으로 평가될 수 있음
    • dHash(Difference Hash) 등이 있음
      • Python 기준 imagehash Library
    • Perceptual Hash를 활용해서 CSAM(Child Sexual Abuse Material)을 Detect하려고 한 게 Apple의 NeuralHash
    • Hashing 처리를 한 다음 Index 생성 및Similarity Search를 효율적으로 하기 위해서는 faiss 등의 Library를고려할 필요 있음
  • Embedding: Perceptual Hash가 놓치고 있는 이미지의 Semantic Meaning을 충분히 고려할 수 있음. 이미지 크기나 포멧에 대해 제한받는 것 없
  • Interest Point: 이미지 전체를 사용하는 것대신 필요하다고 판단되는 일부만 활용해서 다른 이미지와 비교를 해서 구하는 방식.
    • 필요하다고 판단되는 일부 지점 별로 모두 임베딩을 생성해서 비교하기 때문에 부하가 상당히 있어, Real-time Operation에는 비적합.

중복이미지 검출 이후 Action

실시간으로 이미지 검출시 해당 이미지 업로드 거부
먼저 올라온 이미지로 연결
기존 이미지와 새롭게 올라온 이미지를 통합
중복 이미지 삭제

References

Read more

고객 경험이란 무엇일까?

고객 경험이란 무엇일까?

고객경험이란 무엇일까? 1. 과거 어느 대형 프로젝트에서 있던 일이다. 신사업을 위해서 예측 모델 값을 제공해야 하는 상황이었다. 데이터도 없고,어느정도의 정확도를 제공해야 하는지 답이 없었다. 점추정을 할 것인가? 구간 추정을 할 것인가를 가지고 논의중이었다. Product Manager 줄기차게 고객경험을 내세우며 점추정으로 해야 한다고 주장하였다. 근거는 오롯이 "고객 경험"이었다.

By Bongho, Lee
수요예측, 수정구슬이 아닌 목표를 향한 냉정한 나침반

수요예측, 수정구슬이 아닌 목표를 향한 냉정한 나침반

수요예측의 정의와 비즈니스에서의 중요성 기업의 성장과 운영 효율화를 위해 **수요예측(Demand Forecasting)**은 선택이 아닌 필수 요소로 자리 잡았다. 많은 경영진들이 수요예측을 미래 판매량을 정확히 맞히는 '예언'으로 기대하지만, 이는 수요예측의 본질을 오해하는 것이다. 수요예측의 진짜 의미: 미래를 점치는 수정구슬이 아니라, 우리가 도달해야 할 '목표'를

By Bongho, Lee
Agentic AI와 MSA, 그리고 회사의 미래

Agentic AI와 MSA, 그리고 회사의 미래

어딜 가도 AI Agent에 대한 이야기가 들리는 요즈음이다. 정말 안하는 회사가 없다. 사람과 다르게 24시간을 일해도 지치지 않고, 재사용성도 가능하니 비용절감측면에서도, 생산성측면에서도 이만한 솔루션이 없기는 하다. 이러한 Agent가 여럿 모여 인간의 개입없이 복잡한 기능을 수행하는 시스템이 이른바 Agentic AI다. Agentic AI를 보면 문득 개인적으로는 MSA(Micro Service Architecture)가 생각난다.

By Bongho, Lee