<aside>
💡 링크 모음 컨텐츠에서 핵심 단어를 추출하여 분석, 컨텐츠를 벡터화하여 이를 기반으로 하는 추천 시스템을 개발하였습니다. 비슷한 컨텐츠를 추천(Pik-to-Pik 추천)하거나, 비슷한 컨텐츠끼리 묶어 재구성, 새로운 컨텐츠(MasterPik)를 생성하는 알고리즘을 설계부터 구현, 배포까지 혼자 진행하였습니다.
알고리즘 설계 시 KAIST 박성혁 교수님의 조언을 받았습니다.
개발된 알고리즘은 특허 출원을 하였으며, 등록 결정되었습니다. (전문 보기)
</aside>
특허등록증
특허등록증.pdf
특허공고전문.pdf
구현된 형태
- (좌) 컨텐츠와 비슷한 컨텐츠를 추천
- [동해 토박이가 쓰는 동해시 관광 안내서] 컨텐츠에서 [숨겨진 명소, 국내 여행을 위한 필수 정보 모음] 컨텐츠가 추천되는 모습
- [추천받은 개발 관련 책] 컨텐츠에서 [책 추천 & 독서 목록] 컨텐츠가 추천되는 모습
- (우) 알고리즘이 비슷한 컨텐츠들을 찾고 카테고리를 다시 묶어 새로운 컨텐츠로 제공
- [추천받은 개발 관련 책] 컨텐츠와 유사한 컨텐츠(3개 이상)들을 묶어 하나의 [책 추천] 컨텐츠로 제공하는 모습
구체적인 개발 내용
- keyword extraction algorithm 설계 및 구현
- 6개의 기존 알고리즘 구현, custom하여 비교 분석
- WordRank, TF-IDF, RAKE, Microsoft API, BERT, 명사 count 순
- 교수님의 조언을 통해 TF-IDF를 선정, 속도 및 정확도 향상을 위한 custom
- 알고리즘 Training을 위한 데이터 전처리 작업 (국립국어원 모두의 말뭉치 활용)
- tokenizer 비교
- 7개의 tokenizer 비교 분석
- Komoran, 한나눔, Twitter, Khaiii, mecab, kiwi, UTagger
- 속도, 정확도, 기타 옵션(사용자 사전 등록 가능 여부, 동음이의어 처리 여부 등) 을 고려하여 UTagger, mecab, kiwi tokenizer에 대해 적용 고려
- 2개의 tokenzier를 섞어 사용하여 정확도를 높이는 방식 적용
- Word2Vec을 이용한 임베딩
- OOV 해결을 위한 임베딩 모델 교체 pipeline 설계 및 구축
- 각 field에 대해 가중치를 적용하여 컨텐츠 벡터화 알고리즘 개발 (특허 출원 핵심 내용)
- 알고리즘 테스트 페이지 개발 및 내부 배포
- Pik-to-Pik 추천 : 비슷한 컨텐츠 추천 알고리즘 개발