Skip to content

Latest commit

 

History

History
8 lines (8 loc) · 1.28 KB

고유명사해결방안.md

File metadata and controls

8 lines (8 loc) · 1.28 KB

고유명사(이름) 관련 문제 현재 프로젝트를 통해 분석시 고유명사는 2개의 일반 명사 혹은 다른 명사들의 조합으로 분석이 되는 것이 문제점이다. 해결방안 이를 해결하기 위해서는 현재 프로젝트의 분석이전에 사람의 이름을 먼저 분석하여 따로 처리를 하는 과정이 필요하다.

  1. 데이터의 수집 사람의 이름 평균3글자를 기준으로 한다면, 그 이름에 대한 데이터들을 모을 픨요가 있다. 사람들의 이름에 대한 데이터를 수집하여 저장을 해놓는다면, 이름에 대한 분석이 가능할 것이다.
  2. 이름분석 알고리즘 데이터의 수집은 현실성있고 가장 적용하기 편하면서도 간단하다. 하지만 문제점이 있다 글자들을 일일이 나누어 비교하는 비용이 너무 많이 들게 된다. 현재로서의 분석시간도 만만치 않은 시점에 데이터를 비교하는 알고리즘으로는 힘들다. 그렇기에 문자열에서 이름이 무엇인지 간단하게 알아낼 수 있는 알고리즘 분석이 필요하다. 데이터를 일일이 비교하는 것보다. 있는 데이터를 분석하여 이름이 가지는 특징을 분석하여 확률적으로 이름을 알아낼 수 있는 알고리즘이 필요하다.