데이터 정제를 위한 정규식 tips
예시로 공부하는 javascript 정규식 : https://darrengwon.tistory.com/1420 정규식 분석에 유용한 사이트 : regexr.com/ 텍스트 마이닝을 마쳤다면 해당 문장을 정제하는 과정이 필요하다. 우선적으로 해야하는 것은 정규식으로 html 태그를 떼는 등 기본적인 정제가 이루어지고 다음에 맞춤법 교정 등이 들어가게 된다. 에를 들면 한국어 챗봇을 제작할 때, 한국어, 숫자를 제외한 문자는 제거하고, 웹 소스, 문장기호, 특수 문자 등을 제거하게 된다. 어쨌거나 핵심은 서비스에 불필요한 문자/문자열을 제거하는 것이다. 여기서는 데이터 정제에 자주 사용되는 정규식을 살펴보기로 한다. [a-zA-Z] a부터 z까지, A부터 Z까지. 즉, 영어 알파벳과 일치 [가-힣] 조합된 ..