정제와 정규화
1. 정제(Cleaning)와 정규화(Normalization) 코퍼스에서 용도에 맞게 토큰을 분류하는 작업을 토큰화(tokenization)라고 하며, 토큰화 작업 전, 후에는 텍스트 데이터를 용도에 맞게 정제(cleaning) 및 정규화(normalization)하는 일이 항상 함께한다. 정제 및 정규화의 목적은 각각 다음과 같다. ...
1. 정제(Cleaning)와 정규화(Normalization) 코퍼스에서 용도에 맞게 토큰을 분류하는 작업을 토큰화(tokenization)라고 하며, 토큰화 작업 전, 후에는 텍스트 데이터를 용도에 맞게 정제(cleaning) 및 정규화(normalization)하는 일이 항상 함께한다. 정제 및 정규화의 목적은 각각 다음과 같다. ...
1. free 메모리 사용량을 확인하는 명령어 이다. 2. 주요 옵션 옵션 내용 -h 사람이 읽을 수 있는 GB, MB, KB 형태로 변경하여 출력 -s [second] 지정한 초(second) 마다 이용량 출력 ...
1. exec 주어진 명령어를 실행하는데 새로운 프로세스를 생성하지 않고, 쉘 프로세스를 대체한다. 예를 들어 bash 쉘에서 자바 프로그램을 실행하면 자바 프로그램의 ppid가 bash 쉘이 되고, 자바 프로그램이 bash 쉘의 하위 프로세스로 실행된다. exec 커맨드로 실행하면 bash쉘의 프로세스가 자바 프로그램이 된다. ppid가 따로 없다...
1. crontab 정기적으로 지정한 시간에 실행하고 싶은 명령어를 등록한다. 스크립트를 등록해도 된다. 2. 주요 옵션 옵션 설명 -l 등록된 명령어 리스트 확인 -e 등록된 명령어를 수정 3. 사용 예...
1. 자바 스트링 풀 자바 스트링 풀은 JVM에 의해 스트링이 저장되는 특별한 메모리 영역 이다. 2. String Interning Java에서 문자열의 불변성 덕분에 JVM은 풀에 각 리터럴 문자열의 복사본을 하나만 저장 하여 문자열에 할당된 메모리 양을 최적화할 수 있다. 이 과정을 interning이라고 한다. String 변수를 만들고 값...
1. Creation Java에서 String이 생성되는 방식을 알아야 한다. new 키워드나 리터럴 구문을 사용할 수 있다. String usingNew = new String("baeldung"); String usingLiteral = "baeldung"; 2. 문자열 선언만 명시적으로 값을 할당하지 않고 String을 선언한다. 로컬 ...
1. 한국어에서의 토큰화의 어려움 영어는 New York과 같은 합성어나 he’s와 같이 줄임말에 대한 예외처리만 한다면, 띄어쓰기(whitespace)를 기준으로 하는 띄어쓰기 토큰화를 수행해도 단어 토큰화가 잘 작동한다. 거의 대부분의 경우에서 단어 단위로 띄어쓰기가 이루어지기 때문에 띄어쓰기 토큰화와 단어 토큰화가 거의 같기 때문이다. 하지만...
1. 토큰화(Tokenization) 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)하는 일을 하게 된다. 주어진 코퍼스(corpus)에서 토큰(token...
1. 인코딩 확인 select * from v$nls_parameters; [출처 및 참고] https://minorabanggu.tistory.com/11
1. 클라이언트 인코딩 확인 show client_encoding; 2. 서버 인코딩 확인 show server_encoding; 3. Database 인코딩 확인 1) 특정 DB select pg_encoding_to_char(encoding) from pg_database where datname = 'postgres'; 2)...