Java 문자열 초기화
1. Creation Java에서 String이 생성되는 방식을 알아야 한다. new 키워드나 리터럴 구문을 사용할 수 있다. String usingNew = new String("baeldung"); String usingLiteral = "baeldung"; 2. 문자열 선언만 명시적으로 값을 할당하지 않고 String을 선언한다. 로컬 ...
1. Creation Java에서 String이 생성되는 방식을 알아야 한다. new 키워드나 리터럴 구문을 사용할 수 있다. String usingNew = new String("baeldung"); String usingLiteral = "baeldung"; 2. 문자열 선언만 명시적으로 값을 할당하지 않고 String을 선언한다. 로컬 ...
1. 한국어에서의 토큰화의 어려움 영어는 New York과 같은 합성어나 he’s와 같이 줄임말에 대한 예외처리만 한다면, 띄어쓰기(whitespace)를 기준으로 하는 띄어쓰기 토큰화를 수행해도 단어 토큰화가 잘 작동한다. 거의 대부분의 경우에서 단어 단위로 띄어쓰기가 이루어지기 때문에 띄어쓰기 토큰화와 단어 토큰화가 거의 같기 때문이다. 하지만...
1. 토큰화(Tokenization) 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처리되지 않은 상태라면, 해당 데이터를 사용하고자하는 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)하는 일을 하게 된다. 주어진 코퍼스(corpus)에서 토큰(token...
1. 인코딩 확인 select * from v$nls_parameters; [출처 및 참고] https://minorabanggu.tistory.com/11
1. 클라이언트 인코딩 확인 show client_encoding; 2. 서버 인코딩 확인 show server_encoding; 3. Database 인코딩 확인 1) 특정 DB select pg_encoding_to_char(encoding) from pg_database where datname = 'postgres'; 2)...
1. Varargs란 Varargs는 Java 5에 도입되었으며 한 유형의 임의의 수의 매개변수를 지원하는 메소드에 대한 약칭을 제공한다. 2. Varargs 이전 Java 5 이전에는 임의의 수의 인수를 전달할 때마다 배열의 모든 인수를 전달하거나 N 메서드를 구현해야 했다(각 추가 매개변수에 대해 하나씩). public String format...
1. StringBuilder 이 클래스는 문자열 조작을 쉽게 수행할 수 있는 문자열 작성 유틸리티를 제공한다. StringBuilder 클래스를 사용하여 문자열 연결의 간단한 예를 작성한다. StringBuilder stringBuilder = new StringBuilder(100); stringBuilder.append("Baeldung")...
1. URL 인코딩/디코딩 URL 인코딩은 URL의 특수 문자를 사양을 준수하고 올바르게 이해하고 해석할 수 있는 표현으로 변환한다. 2. URL 분석 기본 URI 구문은 다음과 같이 일반화할 수 있다. scheme:[//[user:password@]host[:port]][/]path[?query][#fragment] URI 인코딩의 첫 번째 ...
1. 문자 인코딩의 중요성 우리는 종종 라틴어나 아랍어와 같은 다양한 쓰기 스크립트로 여러 언어에 속하는 텍스트를 처리해야 한다. 모든 언어의 모든 문자는 어떻게든 1과 0의 집합에 매핑되어야 한다. 컴퓨터가 우리의 모든 언어를 올바르게 처리할 수 있다는 것은 정말 놀라운 일이다. 이를 제대로 수행하려면 문자 인코딩에 대해 생각할 필요가 있다. 그렇...
1. 문자열에 개행 문자 추가 운영 체제에는 새 줄의 시작을 나타내는 특수 문자가 있다. 예를 들어, 리눅스에서 새로운 줄은 라인 피드라고도 불리는 \n으로 표시된다. Windows에서 새 라인은 Carriage Return and Line Feed 또는 CRLF라고도 하는 \r\n을 사용하여 표시된다. Java에서 새 줄을 추가하는 것은 문자열 끝...