프로젝트를 진행하면서 추출된 데이터 필드를 동시에 정리하고 싶을 때가 있으시겠죠? 이럴 경우 한 번 옥토파스 데이터 정제하기 기능을 활용해 보세요.
Octoparse는 총 10가지 데이터 정제 옵션을 제공하여 수집한 데이터를 원하는 형식으로 바로 변환할 수 있습니다.
언제 데이터를 정제해야 하나요?
특정 필드에 원하는 형식이 있다면, Octoparse의 데이터 정제하기 기능을 활용해 보세요. 수집 과정에서 데이터가 형식대로 자동으로 정리되기 때문에, 엑셀로 내보낸 뒤 따로 수정할 필요가 없습니다.
Octoparse에서 데이터 정제 기능을 사용하는 방법
데이터 정제 기능은 아래 4단계로 간단히 이용할 수 있습니다.
정제할 데이터 필드를 선택합니다
"..."아이콘을 클릭한 뒤 데이터 정제하기를 선택합니다.
보조 추가하기를 클릭합니다.
데이터 정제 작업 유형을 선택합니다.
팁:
프로그래밍에서 “문자열(String)”은 문자, 숫자, 기호, 공백 등으로 이루어진 문자 집합을 의미합니다. 예를 들어, " "(공백), "Octoparse", "Hello 2 *% World!" 모두 문자열입니다. 문자열은 아무 문자도 포함하지 않을 수도 있으며 이를 빈 문자열(Empty String) 이라고 합니다. 단어를 빈 문자열로 대체하면, 쉽게 말해 그 단어를 삭제하는 것과 같은 효과를 냅니다.
Octoparse의 데이터 정제 옵션 설명에서도 “문자열(String)”이라는 용어가 자주 등장합니다. 이 경우 해당 기능을 활용해 추출된 데이터 속 문자, 단어, 문장, 숫자, 공백, 기호, 구두점 등을 자유롭게 처리할 수 있습니다.
10가지 데이터 정제 방식
1. 대체하기
기능: 추출된 데이터의 특정 문자열을 원하는 새 문자열로 바꿉니다.
2. 정규표현식으로 대체하기
기능: 특정 정규식을 사용하여 추출된 데이터의 일치하는 문자열을 원하는 문자열로 바꿉니다.
팁:
정규식을 잘 모른다면, Octoparse에서 제공하는 도구를 활용해 보세요!
자주 사용하는 정규식들을 바로 선택·적용 가능
AI RegEx 툴을 이용해 직접 원하는 표현식 생성 가능
3. 정규표현식으로 매치하기
기능: 추출된 데이터에서 필요한 문자열만 추출하려면 특정 정규식을 사용합니다.
W3schools에서 정규 표현식에 대해 자세히 배울 수 있습니다.
4. 빈칸 제거
기능: 추출된 데이터 앞뒤에 불필요하게 포함된 공백을 제거합니다.
데이터 중간에 있는 공백을 삭제하고 싶을 경우, 정규표현식으로 대체하기 또는 대체하기 기능을 사용할 수 있습니다.
5. 접두사 붙이기
기능: 추출한 데이터 앞에 접두사를 추가합니다.
6. 접미사 붙이기
기능: 추출한 데이터의 끝에 접미사를 추가합니다.
7. 추출된 날짜/시간 리포맷
기능:
추출한 날짜/시간을 내장 양식 중 하나 또는 사용자 정의 양식으로 이동합니다.
예를 들어 "2024-01-01"을 "2024/01/01"로 바꿀 수 있습니다.
상대 날짜 및 시간을 특정 날짜 및 시간으로 변환합니다.
예를 들어, "2일 전"을 "2024/01/01"로 변환할 수 있습니다. 작업, 뉴스 또는 비디오에 게시된 시간을 스크랩할 때 유용합니다.
8. 타임스탬프 변환
기능: 유닉스 타임스탬프를 사용자가 원하는 형식으로 변환해 줍니다.
유닉스 타임스탬프는 특정 날짜와 시간을 나타내는 일련의 숫자입니다. 이 함수는 유닉스 시간을 우리가 쉽게 이해할 수 있는 형식으로 변환시켜 줄 것입니다.
9. 타임존 전환
기능: 날짜와 시간을 목표 타임존으로 변환해 줍니다.
일부 웹사이트에서는 해당 국가의 표준 시간대를 기준으로 날짜와 시간이 표시됩니다. 이 경우에 해당 기능을 사용하여 원하는 국가의 시간대로 손쉽게 바꿀 수 있습니다.
팁:
클라우드 실행에서 수집 시간을 기록하는 경우 기본 타임존은 UTC+0입니다. 원하는 타임존으로 변환하면 혼동을 줄일 수 있습니다.
10. HTML 트랜스코딩
기능: 자동으로 특정한 HTML 태그를 일반 텍스트로 변환합니다. 예를 들어, "&"를 "&"로 변환합니다.
Octoparse Regex 도구
Octoparse는 AI생성와 규칙 생성을 제공하여 필요한 정규식을 자동으로 만들어 활용할 수 있습니다.
Regex 도구 사용에 대한 자세한 내용은 본 링크를 클릭해 보세요.