메인 콘텐츠로 건너뛰기

추출된 데이터 정제하기(내용 교체, 접두사 추가 등)

Octoparse 소프트웨어 내에서 데이터를 손쉽게 정제하는 방법을 알아보세요.

어제 업데이트함

프로젝트를 진행하면서 추출된 데이터 필드를 동시에 정리하고 싶을 때가 있으시겠죠? 이럴 경우 한 번 옥토파스 데이터 정제하기 기능을 활용해 보세요.

Octoparse는 총 10가지 데이터 정제 옵션을 제공하여 수집한 데이터를 원하는 형식으로 바로 변환할 수 있습니다.


언제 데이터를 정제해야 하나요?

특정 필드에 원하는 형식이 있다면, Octoparse의 데이터 정제하기 기능을 활용해 보세요. 수집 과정에서 데이터가 형식대로 자동으로 정리되기 때문에, 엑셀로 내보낸 뒤 따로 수정할 필요가 없습니다.


Octoparse에서 데이터 정제 기능을 사용하는 방법

데이터 정제 기능은 아래 4단계로 간단히 이용할 수 있습니다.

  • 정제할 데이터 필드를 선택합니다

  • "..."아이콘을 클릭한 뒤 데이터 정제하기를 선택합니다.

  • 보조 추가하기를 클릭합니다.

  • 데이터 정제 작업 유형을 선택합니다.

441.png

팁:

프로그래밍에서 “문자열(String)”은 문자, 숫자, 기호, 공백 등으로 이루어진 문자 집합을 의미합니다. 예를 들어, " "(공백), "Octoparse", "Hello 2 *% World!" 모두 문자열입니다. 문자열은 아무 문자도 포함하지 않을 수도 있으며 이를 빈 문자열(Empty String) 이라고 합니다. 단어를 빈 문자열로 대체하면, 쉽게 말해 그 단어를 삭제하는 것과 같은 효과를 냅니다.

Octoparse의 데이터 정제 옵션 설명에서도 “문자열(String)”이라는 용어가 자주 등장합니다. 이 경우 해당 기능을 활용해 추출된 데이터 속 문자, 단어, 문장, 숫자, 공백, 기호, 구두점 등을 자유롭게 처리할 수 있습니다.


10가지 데이터 정제 방식

1. 대체하기

기능: 추출된 데이터의 특정 문자열을 원하는 새 문자열로 바꿉니다.

68.png

2. 정규표현식으로 대체하기

기능: 특정 정규식을 사용하여 추출된 데이터의 일치하는 문자열을 원하는 문자열로 바꿉니다.

팁:

정규식을 잘 모른다면, Octoparse에서 제공하는 도구를 활용해 보세요!

  • 자주 사용하는 정규식들을 바로 선택·적용 가능

  • AI RegEx 툴을 이용해 직접 원하는 표현식 생성 가능

3. 정규표현식으로 매치하기

기능: 추출된 데이터에서 필요한 문자열만 추출하려면 특정 정규식을 사용합니다.

W3schools에서 정규 표현식에 대해 자세히 배울 수 있습니다.

4. 빈칸 제거

기능: 추출된 데이터 앞뒤에 불필요하게 포함된 공백을 제거합니다.

데이터 중간에 있는 공백을 삭제하고 싶을 경우, 정규표현식으로 대체하기 또는 대체하기 기능을 사용할 수 있습니다.

64.png

5. 접두사 붙이기

기능: 추출한 데이터 앞에 접두사를 추가합니다.

65.png

6. 접미사 붙이기

기능: 추출한 데이터의 끝에 접미사를 추가합니다.

68.png

7. 추출된 날짜/시간 리포맷

기능:

  • 추출한 날짜/시간을 내장 양식 중 하나 또는 사용자 정의 양식으로 이동합니다.

예를 들어 "2024-01-01"을 "2024/01/01"로 바꿀 수 있습니다.

  • 상대 날짜 및 시간을 특정 날짜 및 시간으로 변환합니다.

예를 들어, "2일 전"을 "2024/01/01"로 변환할 수 있습니다. 작업, 뉴스 또는 비디오에 게시된 시간을 스크랩할 때 유용합니다.

68.png

8. 타임스탬프 변환

기능: 유닉스 타임스탬프를 사용자가 원하는 형식으로 변환해 줍니다.

유닉스 타임스탬프는 특정 날짜와 시간을 나타내는 일련의 숫자입니다. 이 함수는 유닉스 시간을 우리가 쉽게 이해할 수 있는 형식으로 변환시켜 줄 것입니다.

8.png

9. 타임존 전환

기능: 날짜와 시간을 목표 타임존으로 변환해 줍니다.

일부 웹사이트에서는 해당 국가의 표준 시간대를 기준으로 날짜와 시간이 표시됩니다. 이 경우에 해당 기능을 사용하여 원하는 국가의 시간대로 손쉽게 바꿀 수 있습니다.

팁:

클라우드 실행에서 수집 시간을 기록하는 경우 기본 타임존은 UTC+0입니다. 원하는 타임존으로 변환하면 혼동을 줄일 수 있습니다.

10. HTML 트랜스코딩

기능: 자동으로 특정한 HTML 태그를 일반 텍스트로 변환합니다. 예를 들어, "&amp"를 "&"로 변환합니다.

69.png

팁:

여기에 추가된 모든 단계는 편집 및 삭제 아이콘을 클릭하여 편집 및 삭제할 수 있습니다.

72.png

Octoparse Regex 도구

Octoparse는 AI생성규칙 생성을 제공하여 필요한 정규식을 자동으로 만들어 활용할 수 있습니다.

Regex 도구 사용에 대한 자세한 내용은 본 링크를 클릭해 보세요.

답변이 도움되었나요?