메인 콘텐츠로 건너뛰기

레슨 3:데이터 다듬기

최소 1년 전에 업데이트됨

본 레슨에서는 추출된 데이터가 원하는 양식이 아닐 경우 수동으로 편집할 수 있는 몇 가지 실용적인 방법에 대해 소개합니다.


데이터 필드 이름 바꾸기/위치 이동/복사/삭제

데이터를 성공적으로 추출하여 데이터 미리 보기 패널에 데이터가 뜨면 추출된 데이터를 살펴보고 데이터 다듬는 작업을 시작할 수 있습니다. 데이터를 편집하기 위해 할 수 있는 몇 가지 가장 일반적인 작업으로는 데이터 필드 이름 바꾸기, 필드 위치 이동, 데이터 필드 복사, 필요하지 않은 필드 삭제 등이 있습니다.

필드 이름을 변경하려면 필드 이름을 두 번 클릭한 다음 새 이름을 직접 입력하면 됩니다. 다만 필드 이름은 숫자, 문자 및 "_"만 사용할 수 있습니다.

6666666666666666666666.gif

필드를 위치 이동하려면 필드 위에 화살표를 호버링하다가 핸드 사인이 나타나면 이동해야 할 필드를 원하는 위치로 드래그 앤 드롭합니다.

1.gif

필드를 삭제하려면 .../더 보기 아이콘을 클릭한 뒤 삭제를 클릭합니다.

2.png

데이터 정제하기

Octoparse는 데이터를 정리할 수 있는 다양한 방법을 제공합니다. 예를 들어: 텍스트 바꾸기, 공백 없애기, 접두사/접미사 추가, RegEx로 텍스트 바꾸기, 날짜/시간 다시 포맷하기 등을 수행할 수 있습니다. 데이터가 원하는 양식으로 변할 때까지 단일 데이터 필드를 여러 가지 정제 방법으로 정리할 수 있습니다. 일부 정제 방법은 Octoparse RegEx Tool을 사용하여 정규식을 처리해야 합니다.

데이터 미리보기에서 처리할 데이터 필드 상단 오른쪽에 있는 더 보기 아이콘을 클릭하고 데이터 정제하기를 선택합니다.

2.png

스텝 추가를 선택한 다음 해당 데이터 필드에 대해 수행할 정제 작업을 선택합니다. 데이터가 충분히 정제될 때까지 여러 가지 스텝을 추가할 수 있습니다.

5987.png
  • 바꾸기: 데이터 필드의 특정 문자열(string)을 새 문자열로 바꿉니다.

  • 정규식으로 바꾸기: 특정 정규식을 사용하여 데이터 필드에서 특정 문자열을 원하는 문자열로 바꿉니다.

  • 정규식으로 매치하기: 특정 정규식을 사용하여 데이터 필드에서 일치하는 문자열을 매치합니다.

  • 공백 제거하기: 추출된 데이터의 앞 또는 끝에서 필요 없는 공백을 제거합니다.

  • 접두사 추가: 추출된 데이터 앞에 문자열/ 문자열을 추가합니다.

  • 접미사 추가: 추출된 데이터의 끝에 문자열/ 문자열을 추가합니다.

  • 추출된 날짜/시간 다시 포맷: 추출된 날짜/시간을 14개의 기본 형식 중 하나 또는 사용자가 새로 정의한 형식으로 변경합니다.

  • 타임스탬프 변환:타임스탬프는 기록된 날짜와 시간을 식별하는 데 사용되는 코드화 된 메시지입니다. 타임스탬프 변환을 사용하여 문자열을 올바른 시간 형식으로 변환할 수 있습니다.

  • HTML: 일부 특정 HTML 태그를 일반 텍스트로 자동 변환합니다. 예를 들어 ">"를 ">"로, "&nbsp"를 공간으로 변환합니다.

참고: Octoparse를 사용하여 데이터를 다시 포맷하고 정규식 도구(RegEx Tool)를 사용하는 방법에 대해 더 알아보시겠습니까? 미리 준비되어 있습니다!

  • 웹 요소의 속성 추출(텍스트, URL, HTML 등)

  • 데이터 추출에 트리거 추가하기


HTML 코드 캡처하기

웹 페이지에서 데이터를 가져올 때 자동 인식 기능을 사용하면 Octoparse가 자동으로 텍스트와 URL도 가져옵니다. 또 다른 방법으로는 수동으로 데이터 필드를 커스텀하여 Octoparse에게 HTML 코드를 가져오도록 지시할 수 있습니다.

데이터 미리보기에서 더 보기 아이콘을 클릭하고 "커스터마이즈 필드"를 선택한 다음 선택한 데이터를 커스텀할 방법을 선택합니다.

9.png

페이지 레벨의 데이터와 현재 날짜 및 시간 데이터 가져오기

Octoparse는 페이지 레벨 데이터, 현재 날짜 및 시간 또는 기타 고정된 값을 편리하게 가져올 수 있는 여러 가지 미리 정의된 데이터 필드를 제공합니다.

  • 현재 날짜 및 시간 : 웹페이지에서 데이터를 추출한 일시

  • 페이지 레벨 데이터 : 페이지 URL, 페이지 타이틀, 메타 키워드, 메타 설명 및 HTML 소스 코드

  • 고정된 값: 사용자가 정의한 임의 고정 값

데이터 미리 보기의 오른쪽 상단 모서리에 있는 + 기호를 클릭하면 미리 정의된 데이터 필드를 기존의 데이터 집합에 추가할 수 있습니다.

14.png

답변이 도움되었나요?