메인 콘텐츠로 건너뛰기

레슨 3: 데이터 다듬기

이번 주에 업데이트함

본 레슨에서는 추출된 데이터가 원하는 양식과 다를 경우 수동으로 더 정교하게 데이터를 다듬는 몇 가지 실용적인 방법들을 소개합니다.


데이터 필드 이름 변경/ 이동/ 복사/ 삭제

데이터를 성공적으로 추출하여 데이터 미리 보기 패널에 데이터가 뜨면 추출된 데이터를 살펴보고 데이터 다듬는 작업을 시작할 수 있습니다. 데이터를 편집하기 위한 몇 가지 가장 일반적인 작업으로는 데이터 필드 이름 변경, 필드 위치 이동, 데이터 필드 복사, 필요하지 않은 필드 삭제 등이 있습니다.

필드 이름을 변경하려면 필드 이름을 두 번 클릭한 다음 새 이름을 직접 입력하면 됩니다.

팁:

  • 필드 이름은 숫자, 알파벳, 밑줄(_)만 사용 가능

  • 필드 이름은 숫자로 시작할 수 없음

필드를 위치 이동하려면 필드 위에 화살표를 호버링하다가 핸드 사인이 나타나면 이동해야 할 필드를 원하는 위치로 드래그 앤 드롭합니다.

필드를 삭제하려면 .../더 보기 아이콘을 클릭한 뒤 삭제를 클릭합니다.

팁:

여러 필드를 한꺼번에 삭제하려면 세로 보기 모드에서 필드들을 선택 후 삭제할 수 있습니다.


데이터 정제하기

Octoparse는 데이터를 정리할 수 있는 다양한 방법을 제공합니다. 예를 들어: 텍스트 대체하기, 빈칸 제거, 접두사/접미사 붙이기, RegEx로 텍스트 대체하기, 날짜/시간 리포맷하기 등을 수행할 수 있습니다. 데이터가 원하는 양식으로 변할 때까지 단일 데이터 필드를 여러 가지 정제 방법으로 정리할 수 있습니다. 일부 기능은 정규식을 활용해야 할 수도 있습니다. 이 경우, Octoparse에서 제공하는 AI RegEx 도구를 이용해 보다 쉽게 작업할 수 있습니다.

데이터 미리보기에서 처리할 데이터 필드 상단 오른쪽에 있는 더 보기 아이콘을 클릭하고 데이터 정제하기를 선택합니다.

보조 추가하기를 선택한 다음 해당 데이터 필드에 대해 수행할 정제 작업을 선택합니다. 데이터가 충분히 정제될 때까지 여러 가지 보조를 추가할 수 있습니다.

  • 대체하기: 데이터 필드의 특정 문자열(string)을 새 문자열로 바꿉니다.

  • 정규표현식으로 대체하기: 특정 정규식을 사용하여 데이터 필드에서 특정 문자열을 원하는 문자열로 바꿉니다.

  • 정규표현식으로 매치하기: 특정 정규식을 사용하여 데이터 필드에서 일치하는 문자열을 매치합니다.

  • 빈칸 제거: 추출된 데이터의 앞 또는 끝에서 필요 없는 공백을 제거합니다.

  • 접두사 붙이기: 추출된 데이터 앞에 문자열/ 문자열을 추가합니다.

  • 접미사 붙이기: 추출된 데이터의 끝에 문자열/ 문자열을 추가합니다.

  • 추출된 날짜/시간 리포맷: 추출된 날짜/시간을 14개의 기본 형식 중 하나 또는 사용자가 새로 정의한 형식으로 변경합니다.

  • 타임스탬프 변환:타임스탬프는 기록된 날짜와 시간을 식별하는 데 사용되는 코드화 된 메시지입니다. 타임스탬프 변환을 사용하여 문자열을 올바른 시간 형식으로 변환할 수 있습니다.

  • 타임존 전환: 날짜와 시간을 원하는 타임존으로 변환합니다.

  • HTML트랜스코딩: 일부 특정 HTML 태그를 일반 텍스트로 자동 변환합니다. 예를 들어, &gt는 자동으로 > 기호로 변환되고, &nbsp는 공백으로 처리됩니다.

팁:

Octoparse를 사용하여 데이터 리포맷팅 및 AI 정규식 도구에 대해 더 알아보려면 아래 링크를 클릭해 주세요!


HTML 코드 캡처하기

웹 페이지에서 데이터를 추출할 때 자동 인식 기능을 사용하면 Octoparse가 자동으로 텍스트와 URL를 같이 가져옵니다. 또 다른 방법으로는 직접 데이터 필드를 설정하여 HTML 코드 전체를 추출하도록 지정할 수도 있습니다.

데이터 미리보기에서 더 보기 아이콘을 클릭하고 "사용자 지정 필드"를 선택한 다음 원하는 방식으로 데이터를 캡처할 수 있습니다. 또한 HTML 코드에서 다른 속성들을 선택해 추출할 수도 있습니다.


사용자 지정 필드 추가하기

Octoparse는 편리하게 활용할 수 있는 사용자 지정 데이터 필드를 제공합니다. 이를 활용하면 페이지 레벨 데이터, 현재 날짜 및 시간, 고정값, 해당 URL 루프 추가 등을 손쉽게 추가할 수 있습니다.

데이터 미리보기 화면 우측 상단의 + 버튼을 클릭한 뒤 원하는 사용자 지정 필드를 추가하세요.

  • 현재 날짜 및 시간: 데이터가 추출된 시점의 날짜와 시간

  • 페이지 레벨 데이터: 페이지 URL, 제목, 메타 키워드, 메타 설명, HTML 소스 코드

  • 고정값: 사용자가 직접 정의한 값

  • 해당 URL 루프 추가: 스크래핑을 시작할 때 입력한 URL


답변이 도움되었나요?