메인 콘텐츠로 건너뛰기

별점 정보 추출 방법

어제 업데이트함

Octoparse 최신 버전에서는 별점 데이터를 보다 간편하고 안정적으로 추출할 수 있습니다.
이직 구버전을 사용 중이시라면 여기서 성능과 안정성이 개선된 최신 버전으로 업그레이드를 강력히 권장드립니다.

일부 웹사이트(예: Trustpilot)에서는 별점 정보가 일반 텍스트가 아닌 HTML 속성(attribute)에 저장됩니다. 이런 경우에 어떻게 별점 정보를 추출할 수 있을 지 많은 사용자분이 고민하셨을 텐데 이 튜토리얼에서 웹 페이지에서 이러한 종류의 별점 정보를 스크래핑하는 방법을 보여드리겠습니다.

우선 별점 정보를 가져오는 방법은 두 가지가 있습니다.


방법 1. HTML 속성에서 직접 추출

✅적합 대상:

alt, src 등의 단순 속성에서 별점을 추출하는 경우

단계:

  1. 해당 페이지에서 별점 요소를 선택합니다.

  2. 팁 패널에서 아래 옵션 중 선택합니다.

  • Image URL : 별점이 이미지로 표시되는 경우

  • OuterHtml : 원본 HTML을 추출하는 경우

3. 데이터 추출 →해당 필드 "..." (더 보기) →사용자 지정 필드를 이어서 클릭합니다.

4. 기타 속성 선택에서 alt 또는 src를 선택합니다.

5. 추출된 값(예: alt="5 stars")을 확인한 후 적용합니다.


방법 2. HTML 추출 후 정규표현식(RegEx)으로 가공

✅적합 대상:

별점 정보가 HTML 내부에 복잡하게 포함된 경우

단계:

  1. 별점 요소를 선택한 후 OuterHtml을 선택합니다.

2. 데이터 추출 → "..." → 데이터 정제하기를 클릭합니다.

3. 보조 추가하기정규표현식으로 매치하기를 선택합니다.


Octoparse 8.8.0 및 이후 버전

  1. “정규식이 어려우신가요? 도구 및 AI 지원을 사용해 보세요” 클릭

2. 원본 텍스트에서 필요한 텍스트만 직접 강조 표시

3. 생성 클릭 → AI가 정규표현식 자동 생성

4. 테스트 클릭 → 정규표현식 검증

5. 적용 및 저장 클릭 → 표현식 적용 후 저장

Octoparse 8.8.0 이전 버전

두 가지 방법이 있습니다:

  1. 정규표현식 직접 입력 (정규식 숙련자)

  2. RegEx 도구 활용 (추천)

  • RegEx Tool 사용 시:

  1. 시작말 항목에 별점 앞 텍스트 입력 (예: alt=")

  2. 맺음말 항목에 별점 뒤 텍스트 입력 (예: ")

  3. 매치 클릭 후 추출 결과 확인

  4. 적용 → 정규표현식 적용

답변이 도움되었나요?