Octoparse 최신 버전에서는 별점 데이터를 보다 간편하고 안정적으로 추출할 수 있습니다.
이직 구버전을 사용 중이시라면 여기서 성능과 안정성이 개선된 최신 버전으로 업그레이드를 강력히 권장드립니다.
일부 웹사이트(예: Trustpilot)에서는 별점 정보가 일반 텍스트가 아닌 HTML 속성(attribute)에 저장됩니다. 이런 경우에 어떻게 별점 정보를 추출할 수 있을 지 많은 사용자분이 고민하셨을 텐데 이 튜토리얼에서 웹 페이지에서 이러한 종류의 별점 정보를 스크래핑하는 방법을 보여드리겠습니다.
우선 별점 정보를 가져오는 방법은 두 가지가 있습니다.
방법 1. HTML 속성에서 직접 추출
✅적합 대상:
alt, src 등의 단순 속성에서 별점을 추출하는 경우
단계:
해당 페이지에서 별점 요소를 선택합니다.
팁 패널에서 아래 옵션 중 선택합니다.
Image URL : 별점이 이미지로 표시되는 경우
OuterHtml : 원본 HTML을 추출하는 경우
3. 데이터 추출 →해당 필드 "..." (더 보기) →사용자 지정 필드를 이어서 클릭합니다.
4. 기타 속성 선택에서 alt
또는 src
를 선택합니다.
5. 추출된 값(예: alt="5 stars")을 확인한 후 적용합니다.
방법 2. HTML 추출 후 정규표현식(RegEx)으로 가공
✅적합 대상:
별점 정보가 HTML 내부에 복잡하게 포함된 경우
단계:
별점 요소를 선택한 후 OuterHtml을 선택합니다.
2. 데이터 추출 → "..." → 데이터 정제하기를 클릭합니다.
3. 보조 추가하기 →정규표현식으로 매치하기를 선택합니다.
Octoparse 8.8.0 및 이후 버전
“정규식이 어려우신가요? 도구 및 AI 지원을 사용해 보세요” 클릭
2. 원본 텍스트에서 필요한 텍스트만 직접 강조 표시
3. 생성 클릭 → AI가 정규표현식 자동 생성
4. 테스트 클릭 → 정규표현식 검증
5. 적용 및 저장 클릭 → 표현식 적용 후 저장
Octoparse 8.8.0 이전 버전
두 가지 방법이 있습니다:
정규표현식 직접 입력 (정규식 숙련자)
RegEx 도구 활용 (추천)
RegEx Tool 사용 시:
시작말 항목에 별점 앞 텍스트 입력 (예: alt=")
맺음말 항목에 별점 뒤 텍스트 입력 (예: ")
매치 클릭 후 추출 결과 확인
적용 → 정규표현식 적용