Bỏ qua

Crawl & Search

Hướng dẫn Crawl Web & Tìm Ảnh

Tổng quan

Bạn có thể sử dụng các endpoint public của RevidAPI để: - Crawl nội dung trang web (trả về markdown/nội dung + danh sách ảnh/video nhúng tùy mode). - Tìm ảnh theo từ khóa (trả về danh sách ảnh và metadata tối giản để dùng làm thumbnail/gợi ý).

Giá cả

5 credits cho mỗi yêu cầu

Chi phí cố định cho mỗi lần gọi endpoint, không phụ thuộc độ dài tài liệu trả về.

Endpoint

1. Crawl web

  • URL: POST https://api.revidapi.com/paid/website/crawl
  • Method: POST

2. Search ảnh theo từ khóa

  • URL: POST https://api.revidapi.com/paid/search/image
  • Method: POST

Yêu cầu

Headers (chung)

  • x-api-key: Bắt buộc

Yêu cầu (Body)

1. Crawl web (POST /paid/website/crawl)

Tham số Kiểu Bắt buộc Mô tả
url string URL đầy đủ cần crawl (bất kỳ website / bài viết / landing page).
mode string web: ưu tiên trả links (danh sách URL) + markdown/nội dung; không tra images. article: ưu tiên trả nội dung chính + images/video nhúng trong bài.

Ví dụ request (Curl)

curl -s -X POST "https://api.revidapi.com/paid/website/crawl" \
  -H "Content-Type: application/json" \
  -H "x-api-key: YOUR_X_API_KEY" \
  -d '{"url":"https://example.com","mode":"web"}'

mode=article (lấy nội dung chính + ảnh/video)

curl -s -X POST "https://api.revidapi.com/paid/website/crawl" \
  -H "Content-Type: application/json" \
  -H "x-api-key: YOUR_X_API_KEY" \
  -d '{"url":"https://example.com/bai-viet","mode":"article"}'

2. Search ảnh theo từ khóa (POST /paid/search/image)

Tham số Kiểu Bắt buộc Mô tả
keyword string Từ khóa tìm ảnh (tiếng Anh hoặc tiếng Việt đều được).
max_results int Số lượng ảnh tối đa muốn lấy (1-100). Mặc định: 20.

Ví dụ request (Curl)

curl -s -X POST "https://api.revidapi.com/paid/search/image" \
  -H "Content-Type: application/json" \
  -H "x-api-key: YOUR_X_API_KEY" \
  -d '{"keyword":"sunset beach","max_results":20}'

Phản hồi

1. Crawl web

Phản hồi JSON có dạng:

{
  "success": true,
  "url": "https://example.com",
  "title": "Tiêu đề bài viết",
  "markdown": "...",
  "content": "...",
  "images": [{"url":"https://.../image.jpg","alt":"..."}],
  "videos": [{"url":"https://...","type":"embed"}],
  "links": ["https://...","https://..."]
}

Ghi chú theo mode: - mode=web: trả links; không trả images (tài liệu này cam kết không trả images trong mode web). - mode=article: trả markdown/content + images (ảnh trong bài, trước phần "Tin liên quan") và videos (URL video/embed nếu có); luôn trả links: [].

2. Search ảnh theo từ khóa

Phản hồi JSON tối giản:

{
  "success": true,
  "keyword": "sunset beach",
  "images": [
    {
      "url": "https://.../image.jpg",
      "title": "Tiêu đề ảnh",
      "source": "https://trang-goc.com/bai-viet",
      "thumbnail": "https://.../thumb.jpg"
    }
  ],
  "count": 20
}

Phản hồi lỗi

Status Mô tả
400 Request không hợp lệ (thiếu/sai định dạng tham số).
401 x-api-key không hợp lệ.
429 Quá tải / vượt giới hạn hàng đợi (tùy cấu hình hệ thống).
502 Không lấy được nội dung/ảnh từ nguồn (timeout, chặn truy cập, hoặc lỗi fetch).

Gợi ý sử dụng (workflow phổ biến)

  1. Gọi paid/website/crawl với mode=web để lấy danh sách link.
  2. Lặp qua từng link, gọi paid/website/crawl với mode=article để lấy nội dung chính + ảnh/video nhúng.