Scrape webové stránky pre cenné dáta pomocou Scrapestack API

click fraud protection

Existuje veľa skvelých spôsobov, ako nájsť informácie na internete. Napriek tomu sú niektoré informácie, ktoré sa hľadajú ťažšie, najmä ak hľadáte veľmi konkrétne veci. Skvelým nástrojom na to sú služby zoškrabovania webu. Scrapestack je rozhranie API, ktoré vám umožňuje spravovať vlastné zoškrabovanie webu.

Webový škrabák je nástroj, ktorý navštívi webovú stránku a vytvorí kópiu konkrétneho typu údajov. Namiesto toho, aby ste všetko prechádzali ručne, stačí zadať údaje škrabky, aby ju hľadal, a tá urobí všetku prácu. Scrapestack je výkonnejší ako bezplatné stierače webových stránok. Poskytuje lepšiu bezpečnosť, lepšiu spoľahlivosť a špičkový server.

Začíname

Začíname s Scrapestack je veľmi ľahké. Najprv si budete musieť založiť účet. Keď budete mať účet, dostanete API kľúč. To je to, čo budete používať na prístup k API, nie je prekvapením. Potom môžete použiť cieľovú adresu URL na zoškrabanie údajov z ľubovoľnej webovej lokality, ktorú chcete.

http://api.scrapestack.com/scrape? access_key=YOUR_ACCESS_KEY&url=https://microsoft.com

Vo vyššie uvedenom príklade by ste zoškrabovali webovú lokalitu spoločnosti Microsoft. Všetko, čo musíte urobiť, je umiestniť kľúč API na príslušné miesto a na konci zmeniť doménu. Potom sa vám zobrazí obsah stránky bez štýlov JavaScrip a CSS.

Existujú ďalšie parametre, ktoré môžete pridať k tejto cieľovej adrese URL, aby ste mohli veci ďalej spresniť.

access_key

[Požadovaný] Zadajte svoj jedinečný prístupový kľúč API na overenie pomocou rozhrania API. Prístupový kľúč rozhrania API nájdete na hlavnom paneli účtu.

url

[Požadovaný] Zadajte adresu URL webovej stránky, ktorú chcete zoškrabať.

render_js

[voliteľné] Nastaviť na 0 (vypnuté, predvolené) alebo 1 (on) v závislosti od toho, či sa má alebo nemá vykresľovať JavaScript na cieľovej webovej stránke. Vykresľovanie JavaScriptu sa vykonáva pomocou bezhlavého prehliadača Google Chrome.

keep_headers

[voliteľné] Set 0 (vypnuté, predvolené) alebo 1 (zapnuté) v závislosti od toho, či sa majú odosielať aktuálne aktívne hlavičky HTTP na cieľovú adresu URL s vašou požiadavkou rozhrania API a či má rozhranie API tieto hlavičky vracať spolu s odpoveďou rozhrania API.

proxy_location

[voliteľné] Zadajte 2-písmenový kód krajiny, ktorú nám chcete poskytnúť ako proxy geolokáciu pre vašu požiadavku na scraping API. Podporované krajiny sa líšia podľa typu proxy, pozrite si prosím Umiestnenia proxy v sekcii pre podrobnosti.

premium_proxy

[voliteľné] Set 0 (vypnuté, predvolené) alebo 1 (zap.) v závislosti od toho, či povoliť alebo nepovoliť prémiové rezidenčné proxy pre vašu žiadosť o zoškrabovanie. Upozorňujeme, že jedna žiadosť o prémiové rozhranie API proxy sa počíta ako 25 žiadostí o rozhranie API.

Stanovenie cien

Existuje niekoľko cenových úrovní Scrapestack. Bezplatná úroveň ponúka 10 000 žiadostí API, štandardné proxy a obmedzenú podporu. Základná úroveň pridáva 250 000 požiadaviek API, šifrovanie HTTPS, súbežné požiadavky a neobmedzenú podporu. Základné náklady 19,99 dolárov mesačne. Prevýšením na profesionálnu úroveň získate 1 000 000 žiadostí a potom úroveň Business dosiahne až 3 000 000 žiadostí. Mesačne stoja 79,99 USD a 149,99 USD.

Ďakujeme scrapestacku za sponzorovanie tohto príspevku a poskytnutie obsahu. Naši sponzori nám pomáhajú platiť mnohé cnáklady spojené s prevádzkou XDA, vrátane nákladov na server, vývojárov na plný úväzok, autorov správ a oveľa viac. Aj keď vedľa obsahu portálu môžete vidieť sponzorovaný obsah (ktorý bude vždy takto označený), tím portálu nie je v žiadnom prípade zodpovedný za tieto príspevky. Sponzorovaný obsah, reklamu a XDA Depot spravuje úplne samostatný tím. XDA nikdy neohrozí svoju novinársku integritu tým, že bude prijímať peniaze za priaznivé písanie o spoločnosti alebo akýmkoľvek spôsobom meniť naše názory alebo názory. Náš názor sa nedá kúpiť.