Scrape webové stránky pro cenná data pomocí Scrapestack API

click fraud protection

Existuje mnoho skvělých způsobů, jak najít informace na internetu. Přesto jsou některé informace hůře dohledatelné, zvláště pokud hledáte velmi konkrétní věci. Skvělým nástrojem k tomu jsou webové scrapingové služby. Scrapestack je API, které vám umožňuje spravovat vlastní webový scraping.

Webový škrabák je nástroj, který navštíví webovou stránku a pořídí kopii konkrétního typu dat. Namísto toho, abyste vše procházeli ručně, stačí zadat data škrabky k vyhledání a ono udělá všechnu práci. Scrapestack je výkonnější než bezplatné škrabky na webových stránkách. Poskytuje lepší zabezpečení, lepší spolehlivost a špičkový server.

Začínáme

Začínáme s Scrapestack je velmi snadné. Nejprve si budete muset založit účet. Jakmile budete mít účet, dostanete API klíč. To je to, co budete používat pro přístup k API, nepřekvapivě. Cílovou adresu URL pak můžete použít k seškrabování dat z libovolné webové stránky, kterou chcete.

http://api.scrapestack.com/scrape? access_key=YOUR_ACCESS_KEY&url=https://microsoft.com

Ve výše uvedeném příkladu byste seškrábali web společnosti Microsoft. Vše, co musíte udělat, je umístit klíč API na příslušné místo a na konci změnit doménu. Poté se vám zobrazí obsah stránky bez JavaScrip a CSS stylů.

Existují další parametry, které můžete přidat k této cílové adrese URL a věci dále upřesnit.

access_key

[Požadované] Zadejte svůj jedinečný přístupový klíč API pro ověření pomocí API. Přístupový klíč API najdete na hlavním panelu vašeho účtu.

url

[Požadované] Zadejte adresu URL webové stránky, kterou chcete seškrábat.

render_js

[volitelné] Nastavit na 0 (vypnuto, výchozí) popř 1 (on) v závislosti na tom, zda se má či nemá vykreslovat JavaScript na cílové webové stránce. Vykreslování JavaScriptu se provádí pomocí bezhlavého prohlížeče Google Chrome.

keep_headers

[volitelné] Set 0 (vypnuto, výchozí) popř 1 (zapnuto) v závislosti na tom, zda odeslat aktuálně aktivní záhlaví HTTP na cílovou adresu URL s vaším požadavkem API a zda rozhraní API vrátí tyto záhlaví spolu s vaší odpovědí API.

proxy_location

[nepovinné] Zadejte 2písmenný kód země, kterou nám chcete poskytnout jako proxy geolokaci pro váš požadavek scraping API. Podporované země se liší podle typu proxy, viz Místa proxy sekce pro podrobnosti.

premium_proxy

[volitelné] Set 0 (vypnuto, výchozí) popř 1 (zapnuto) v závislosti na tom, zda povolit nebo nepovolit prémiové rezidenční proxy pro vaši žádost o seškrabování. Vezměte prosím na vědomí, že jeden prémiový požadavek API proxy se počítá jako 25 požadavků API.

Ceny

Existuje několik cenových úrovní Scrapestack. Bezplatná úroveň nabízí 10 000 požadavků API, standardní proxy a omezenou podporu. Základní vrstva přidává 250 000 požadavků API, šifrování HTTPS, souběžné požadavky a neomezenou podporu. Základní náklady 19,99 $ měsíčně. Povýšením na úroveň Professional získáte 1 000 000 požadavků a úroveň Business pak dosáhne až 3 000 000 požadavků. Stojí 79,99 USD a 149,99 USD měsíčně.

Děkujeme scrapestacku za sponzorování tohoto příspěvku a poskytnutí obsahu. Naši sponzoři nám pomáhají zaplatit mnoho cnáklady spojené s provozem XDA, včetně nákladů na server, vývojářů na plný úvazek, autorů zpráv a mnoha dalších. I když můžete vedle obsahu portálu vidět sponzorovaný obsah (který bude vždy takto označen), tým portálu není v žádném případě odpovědný za tyto příspěvky. Sponzorovaný obsah, reklama a XDA Depot jsou spravovány zcela samostatným týmem. XDA nikdy neohrozí svou novinářskou integritu tím, že bude přijímat peníze za příznivé psaní o společnosti nebo jakkoli měnit naše názory nebo názory. Náš názor se nedá koupit.