Jak wykorzystać arkusze Google do Web Scraping’u?

Jak wykorzystać arkusze Google do Web Scraping’u?

Czy można wykorzystać arkusze Google do pozyskiwania meta danych? Dowiedz się, jak w prosty sposób zaimportować podstawowe dane strukturalne do arkuszy bez konieczności wykorzystywania zaawansowanych narzędzi.

Każdy pracownik SEO, czy po prostu osoba chcąca podnieść pozycję swojej strony w wynikach wyszukiwania potrzebowała kiedyś pobrać konkretne informacje ze strony. Szczególnie często są to dane takie jak tytuł SEO, opis meta czy nagłówek H1. Dotychczas wiązało się to z korzystaniem ze stworzonych do tego specjalistycznych narzędzi lub po prostu grzebaniem w kodzie strony za pomocą narzędzia programistycznego dostępnego w ramach przeglądarki. Okazuje się jednak, że arkusze Google są świetnym rozwiązaniem dla osób,  które chciałyby zautomatyzować ten proces, a nie mają czasu na naukę języka programowania.

Czym jest IMPORTXML?

IMPORTXML to dostępna w ramach arkusza Google funkcja, którą możemy zastosować w celu pobrania poszczególnych danych z interesujących nas stron internetowych. Strona wsparcia Google opisuje funkcje jako dającą możliwość zaimportowania różnych typów danych strukturalnych, takich jak:

  • XML
  • HTML
  • CSV
  • TSV
  • RSS
  • ATOM XML

Podsumowując, wykorzystanie funkcji IMPORTXML pozwoli Ci na pobranie dowolnych ustrukturyzowanych danych z wybranych stron internetowych, bez znajomości języków programowania!

Jak wykorzystać funkcję do pobrania elementów?

Samo użycie funkcji jest bardzo proste, polega podaniu jedynie dwóch wartości. Wartość pierwsza to dokładny link do strony, z której chcemy pobrać dane. Natomiast drugi element funkcji  to zapytanie, które wyznaczenia jaki typ danych ma zostać pobranych. Najlepiej będzie to widać na poniższym przykładzie:

=IMPORTXML(“https://en.wikipedia.org/wiki/Moon_landing”, “//title”)

Funkcja rozróżnia wiele typów danych, które możemy pobrać, jednak najpopularniejszymi z nich są: 

Tytuł SEO – W tym celu wpisujemy:  //title

Opis meta danej podstony – //meta[@name=’description’]/@content

Nagłówki H1 występujące na stronie – pobieramy za pomocą zapytania : //h1

Linki na stronie – mogą zostać pobrane, przy użyciu: //@href

web scraping w arkuszach google

Odpowiednie wykorzystanie funkcji IMPORTXML w narzędziu, jakim są arkusze Google, może odjąć bardzo dużo pracy oraz pomóc zautomatyzować wiele zadań. Warto pamiętać, że dane pobierane są w czasie rzeczywistym, dzięki czemu wraz ze zmianą któregoś z elementów na stronie, nasz arkusz odnotuje tę zmianę oraz wyświetli aktualne dane. Sama funkcja jest dużo bardziej rozbudowana, natomiast dziś przytoczyliśmy jedynie jej najpopularniejsze funkcje.

Warto jednak mieć na uwadze, że odpowiednio przygotowany arkusz, w którym dana funkcja została połączona z innymi formułami oraz dodatkami może pozwolić na stworzenie narzędzia, które w innym wypadku wymagałoby od nas znajomości języków programowania takich jak przykładowo Python.

(2)
Autor
Delante to agencja marketingu internetowego, specjalizująca się w generowaniu ruchu na stronach z wyszukiwarek internetowych (SEO/SEM) i z reklam płatnych. Ponad 80% naszych klientów to szybko rozwijająca się branża e-commerce.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *

Ostatnio na naszym blogu

Jesteś ciekawy, jak wygląda pozycjonowanie sklepów internetowych, a może chcesz wejść na rynek szwajcarski i ciekawi Cię, jak wygląda pozycjonowanie zagraniczne? Na naszym blogu znajdziesz odpowiedzi na te pytania i wiele innych porad ważnych dla rozwoju Twojego biznesu

Eksploracja GA4 - jak tworzyć raporty niestandardowe?

Eksploracja GA4 - jak tworzyć raporty niestandardowe?

Eksplorowanie to nowa sekcja w GA4. Możesz dzięki niech stworzyć raporty niestandardowe. Nie zwlekaj zatem z dodaniem strony do GA4 i poznaj nowe rozwiązanie od Google, zanim statystyki Google Universal zostaną wyłączone. Masz jeszcze sporo czasu – dane w ramach GA Universal będą zbierane do 1 lipca 2022 roku. Wiesz, czym są raporty niestandardowe w GA4? Sprawdź, na czym polegają i jak z nich korzystać.

Czytaj więcej
Wydarzenia marketingowe w 2022, na których warto być

Wydarzenia marketingowe w 2022, na których warto być

W 2021 roku doszło do wielu wydarzeń marketingowych, które ze względów pandemicznych nie odbyły się w 2020 roku. Powrócił Festiwal SEO, a także inne imprezy związane z marketingiem. Już wiemy, jakie wydarzenia planowane są na ten rok. Będzie się działo! Sprawdźmy, gdzie warto się pojawić w drugim półroczu 2022 roku. Na które wydarzenia marketingowe warto zwrócić szczególną uwagę?

Czytaj więcej