Práce s Google Refine

V předchozím příspěvku jsme si ukázali, jak dostat klíčová  slova z Skliku do excelové tabulky. Slouží ke třídění velkého množství dat a hodí se k vyčištění dat pro další analýzu. Software je třeba stáhnout, rozbalit a  nainstalovat. Po instalaci a otevření klikneme do levého menu na položku Create Projekt 

a vybereme soubor, který jsme si připravili v předchozím kroku. Načte se nám tabulka a vpravo nahoře klikneme na tlačítko Create Projekt.

Tím s vytvoříme nový projekt – v tomto případě se jmenuje kena xls. Prvním krokem je vyčištění dat a duplicit, které se občas v Skliku vyskytují. Klikneme na malý trojúhelník nad prostředním sloupcem  a vybereme nabídku Facet a dále Text facet.

V levém okně se nám otevře tabulka se slovy, kde si dáme seřadit slova podle počtu (count).

Vidíme, že slovo kěňa se vyskytuje v tabulce duplicitně, konkrétně 3x.  Abychom nemuseli každou duplicitu odmazávat zvlášť, provedeme následující operace.

Nejdříve se příkazem Sort seřadíme data (vybereme řazení podle textu). Následně v horní nabídce zvolíme příkaz Reorder rows permanently.

Poté provedeme úpravu Edit cells -> Blank Down, čímž si odstraníme duplicitní fráze.

Pro kontrolu si můžeme znovu otevřít nabídku Facet -> Text facet seřadit podle počtu  a  zkontrolovat zda jsou všechny záznamy pouze jednou. Po smazání záznamů v předchozím kroku nám zůstalo prázdných 19 řádků značených jako blank, které také odstraníme.

Provedeme to kliknutím na  blank a dále v sloupci All označením Edit rows -> Remove all matching rows. Tím jsme si vyčistili tabulku a od duplicit a můžeme pokračovat v dalších úpravách.

Perfektní funkcí, kterou Google Refine nabízí je seskupení dat podobné hodnoty. Provedeme to funkcí Edit Cells -> Cluster and edit, podle obrázku dole.

Dostaneme se následující obrazovku:

Můžeme volit z několika metod, přednastavená je key collision – ta mi přijde nejvhodnější  – dáme tedy Select All a potvrdíme Merge Selected & Re-Cluster. Tímto se nám ale opět uvořili duplicity,  které je potřeba odstranit, postupem který jsem uvedl dříve.

V tomto okamžiku si můžeme data seřadit třeba podle návštěvnosti a vyexportovat  do excelové tabulky a dále s nimi pracovat.

Ještě bych se chtěl vrátit k jedné zajímavé fukci. Pokud si najedete do nabídky Text facet -> Customized Facets -> Word Facet a seřadíte data podle počtu výskytu slov, můžete zjistit, kolikrát a v jakém tvaru se  slovo v databázi vyskytuje.

 

Zdroje:

http://freeyourmetadata.org/

http://docs.fulcrumapp.com/guides/cleaning-up-data-with-google-refine/

 

 

About Martin Staník

Jmenuji se Martin Staník. Ač původně z Pardubic, před 8 lety jsem přesídlil do Šluknovského výběžku. Pomalu zapouštím kořeny v obci Lipová. Věnuji se internetovému marketingu, především SEO a PPC kampaním. Můžete mě znát ze Seznamu.cz, kde jsem v liberecké pobočce pracoval jako obchodník. Nyní jsem na vlastní noze a spolupracuji s informačním portálem Vybezek.eu. Poslední dobou mě baví zahradničení a zajímám se permakulturu.

Tags

| | | |