Práce s Google Refine
V předchozím příspěvku jsme si ukázali, jak dostat klíčová slova z Skliku do excelové tabulky. Slouží ke třídění velkého množství dat a hodí se k vyčištění dat pro další analýzu. Software je třeba stáhnout, rozbalit a nainstalovat. Po instalaci a otevření klikneme do levého menu na položku Create Projekt
a vybereme soubor, který jsme si připravili v předchozím kroku. Načte se nám tabulka a vpravo nahoře klikneme na tlačítko Create Projekt.
Tím s vytvoříme nový projekt – v tomto případě se jmenuje kena xls. Prvním krokem je vyčištění dat a duplicit, které se občas v Skliku vyskytují. Klikneme na malý trojúhelník nad prostředním sloupcem a vybereme nabídku Facet a dále Text facet.
V levém okně se nám otevře tabulka se slovy, kde si dáme seřadit slova podle počtu (count).
Vidíme, že slovo kěňa se vyskytuje v tabulce duplicitně, konkrétně 3x. Abychom nemuseli každou duplicitu odmazávat zvlášť, provedeme následující operace.
Nejdříve se příkazem Sort seřadíme data (vybereme řazení podle textu). Následně v horní nabídce zvolíme příkaz Reorder rows permanently.
Poté provedeme úpravu Edit cells -> Blank Down, čímž si odstraníme duplicitní fráze.
Pro kontrolu si můžeme znovu otevřít nabídku Facet -> Text facet seřadit podle počtu a zkontrolovat zda jsou všechny záznamy pouze jednou. Po smazání záznamů v předchozím kroku nám zůstalo prázdných 19 řádků značených jako blank, které také odstraníme.
Provedeme to kliknutím na blank a dále v sloupci All označením Edit rows -> Remove all matching rows. Tím jsme si vyčistili tabulku a od duplicit a můžeme pokračovat v dalších úpravách.
Perfektní funkcí, kterou Google Refine nabízí je seskupení dat podobné hodnoty. Provedeme to funkcí Edit Cells -> Cluster and edit, podle obrázku dole.
Dostaneme se následující obrazovku:
Můžeme volit z několika metod, přednastavená je key collision – ta mi přijde nejvhodnější – dáme tedy Select All a potvrdíme Merge Selected & Re-Cluster. Tímto se nám ale opět uvořili duplicity, které je potřeba odstranit, postupem který jsem uvedl dříve.
V tomto okamžiku si můžeme data seřadit třeba podle návštěvnosti a vyexportovat do excelové tabulky a dále s nimi pracovat.
Ještě bych se chtěl vrátit k jedné zajímavé fukci. Pokud si najedete do nabídky Text facet -> Customized Facets -> Word Facet a seřadíte data podle počtu výskytu slov, můžete zjistit, kolikrát a v jakém tvaru se slovo v databázi vyskytuje.
Zdroje:
http://docs.fulcrumapp.com/guides/cleaning-up-data-with-google-refine/
- Jedu na NET sraz Thajsko 2015 - 14.11.2014
- Jak si vypěstovat základní plodiny permakulturně a to nejen na Hané - 2.6.2014
- Je libo článek nebo přímo copywritera? Zkuste Copywriting.cz - 18.10.2013
- Stát který nehájí práva svých občanů, nemá právo na existenci - 8.10.2013
- Jak hromadně manipulovat ukazuje Jiří Vokáč Čmolík a jeho projekt Neurorestart - 3.6.2013
- Permakultura ve Šluknovském výběžku - 26.5.2013
- Vlastně se máme skvěle - 6.2.2013
- KUPčlánek.cz – nový pay-per-post systém přichází - 12.1.2013
- Návod na práci s Google Refine + jak snadno dostat klíčová slova z Skliku - 1.10.2012
- Návod na práci s Google refine + jak snadno dostat klíčová slova z Skliku – pokračování - 1.10.2012