ifarma a její puberta

Náš ďábelský GondikoSveekovský projekt pomalu dospívá a vychytává poslední provozní háčky.
To byste ani nevěřili, jaké všechny balasty se mohou v bežných RSSkách webů vyskytovat… Sláva standardům!
Pár dní mi trvalo, než jsem řádně vychytal logaritmus pro perfektní odstranění všemožných ošklivých znaků, a převádění čehokoliv do utf8 a pod.
Háčkem velkým ovšem teď zůstává lemmatizace – aneb převádění kdejakých pádů českých slov na jejich infinitivy. Co tím získám? Perfektní klíčová slova generovaná z titulků a a důmyslné vyhledávání v rozsáhlé databázi. 🙂