CZHANNES.COM: Úspěšný Blog | Hannes web | Creta web | Game blog
online čtenářů: 2
celkem článků: 2282
celkem komentářů: 11853
[?] nových článků: 0
 Weblog o počítačových hrách, internetu, software, hardware a dalších zajímavostech [by Hannes] admin
05.12.2007 | 20:08 | kategorie: Osobní | Hannes | trvalý odkaz

Odborné přednášky na VŠE: Štěpán Škrob, Seznam.cz

Cyklus podizmních přednášek různých zvaných odborníků v rámci informatických předmětů na VŠE dnes pokračoval prezentací Štěpána Škroba z vyhledávače Seznam na téma Fulltextové vyhledávání (firemní blog). Seznam pořádá celou řadu přednášek, které se ale odehrávaly pouze na techničtějších školách jako ČVUT, Masarykova univerzita v Brně a Západočeská univerzita v Plzně. Na "ekonomce" se tak jednalo o premiéru, která byla snahou několika vyučujících oboru Zpracování znalostí a informací. Vše dopadlo parádně a doufám, že se přednášky rozšíří i o další témata, která Seznam nabízí.

Asi 80 minutová prezentace ve stylových Seznamáckých barvách byla prezentována na velice srozumitelné úrovni, zároveň ale nebyla nouze o zajímavé podrobnosti. Přestože pan Škrob rozhodně není kdovíjaký řečník a mnohem více vystupuje jako programátor, nedošlo k nějakým větším problémům - před nezvykle plnou posluchárnou by se asi nervozitou párkrát zakuckal každý. Přednáška samotná byla rozdělená na 4 kapitoly, přičemž průběžně při výkladu bylo možno klást dotazy, na které se vám okamžitě dostalo odpovědi. Po prvním ostychu to byl doslova příval otázek hlavně od několika jedinců (včetně mě), kteří očividně fušují do SEO/SEM a chtěli vymámit nějaké zajímavé informace. Vyzrazení algortimu S-ranku jsme ale neukecali, to si očividně v Seznamu dobře hlídají jako velké tajemství. :)

Osnova byla zhruba následující: architektura vyhledávání, princip vyhledávání, určení relevance, lemmatizace (určení základního tvaru slova a jeho derivátů), hodnocení stránek, indexování dokumentů a nakonec několik zajímavých údajů z provozu. Tady mě prezentace hodně překvapila: věděli jste třeba, že celý index seznamu (všechny indexované stránky) zabírá pouze 200 GB? Čekal jsem kdovíjaké terabajty a ono tohle. Průměrná velikost jedné stránky je zhruba 4 kB (parser odstraní vše nepotřebné, uchovává se pouze text), průměrné stáří dokumentů pak 8 dní. Největším problémem podle slov přednášejícího není velikost, ale zařazení do databáze a následné získání relevantních výsledků.

Padla také myšlenka replikace obsahu do druhého datacentra pro snížení možnosti výpadků, o které Ivo Lukačovič už dlouho psal na svém blogu. Jak ale pan Škrob poznamenal, zrovna včera jim vypadly obě serverovny najednou a tak asi bude potřeba toto řešení ještě trochu domyslet. Zarazil mě také fakt, že Seznam aktualizuje výsledky pouze jednou za den, takže drvá poměrně dlouho než se zaindexuje nový článek - Google je v tomhle ohledu mnohem pružnější a nové stránky ve výsledcích zobrazí v řádu minut po vytvoření. I Seznam ale prý něco s pomocí fresh indexů chystá, není to momentálně ale prioritní cíl.

Můj další dotaz směřoval na podezřelé dobré výsledky webů na doméně blog.cz ve vyhledávání - obsah těchto blogů je v naprosté většině případu prachmizerný, přesto často obsadí první příčky před renomovanými weby. Jelikož tuto službu provozuje Jyxo, které dříve do Seznamu dodávalo právě vyhledání, čekal bych nějakou "nepsanou smlouvu" - prý ale nic takového není. No, i kdyby bylo, asi by to nikdo veřejně nepřiznal. :) To je tedy několik postřehů z jedné z nejužitečnějších přednášek, které jsem na VŠE absolvoval. Na závěr ještě zástupce Seznamu vybral tři studenty, kteří měli nejvíce zajímavých otázek a daroval jim tašku s několika dárky. Mezi nimi jsem byl i já a tak jsem dostal různé reklamní předměty, tričko, nabídku pracovních pozic ve firmě, klíčenku a pár dalších drobností...

Přednášku si v PDF můžete stáhnout zde, k dispozici je i video z prezentace na MUNI (269 MB).
Komentáře

Radek Karban - email - 06.12.07 - 17:57
Taky jsem tam byl a polozil par otazek :) Postrehy, ktere me zaujaly a povazuji je pro SEO obor za dulezite jsem sepsal na http://www.seo-expert.cz/zajimavosti-o-seznamackem-fulltextu

Hannes - 06.12.07 - 20:41
kolego takhle nenapadne propagovat komercni aktivity to by ti slo, pracovat s nama na tymovym projektu ale uz takovej odvaz neni co =)



Přidat komentář

bezpečnostní kód: opak dne =

jméno

komentář

zalamování řádků

 

:: Zpět
eXTReMe Tracker