Dziś jest piątek, 21 listopada 2008 roku (z kalendarza...)

Alternatywne wyszukiwarki

Icon

14.08.2008, 10:52

Komputery

Komentarze (4)

Powrót

W przypadku części wyników wyszukiwania zaczynam czasem zastanawiać się, czy przekopywanie się przez tony śmiecia zwracanego przez Google rzeczywiście jest warte swojego czasu. Nie czarujmy się, wyszukiwarka ta dzięki działaniom pozycjonerów oraz tysięcy stron powielających treść, w końcu przestanie być zdatna do użytku. Przecież od wielu lat powstają nowe produkty i stwierdziłem, że pora się im bliżej przyjrzeć. Na pierwszy ogień poszedł najmłodszy debiutant, Cuil.

Cuil wystartował 28 lipca tego roku, tak więc nie ma jeszcze nawet miesiąca. System został stworzony przez kilku byłych pracowników Google'a oraz IBM. Założeniem było oparcie algorytmu wyszukiwania o treść stron, a nie ich popularność. W sumie nic odkrywczego, gdyż podejście to jest dość oczywiste. Cuil chwali się największą liczbą zaindeksowanych stron sięgającą 120 miliardów, lecz nie są to dane zweryfikowane. Przetestowałem wyszukiwarkę, sprawdzając, co zwróci na dwóch pierwszych stronach dla kilku haseł, którymi ostatnio się interesowałem i porównując jej wyniki z tym, co da nam Google.

Hasło: trainz

Cuil:

  1. trzy serwisy z dodatkami, trzy podstrony producenta gry, jedna recenzja, sklep dla modelarzy kolejowych nazywający się tak samo, jak gra, hasło na Wikipedii.
  2. jeden nowy serwis z dodatkami, ten sam sklep, aukcja na eBayu, cztery recenzje, hasło na Wikipedii, forum dyskusyjne o grze, jakaś polska wyszukiwarka czy coś w tym stylu (?)

Google:

  1. trzy strony z dodatkami, na pierwszym miejscu - polski. Do tego strona producenta, cztery serwisy o grach, jeden serwis z aplikacjami do pobrania, sklep dla modelarzy kolejowych.
  2. trzy kolejne strony z dodatkami, strona jednej z gier serii, dwa sklepy, porównywarka cen, jeden serwis o grach.

Tu wszystko zależy od tego, czego bym szukał. Gdyby były to nieoficjalne serwisy i dopiero zaczynałbym przygodę z grą, bardziej przydatny okazałby się Google. Poprawnie rozszyfrował, że jestem użytkownikiem z Polski i na pierwszym miejscu pokazał mi polskie strony z dodatkami, których łączna liczba zresztą też była większa. W przypadku Cuila za to trafiłbym na różne podstrony producenta, które nawiasem mówiąc posiadają główną bazę dodatków, a także forum dyskusyjne. Warto dodać, że stworzenie zapytania do odnalezienia jak największej liczby stron z dodatkami jest problematyczne, ponieważ każda witryna nazywa sobie odpowiednią sekcję inaczej.

Hasło: common lisp

Cuil:

  1. pięć implementacji, wolny podręcznik, stowarzyszenie użytkowników Lispa, hosting lispowych projektów open-source, syntezator muzyki stworzony w CL, framework do aplikacji internetowych stworzony w CL, opis książki na stronie domowej jej autora.
  2. cztery implementacje, w większości powtarzające się, dokumentacja, nierozwijany kurs Lispa, ten sam framework, ten sam opis książki, strona domowa innej książki udostępnionej za darmo.

Google:

  1. Wikipedia, strona jednej z implementacji, jedna witryna komercyjna, hosting lispowych projektów open-source, strona stowarzyszenia użytkowników, jeden podręcznik i jeden artykuł.
  2. cztery implementacje, jeden opis książki, wiki o Lispie, ta sama witryna komercyjna.

Bardzo ciekawy podręcznik Lispa znalazł się w Cuilu dopiero w dalszych wynikach, natomiast Google pokazał go na pierwszej stronie. Według mnie bardziej obiecująco prezentują się wyniki Cuila. Przede wszystkim dostałem mnóstwo różnych implementacji oraz materiały szkoleniowe, natomiast wyszukiwarka nie włączyła żadnych stron komercyjnych. Jest to dość oczywiste - wpisując samą nazwę języka, poszukuję informacji o języku, a nie firm zajmujących się tworzeniem za jego pomocą oprogramowania. Do tego odkryłem nowy framework dla aplikacji internetowych :).

Hasło: php phar

Cuil:

  1. kilka stron manuala, fragment jakiegoś bloga niemożliwego do weryfikacji, gdyż po włączeniu pokazują się błędy PHP (?!)
  2. więcej stron manuala, link do tego samego niezweryfikowanego bloga, strona PEAR

Google:

  1. kilka stron manuala, artykuł o Pharze, informacja o pakowaniu eZ Components w Phar i wpis na Zyxist.com :)
  2. trochę stron manuala, trzy artykuły, fragmenty z przeglądarek CVS i RPM.

Generalnie obie wyszukiwarki popełniają ten sam błąd: zasypują mnie mnóstwem stron manuala na dziesiątkach mirrorów, które mi są na cholerę potrzebne. Wyniki z Google'a w praktyce kierują mnie do większej liczby zewnętrznej treści, którą jednak muszę wygrzebywać spośród komputerowego bełkotu internetowych przeglądarek repozytoriów CVS i RPM - tego rodzaju syf okropnie mnie denerwuje w Google'u.

Hasło: zyxist

Cuil:

  1. agregatory, rzeczy domenowe, trzy strony-śmieci, mój profil na Eiobie, anglojęzyczna sekcja Zyxist.com
  2. więcej agregatorów, proxy, ta sama anglojęzyczna sekcja.

Google:

  1. różne podstrony Zyxist.com, trzy agregatory blogów, jeden katalog, mój profil w projektach Wikipedii.
  2. więcej podstron, agregatorów, monitoring ulic Warszawy (?!), oferta kupna domeny.

Nie jest to jedno z ostatnich wyszukiwań (w końcu wiem o istnieniu własnego bloga :)), ale z ciekawości chciałem zobaczyć, co pokaże mi każda z wyszukiwarek. W przypadku Cuila widać czarno na białym, że obszerny indeks raczej ignoruje strony polskojęzyczne, co jednak nie powinno dziwić - jeśli myślimy poważnie o wyszukiwaniu kontekstowym, nasze algorytmy muszą w pewnym stopniu mieć pojęcie o języku, w którym piszemy. Stąd na pierwszym miejscu znalazły się agregatory, gdyż ciężko przypuszczać, że ktoś sobie z mojego bloga zrobi ciekawy temat na artykuł. Niemniej in plus należy dodać, że angielska sekcja Zyxist.com została dostrzeżona.

Google zauważył, że wpisane hasło idealnie odpowiada jednej ze stron, którą ma w indeksach i postanowił pokazać jak największą jej część. Dorzucił do tego kilka agregatorów, jeden link niemający nic wspólnego z hasłem (skutek uboczny pozycjonowania?) i ofertę kupna domeny, której nazwa pokrywała się z jedną z moich subdomen.

Podsumowanie

Cuil miał "małe" problemy na starcie związane z wydajnością, ponadto ktoś zauważył, że wyszukiwarka włączyła mu na listę wyników zupełnie niewinnego zapytania stronę pornograficzną i (o zgrozo) dołączyła jedno ze zdjęć. Jak na start, jest to mała antyreklama, ale z czasem powinno być lepiej. Tak czy inaczej rozpoczynam uważniejsze śledzenie alternatywnych wyszukiwarek, gdyż jeśli pozycjonerzy nie przestaną zawalać Internetu śmieciem (a nie przestaną na pewno), Google stoi przed ryzykiem częściowego zarżnięcia samego siebie.

Powrót

Przypisy:

Komentarze

Napisał Kłeczek Marcin w czwartek, 14 sierpnia 2008 o 12:34

Zapytania których użyłeś są "trudne" - bardziej interesujące byłoby porównanie prostych zapytań i takich, które są używane przez "niewykształciuchów" (ludzi, którzy w adresie wpisują allegro i przez "szczęśliwy traf" w g. trafiają na allegro.pl) - popularne słowa: siatkówka, muzyka, allegro :-). Dlaczego byłyby ciekawsze? Jeśli ktoś wie, jak korzystać z wyszukiwarek, to zazwyczaj dojdzie do słów, które doprowadzą go do odpowiedniej strony ("trainz dodatki", "php phar examples", "zyxist blog").

Napisał Damian w piątek, 15 sierpnia 2008 o 06:46

Cuil jak go ostatnio testowałem miał problemy z polskimi znakami. Jeszcze sporo pracy czeka autorów. Mnie natomiast ciekawi jakie będą w przyszłości konsekwencje zakupu przez Microsoft http://www.powerset.com/ . Według mnie to jest właśnie przyszłość wyszukiwania. Google się tutaj zagapiło trochę.

Napisał kapitan_hak w niedzielę, 17 sierpnia 2008 o 18:14

Cuil jest jeszcze nie dopracowany, ale myślę że wkrótce się to zmieni. Porównanie z google moim zdaniem to lekka przesada, ponieważ google to "starzy wyjadacze", którzy od lat pracowali nad tym aby ich wyszukiwarka była jak najlepsza.

Napisał Zyx w niedzielę, 17 sierpnia 2008 o 22:39

Porównuję z Google, bo szukam czegoś do ewentualnego zastąpienia Google, przynajmniej w niektórych zastosowaniach, więc moim zdaniem sprawa jest oczywista.

Strona 1 z 1 :: 1

Skomentuj

NickInformacja
E-mailTylko do użytku wewnętrznego.
WWWNie zapomnij o http://
LayoutNapisz tu, czy widzisz dzienny czy nocny layout.
WpisFormatowanie wiki
Internauto, pamiętaj! Wolność to nie samowola - dbaj o kulturę wypowiedzi oraz dyskusji w sieci.

Na Zyxist.com panuje swoboda wyrażania opinii oraz krytyki pod dowolnym adresem. Jedyny warunek: musi być ona kulturalna i rzeczowa. Na chamstwo, prostactwo lub jawne obrażanie kogokolwiek nie ma tu miejsca i takie komentarze są bardzo szybko usuwane. Jeśli zamierzasz polemizować z treścią wpisu, wpierw uważnie ją przeczytaj.

© Tomasz "Zyx" Jędrzejewski 2005 - 2008 | Wykonanych zapytań: 2 | Serwer wirtualny zapewnia