Cuil wystartował 28 lipca tego roku, tak więc nie ma jeszcze nawet miesiąca. System został stworzony przez kilku byłych pracowników Google'a oraz IBM. Założeniem było oparcie algorytmu wyszukiwania o treść stron, a nie ich popularność. W sumie nic odkrywczego, gdyż podejście to jest dość oczywiste. Cuil chwali się największą liczbą zaindeksowanych stron sięgającą 120 miliardów, lecz nie są to dane zweryfikowane. Przetestowałem wyszukiwarkę, sprawdzając, co zwróci na dwóch pierwszych stronach dla kilku haseł, którymi ostatnio się interesowałem i porównując jej wyniki z tym, co da nam Google.
Hasło: trainz
Cuil:
- trzy serwisy z dodatkami, trzy podstrony producenta gry, jedna recenzja, sklep dla modelarzy kolejowych nazywający się tak samo, jak gra, hasło na Wikipedii.
- jeden nowy serwis z dodatkami, ten sam sklep, aukcja na eBayu, cztery recenzje, hasło na Wikipedii, forum dyskusyjne o grze, jakaś polska wyszukiwarka czy coś w tym stylu (?)
Google:
- trzy strony z dodatkami, na pierwszym miejscu - polski. Do tego strona producenta, cztery serwisy o grach, jeden serwis z aplikacjami do pobrania, sklep dla modelarzy kolejowych.
- trzy kolejne strony z dodatkami, strona jednej z gier serii, dwa sklepy, porównywarka cen, jeden serwis o grach.
Tu wszystko zależy od tego, czego bym szukał. Gdyby były to nieoficjalne serwisy i dopiero zaczynałbym przygodę z grą, bardziej przydatny okazałby się Google. Poprawnie rozszyfrował, że jestem użytkownikiem z Polski i na pierwszym miejscu pokazał mi polskie strony z dodatkami, których łączna liczba zresztą też była większa. W przypadku Cuila za to trafiłbym na różne podstrony producenta, które nawiasem mówiąc posiadają główną bazę dodatków, a także forum dyskusyjne. Warto dodać, że stworzenie zapytania do odnalezienia jak największej liczby stron z dodatkami jest problematyczne, ponieważ każda witryna nazywa sobie odpowiednią sekcję inaczej.
Hasło: common lisp
Cuil:
- pięć implementacji, wolny podręcznik, stowarzyszenie użytkowników Lispa, hosting lispowych projektów open-source, syntezator muzyki stworzony w CL, framework do aplikacji internetowych stworzony w CL, opis książki na stronie domowej jej autora.
- cztery implementacje, w większości powtarzające się, dokumentacja, nierozwijany kurs Lispa, ten sam framework, ten sam opis książki, strona domowa innej książki udostępnionej za darmo.
Google:
- Wikipedia, strona jednej z implementacji, jedna witryna komercyjna, hosting lispowych projektów open-source, strona stowarzyszenia użytkowników, jeden podręcznik i jeden artykuł.
- cztery implementacje, jeden opis książki, wiki o Lispie, ta sama witryna komercyjna.
Bardzo ciekawy podręcznik Lispa znalazł się w Cuilu dopiero w dalszych wynikach, natomiast Google pokazał go na pierwszej stronie. Według mnie bardziej obiecująco prezentują się wyniki Cuila. Przede wszystkim dostałem mnóstwo różnych implementacji oraz materiały szkoleniowe, natomiast wyszukiwarka nie włączyła żadnych stron komercyjnych. Jest to dość oczywiste - wpisując samą nazwę języka, poszukuję informacji o języku, a nie firm zajmujących się tworzeniem za jego pomocą oprogramowania. Do tego odkryłem nowy framework dla aplikacji internetowych :).
Hasło: php phar
Cuil:
- kilka stron manuala, fragment jakiegoś bloga niemożliwego do weryfikacji, gdyż po włączeniu pokazują się błędy PHP (?!)
- więcej stron manuala, link do tego samego niezweryfikowanego bloga, strona PEAR
Google:
- kilka stron manuala, artykuł o Pharze, informacja o pakowaniu eZ Components w Phar i wpis na Zyxist.com :)
- trochę stron manuala, trzy artykuły, fragmenty z przeglądarek CVS i RPM.
Generalnie obie wyszukiwarki popełniają ten sam błąd: zasypują mnie mnóstwem stron manuala na dziesiątkach mirrorów, które mi są na cholerę potrzebne. Wyniki z Google'a w praktyce kierują mnie do większej liczby zewnętrznej treści, którą jednak muszę wygrzebywać spośród komputerowego bełkotu internetowych przeglądarek repozytoriów CVS i RPM - tego rodzaju syf okropnie mnie denerwuje w Google'u.
Hasło: zyxist
Cuil:
- agregatory, rzeczy domenowe, trzy strony-śmieci, mój profil na Eiobie, anglojęzyczna sekcja Zyxist.com
- więcej agregatorów, proxy, ta sama anglojęzyczna sekcja.
Google:
- różne podstrony Zyxist.com, trzy agregatory blogów, jeden katalog, mój profil w projektach Wikipedii.
- więcej podstron, agregatorów, monitoring ulic Warszawy (?!), oferta kupna domeny.
Nie jest to jedno z ostatnich wyszukiwań (w końcu wiem o istnieniu własnego bloga :)), ale z ciekawości chciałem zobaczyć, co pokaże mi każda z wyszukiwarek. W przypadku Cuila widać czarno na białym, że obszerny indeks raczej ignoruje strony polskojęzyczne, co jednak nie powinno dziwić - jeśli myślimy poważnie o wyszukiwaniu kontekstowym, nasze algorytmy muszą w pewnym stopniu mieć pojęcie o języku, w którym piszemy. Stąd na pierwszym miejscu znalazły się agregatory, gdyż ciężko przypuszczać, że ktoś sobie z mojego bloga zrobi ciekawy temat na artykuł. Niemniej in plus należy dodać, że angielska sekcja Zyxist.com została dostrzeżona.
Google zauważył, że wpisane hasło idealnie odpowiada jednej ze stron, którą ma w indeksach i postanowił pokazać jak największą jej część. Dorzucił do tego kilka agregatorów, jeden link niemający nic wspólnego z hasłem (skutek uboczny pozycjonowania?) i ofertę kupna domeny, której nazwa pokrywała się z jedną z moich subdomen.
Podsumowanie
Cuil miał "małe" problemy na starcie związane z wydajnością, ponadto ktoś zauważył, że wyszukiwarka włączyła mu na listę wyników zupełnie niewinnego zapytania stronę pornograficzną i (o zgrozo) dołączyła jedno ze zdjęć. Jak na start, jest to mała antyreklama, ale z czasem powinno być lepiej. Tak czy inaczej rozpoczynam uważniejsze śledzenie alternatywnych wyszukiwarek, gdyż jeśli pozycjonerzy nie przestaną zawalać Internetu śmieciem (a nie przestaną na pewno), Google stoi przed ryzykiem częściowego zarżnięcia samego siebie.







Napisał Kłeczek Marcin w czwartek, 14 sierpnia 2008 o 12:34
Zapytania których użyłeś są "trudne" - bardziej interesujące byłoby porównanie prostych zapytań i takich, które są używane przez "niewykształciuchów" (ludzi, którzy w adresie wpisują allegro i przez "szczęśliwy traf" w g. trafiają na allegro.pl) - popularne słowa: siatkówka, muzyka, allegro :-). Dlaczego byłyby ciekawsze? Jeśli ktoś wie, jak korzystać z wyszukiwarek, to zazwyczaj dojdzie do słów, które doprowadzą go do odpowiedniej strony ("trainz dodatki", "php phar examples", "zyxist blog").