report.tex

\documentclass[a4paper,10pt]{article}
\usepackage[utf8x]{inputenc}
\usepackage[english,russian]{babel} 
\usepackage{graphicx}
\usepackage{hyperref}
\usepackage{amssymb}
\usepackage[12pt]{extsizes}
\usepackage{epigraph}
\usepackage{fixme}
%opening
\title{Разработка алгоритмов обеспечения качества распределенного поисковго робота для сети Интернет}
\author{Волков Сергей}


\begin{document}

\maketitle
\section{Web Search} 
\textbf{Поисковая система} --- система, разработанная для
поиска информации в www. Результаты поиска которой, как правило, представлены в
виде списка ``попадений''\fixme{Не понятно что такое попадения}. Информация может состоять из веб страниц,  изображений,
мультимедийной информации.
\paragraph{Системы общего поиска} нацелены на охват большей части данных
доступных в www. Такие системы предназначены для поиска наиболее релевантных
документов относящихся к объекту поиска. 
\paragraph{Системы тематического поиска} более разнообразны, и требования к ним более специфичны.
 Например Google Microblogging Search Engine, ориентированный на поиск по записям в микроблогах,
где крайне важна задержка между созданием записи, и ее попадением в индекс.

\section{Поиск по новостям}

Основные источники новостей в www --- это электронные СМИ и блоги. По данным
liveinternet на 2008 год, рунет насчитывает 4392 сайта СМИ. 
\fixme{Дополнить данными по нашему проекту. Посмотреть, сколько мы считываем URL'ов по RSS}
Очевидно, за прошедшее время количество таких сайтов значительно увеличилось. За сутки каждое
из подобный изданий публикует до 100 документов(lenta.ru). Таким образом, 
можно говорить о десятках миллионов создаваемых документов в год.

Под новостью понимается документ содержащий текст, заголовок и дату. Для СМИ и
блогов характерно:
\begin{itemize} 
 \item большое количество посторонних страниц, не содержащих новостей;
 \item схожая структура (как именования url, так и самого html);
 \item наличие rss ленты.
\end{itemize}

К новостным поисковым системам предъявляют следущие требования:
\begin{itemize} 
\item минимальное время между публикацией статьи на новостном ресурсе и ее 
    предоставление в поисковой выдаче;
\item поик должен осуществлять не по всей HTML--странице, а только по ее 
    существенным частям. 
\end{itemize}

\section{Задача}
Конечной целью работы является создание системы способной эффективно индексировать новости в рунете, за счет специфики данной области www.

\fixme{перенести в конец. Оставить, просто изменить время (см п 1)}
\section{Результаты}
\begin{itemize}
 \item Проанализированы различные open source поисковые роботы (DataparkSearch,
AppSeek, mnlGoSearch, Nutch, Hounder, Heritix) и выбран nutch.
 \item Изменено поведение ядра nutch для более эффективной работы с индексом большого объема.
 \item Проанализированы различные key-value хранилища (Memcached, MongoDb, Project Voldemort, Tokyo Cabinet) и выбрано MongoDb в качестве хранилища для системы удаления дубликатов из индекса
 \item Разработан и реализован плагин к Nutch для раннего удаления дубликатов
 \item Разработан и реализован плагин для более эффективного ранжирования ссылок для новостных сайтов
 \item Разработана и реализована система для автоматического создания url фильтров
 \item Измененная система протестирована на реальных данных.
\end{itemize}

\end{document}