-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathreport.tex
71 lines (61 loc) · 5.23 KB
/
report.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
\documentclass[a4paper,10pt]{article}
\usepackage[utf8x]{inputenc}
\usepackage[english,russian]{babel}
\usepackage{graphicx}
\usepackage{hyperref}
\usepackage{amssymb}
\usepackage[12pt]{extsizes}
\usepackage{epigraph}
\usepackage{fixme}
%opening
\title{Разработка алгоритмов обеспечения качества распределенного поисковго робота для сети Интернет}
\author{Волков Сергей}
\begin{document}
\maketitle
\section{Web Search}
\textbf{Поисковая система} --- система, разработанная для
поиска информации в www. Результаты поиска которой, как правило, представлены в
виде списка ``попадений''\fixme{Не понятно что такое попадения}. Информация может состоять из веб страниц, изображений,
мультимедийной информации.
\paragraph{Системы общего поиска} нацелены на охват большей части данных
доступных в www. Такие системы предназначены для поиска наиболее релевантных
документов относящихся к объекту поиска.
\paragraph{Системы тематического поиска} более разнообразны, и требования к ним более специфичны.
Например Google Microblogging Search Engine, ориентированный на поиск по записям в микроблогах,
где крайне важна задержка между созданием записи, и ее попадением в индекс.
\section{Поиск по новостям}
Основные источники новостей в www --- это электронные СМИ и блоги. По данным
liveinternet на 2008 год, рунет насчитывает 4392 сайта СМИ.
\fixme{Дополнить данными по нашему проекту. Посмотреть, сколько мы считываем URL'ов по RSS}
Очевидно, за прошедшее время количество таких сайтов значительно увеличилось. За сутки каждое
из подобный изданий публикует до 100 документов(lenta.ru). Таким образом,
можно говорить о десятках миллионов создаваемых документов в год.
Под новостью понимается документ содержащий текст, заголовок и дату. Для СМИ и
блогов характерно:
\begin{itemize}
\item большое количество посторонних страниц, не содержащих новостей;
\item схожая структура (как именования url, так и самого html);
\item наличие rss ленты.
\end{itemize}
К новостным поисковым системам предъявляют следущие требования:
\begin{itemize}
\item минимальное время между публикацией статьи на новостном ресурсе и ее
предоставление в поисковой выдаче;
\item поик должен осуществлять не по всей HTML--странице, а только по ее
существенным частям.
\end{itemize}
\section{Задача}
Конечной целью работы является создание системы способной эффективно индексировать новости в рунете, за счет специфики данной области www.
\fixme{перенести в конец. Оставить, просто изменить время (см п 1)}
\section{Результаты}
\begin{itemize}
\item Проанализированы различные open source поисковые роботы (DataparkSearch,
AppSeek, mnlGoSearch, Nutch, Hounder, Heritix) и выбран nutch.
\item Изменено поведение ядра nutch для более эффективной работы с индексом большого объема.
\item Проанализированы различные key-value хранилища (Memcached, MongoDb, Project Voldemort, Tokyo Cabinet) и выбрано MongoDb в качестве хранилища для системы удаления дубликатов из индекса
\item Разработан и реализован плагин к Nutch для раннего удаления дубликатов
\item Разработан и реализован плагин для более эффективного ранжирования ссылок для новостных сайтов
\item Разработана и реализована система для автоматического создания url фильтров
\item Измененная система протестирована на реальных данных.
\end{itemize}
\end{document}