Апр
24

Zanran, которого давно ждали

В посте о Deep Web я писала, что неизбежно появится поисковик баз данных, поисковик, который будет индексировать сайты не по словам, а искать и находить именно данные и уметь работать с динамическими страницами. И вот такой поисковик появился. Представляю первую бета версию Zanran. Zanran это поисковик для «полуструктурированных» данных в Интернете. Проще говоря, Zanran это Google для данных. Он уже извлекает данные из файлов PDF, таблиц  EXEL, данных на страницах  HTML. Zanran не работает путем поиска текстов или изображений. Он действует наоборот. В его основе лежит теория распознавания образов, и созданные на ее базе запатентованные алгоритмы компьютерного зрения. Они с точностью до 98% выделяют из файлов все, что относится к данным. В ближайшее время Zanran будет обрабатывать дополнительно файлы PowerPoint и World.  Пока он действует только для англоязычных сайтов, но  в планах основателей поисковика Джонатана Голдхила и Ива Дассаса сделать так, чтобы Zanran поддерживал наиболее распространенные в интернете языки.  Когда я провела тесты поисковика, он показал высокую релевантность и качество выдачи, и крайнее удобство для пользователя. Это настоящий, и я бы даже сказала, незаменимый инструмент для конкурентного разведчика.

Ища дополнительную информацию по этому уникальному стартапу, который я надеюсь, превратится в такого же гиганта как Google, я нашла совсем свежую, очень интересную статью одного из наиболее известных в мире конкурентных разведчиков почетного члена  СПКР Артура Вайса «Zanran – новый поисковик для данных», которую я и предлагаю вашему вниманию в оригинальном переводе.

Zanran – новый поисковик для данных

Я экспериментировал с новой поисковой системой Zanran, чье основное назначение это поиск числовых и графических данных. Проект находится в стадии бета и, тем не менее, мои первоначальные испытания принесли материалы,   которые могли бы быть найдены только с помощью расширенного поиска по Google, и то, если сильно повезет. Zanran по моему мнению, обещает быть отличным дополнением для профессионального поиска.

Zanran нацелен на поиск, что называется, полуструктурированных данных в интернете. Он находит данные в виде графиков, таблиц и диаграмм, представленных в файлах HTML, PDF или EXEL. Это ключевое отличие от других поисковиков. По сути Zanran ищет не текст, а отформатированные числовые данные.

Когда я впервые увидел сайт, я ожидал что-то подобное Wolfram Alpha или, возможно, что-то наподобие Google Squared или Google Public Data.  Оказалось, Zanran не имеет ничего общего с ними и построен на принципиально новом подходе. Вместо того, чтобы переводить информацию в данные и затем представлять ее в виде таблиц и графиков (как в Wolfram Alpha и Google Squared)  Zanran сразу ищет таблицы, графики, диаграммы и показывает их в выдаче.

Еще у Zanran есть опция, когда путем зависания курсора над результатом поисковик выдает вам соответствующую страницу данных, будь то таблицы, диаграммы или сочетание их с текстом.

В Zanran предусмотрен и расширенный поиск. Он позволяет выбрать страну поиска, дату создания документа и тип файла, а также вести поиск данных на конкретном указанном веб сайте. На данный момент он поддерживает сайты на английском языке в Австралии, Канаде, Ирландии, Индии, Великобритании, Новой Зеландии, США и ЮАР.  Поиск по дате вы можете установить на период 6, 12 и 24 месяца. Поисковик позволяет находить данные в форматах HTML, PDF, EXEL, а также динамические страницы.  Мне очень нравится, что сайт не дает полного URL адреса данных, а определяет домен верхнего уровня и позволяет скачивать файл.

Zanran.com  находится в разработке. Первоначально он финансировался Агентством технологического развития Лондона. Нетипично, что Zanran создан не в Силиконовой долине, а находится в тихом жилом переулке одного из лондонских районов. Система создана двумя химиками – Джонатаном Голдхилом и Ивом Дассасом, которые ранее занимались телекоммуникационным бизнесом. Сегодня проект финансируется группой инвесторов.

Конкурентами Zanran видят Wolfram Alpha, Google Public Data, а также Infochimps (хранилище баз данных, которое позволяет пользователям искать и загружать разнообразные базы данных конкурентов).  Такую картинку можно увидеть в кэше  страницы Zanran  в  Википедии. Википедия удалила действующую страницу, утверждая, что: «Сайт является слишком новым, чтобы знать, будет ли он или не будет когда-либо известен».

Я надеюсь, что Википедия сильно ошибается, и что Zanran станет заметным. Думаю я так потому, что компания предлагает новый подход к поиску в интернете данных. Zanran никогда не заменит Google или Bing, но это не его цель. Zanran стремится занять нишу инструментов, которые используются экспертами поиска. И я думаю, что он заслуживает успеха.


Прокомментировать

 
ОБО МНЕ

Последние записи

Сообщество Практиков Конкурентной разведки (СПКР)

Архивы