Автор: Том Вандербильт (Tom Vanderbilt) – журналист из США, блоггер. Пишет на такие темы, как технологии, наука, дизайн и культура для ряда крупных изданий. Является автором бестселлера "Traffic: Why We Drive the Way We Do (and What It Says About Us)".
Читать первую часть статьи
Найти видео о кошках в YouTube очень просто: войдите в YouTube и введите в строке поиска «кошки». Вы без труда найдете нужные ролики, так как среди их тегов присутствует слово «кошки». А что, если вы хотите найти абсолютно все ролики, загруженные на YouTube, где, так или иначе, присутствуют кошки?
Конечно, Джефф Дин (Jeff Dean) сотрудник Google Systems Infrastructure Group, и его коллеги вовсе не собирались найти всех кошек на видео, приступая к разработке нейронной сети «неконтролируемого обучения», предназначенной для распознавания на изображениях таких объектов, как лица, даже если они не обозначены в тегах. Данный алгоритм построен на основе огромного количества «нейронов» – миллиарда «тренируемых параметров». Сложность его затмевает другие системы (для его работы задействована целая армия компьютеров), хотя он и является аналогом лишь части зрительной коры в мозге человека, хотя. «Каждый нейрон смотрит на очень маленький кусочек [изображения], – рассказывает Дин. – Входными сигналами для него служат наборы пикселей и некие вычисленные функции, и этот нейрон может узнавать аналогичные элементы. Вы можете создать различные нейроны с различными весами, способными узнавать различные элементы».
Эти нейроны организованы в «слои». Нижние слои служат лишь для попытки грубого распознавания очертаний предмета. «По мере того, как мы поднимаемся по слоям вверх, начинают распознаваться свойства все более высокого порядка. – Быстрая речь Дина на миг прекратилась, а затем он продолжил. – Примерно то же самое происходит с новорожденным ребенком. Он получает множество визуальных стимулов и постепенно начинает различать паттерны. Одним из самых первых объектов, которые начинает распознавать новорожденный – это лица».
Достаточно быстро здесь начинают формироваться ассоциации: «это очень важный объект, так как я часто вижу его». Google предоставил своему «новорожденному» 10 миллионов кадров из различных роликов, загруженных в YouTube. Оказалось, что один из нейронов начал очень четко идентифицировать те кадры, на которых присутствует лицо, «даже с учетом того, что мы никогда не показывали ему, как выглядят лица». На своем ноутбуке Дин показал несколько изображений – страшные лица с заретушированными глазами. «Эти изображения заставили его сильно напрячься. Сигналами служат глаза, губы, нос и округлая форма лица». Если все эти элементы попадают в нейронную сеть, то распознавание проходит достаточно гладко.
Другие нейроны стали реагировать на котов, так как эти животные присутствуют на многих роликах в YouTube. Логика нейронной сети следующая: коты появляются на многих кадрах, значит необходимо оптимизировать себя таким образом, чтобы лучше распознавать эти объекты. В этом состоит суть поиска. То, что Дин называет «неконтролируемое обучение», можно было бы обозначить другим термином – «неконтролируемый поиск». Машины не только находят, но и интерпретируют то, что они нашли, поисковая машина формирует свои собственные алгоритмы.
Дин считает, что подобные сети могут использоваться и для слов. Слова можно представить как векторы в многомерном пространстве: для представления такого слова, как «дельфин», понадобилось бы 100-мерное пространство («Я могу вообразить лишь трехмерное пространство, но нарисовать 100-мерное – проблема для меня», – смеется он). «Постепенно вы будете сближать в этом пространстве слова, которые тесно связаны друг с другом. А расстояние между другими словами будет увеличиваться. – Он объясняет, что для этого понадобится много осей измерения. – Тогда вы сможете перенести часть слов в некоторые измерения, не нарушив связи между ними, и оставив прежними расстояния до слов, находящихся в других измерениях». То, насколько близко расположены слова друг к другу, поможет определить контекст и значимость.
Это описание напоминает семантический веб, описываемый Тимом Бернерсом-Ли (Tim Berners-Lee), как «паутина данных, которые прямо или косвенно могут обрабатываться компьютерами». Как-то Грег Линден (Greg Linden), изобретатель механизма рекомендаций в Amazon и основатель Findory, заметил: «Я не думаю, что мы когда-нибудь попадем в такой семантический веб, который был задуман, с детальными метками и описаниями веб-страниц, заполненными людьми, но мы приблизимся к этой цели – глубокому пониманию и описанию веба – с помощью искусственного интеллекта и понимания машинами естественной речи человека». Google, как он полагает, решил удалить людей от занятий по развешиванию меток на веб страницы, и передать эту функцию машинам. Вот что станет опорой будущего поиска Google: обширные знания о поведении пользователей и их намерениях (поисковик уже собрал их и пополняет каждую секунду); Граф Знаний, в котором строки превращены в предметы; успехи Google в области искусственного интеллекта.
Но обещания прекрасного будущего не должны скрыть от глаз то, каким сложным поиск является уже сегодня. Когда Google приобретала Metaweb в 2010 году, в своем заявлении компания отметила, что данная сделка позволит лучше справляться со сложными запросами. Был даже приведен пример подобного запроса: «колледжи на Западном Побережье с ценой обучения ниже 30000 долларов». Сегодня поисковик скромно уходит от ответа на вопрос о том, как обстоят дела с обещаниями, данными в статье, опубликованной по поводу приобретения Metaweb. «Проблема с подобными сложными запросами сохранилась, – говорит Линден. – Типичный запрос короткий и неоднозначный, например 'пицца'. Чтобы дать на него правильный ответ, надо вначале разобраться, чего хочет пользователь». «Ссылка вовсе не является ответом, – рассказывает Орен Этциони (Oren Etzioni), профессор вычислительных технологий из Университета Вашингтона, основавший Decide (поисковую машину, анализирующую оптимальные условия и сроки приобретения товара). – Такое предубеждение сложилось у нас из-за многолетнего опыта использования Google. А запрос 'пицца' становится проблемой в этой поисковой системе, поскольку она ориентирована на поиск информации. Пользователю же необходимо что-то, способное провести более глубокий анализ, определить его местоположение и так далее. Вы ведь хотите не просто найти самую близкую к вам пиццерию – вам нужно заведение, расположенное неподалеку, отличающееся высоким качеством обслуживания, подтвержденным хорошими отзывами? Это очень сложная проблема, Google не анализирует содержание отзывов». Этциони с несколькими студентами создали revminer.com – сервис, извлекающий данные из отзывов в Yelp.
Сингхал считает, что лучше всего выполнять поиск, имея в руках мобильное устройство. «Мы создаем свои технологии там, где в них возникает наибольшая потребность», – говорит он, указывая на Android 4.1. Ожидая, что мобильный поиск обгонит поиск с настольных компьютеров и ноутбуков в 2015 году (согласно исследовательским данным IDC), необходимо провести работу, которую Сингхал обозначил: «демаркация границ – перенести выполнение процессов на сторону [Google]. Мы станем идеальным помощником».
Успех Siri от Apple стал одной из причин, по которой аналитикам пришлось пересмотреть в положительную сторону свои прогнозы продаж iPhone 4S. Причиной тому стал энтузиазм пользователей, которых не смущали даже технические недочеты. Этциони считает: «людям крайне необходим подобный тип взаимодействия, они хотят разговаривать с цифровыми устройствами – просто дай мне нужную информацию без десяти синих ссылок». Сфера использования голосового взаимодействия с цифровыми устройствами постоянно расширяется, и скоро она станет гораздо шире, чем просто предоставление информации. Дайсон вспомнила, что как-то Билл Гейтс сказал ей: «глаголы являются будущим поиска». Доказательство этого состоит в том, что люди, осуществляя поиск, хотят делать вещи, а не просто узнавать о них.
Граф Знаний Google построен на всемирной коллекции существительных. Но поможет ли он заказать столик в ресторане? Или забронировать самый дешевый билет на авиаперелет? Хотя Google остается синонимом поиска, значительная часть нашей поисковой активности теперь переносится на приложения. Бэттелл заметил: «О самой большой проблеме поиска мы узнали еще тогда, когда веб был совсем юным. Когда эта вселенная была конечной, весь веб попадал в поиск. Сейчас наша цифровая жизнь совершенно раздроблена – по приложениям, по стенам, за которыми мы ухаживаем, такими, как Facebook, по неуклюжим интерфейсам. Воссоединение наших цифровых жизней в единой платформе, где легко осуществлять поиск, для меня является самой крупной проблемой, с которой приходится сталкиваться сегодня».
Когда Сингхала спросили: «Может быть, будущее поиска это и не поиск, в прямом смысле данного слова, а некий набор трудно идентифицируемых процессов?», его ответа не пришлось долго ждать: «Я не хочу зацикливаться на словах. Вы можете называть это так, как вам заблагорассудится. Это то, что должно обеспечивать получение информации человеческим мозгом, когда он нуждается в ней, а иногда к вам будет приходить информация, которую вы не ищете».
***
1. Рассылка пауков
Как большинство других поисковых машин, Google использует «пауков», программ-роботов, которые находятся в поиске новых и обновленных страниц, они индексируют каждое слово (за исключением артиклей [для английского языка]). Эти пауки называются «Googlebot» и они переходят по ссылкам от страницы к странице, постоянно расширяя индекс.
2. Индексация
Индекс содержит не только ключевые слова, тут также присутствуют метаданные: информация о том, были ли ключевые слова набраны заглавными буквами, каков был размер шрифта, в какой части страницы они были найдены (в заголовке, подзаголовке или далеко внизу текста). Эта информация важна для ранжирования страниц.
3. Ранжирование
Уникальной особенностью поискового алгоритма Google является PageRank. Он служит для определения важности страницы на основании количества и репутации ссылок, указывающих на нее. Также он учитывает такие моменты, как частоту появления ключевых слов, частоту обновления страницы и то, какие сайты ссылаются на нее.
4. Определение
Этот алгоритм использует более 200 сигналов для уточнения поискового запроса. Среди них PageRank сайтов, географическое положение пользователя, осуществляющего поиск, по каким ссылкам он обычно переходит, какие изменения он вносит в свои поисковые запросы, если не удовлетворен результатами, история поиска.
Bing
Сильные стороны: Похожие результаты поиска отображаются справа, отличная работа функции поиска изображений. При интеграции с Farecast он может найти лучшие цены.
Слабые стороны: Он не может справиться с задачей, если в поисковой фразе содержатся ошибки. Вы не можете проводить поиск по определенным датам.
Yahoo!
Сильные стороны: Результаты интегрированы с оригинальным контентом – аудио, видео и изображениями. Пользователь может персонализировать страницу и получать на первых позициях более релевантные именно для него результаты.
Слабые стороны: Намерения пользователя. Google может показать вам ваш город, а Yahoo! дает ссылки на нерелевантные сайты.
Yandex
Сильные стороны: Локализация. Лидер рынка в России, он возвращает релевантные для региона результаты, тогда как Google сфокусирован на странах.
Слабые стороны: Значительно меньше серверов и дата-центров по сравнению с Google, невозможность индексирования англоязычных страниц с такой скоростью, с какой этим занимается Googlebot.
Источник: Wired
Комментарии