Как поисковый робот видит страницу. Как роботы «видят» мир? Топ платных CMS-систем
- 18.01.2016 12:00
- 1169 Прочтений
Мир сошел с ума с новостями о робототехнике, почти каждый день появляются сообщения о начинающейся революции роботов. Но насколько оправдана вся эта рекламная шумиха, ажиотаж, а иногда и страхи? Действительно ли начинается революция роботов?
В ответ можно заметить, что в некоторых областях нашей жизни мы, вероятно, увидим в ближайшее время пополнение среди роботов. Но в реальности не стоит ожидать, что в самом ближайшем будущем десятки роботов выйдут на улицы или будут бродить в наших офисах.
И одна из основных причин этого заключается в том, что роботы не имеют возможности по-настоящему видеть мир. Но прежде чем говорить о том, как роботы в будущем смогут видеть мир, сначала мы должны разобраться в том, что на самом деле подразумевает зрение.
Как мы видим?
У большинства людей есть два глаза и мы используем их для того, чтобы собирать свет, который отражается от объектов вокруг нас. Наши глаза конвертируют этот свет в электрические сигналы, которые передаются по зрительным нервам и сразу же обрабатываются нашим мозгом.
Наш мозг тем или иным образом определяет, что находится вокруг нас на основе всех этих электрических импульсов и собственного опыта. Все это создает представление о мире и позволяет ориентироваться, помогает нам подбирать вещи, позволяет распознавать друг друга в лицо и делать миллион других дел, которые мы считаем само собой разумеющимися. Вся деятельность, от сбора светового потока в наших глазах, до понимания окружающего мира - именно это обеспечивает нам возможность видеть.
Исследователи подсчитали, что для обслуживания процесса зрения используется до 50% объема нашего мозга. Почти все животные имеют глаза и могут частично видеть. При этом, большинство животных и насекомых имеют гораздо более простой, чем у людей, мозг. Но действует он хорошо.
Таким образом, некоторые формы зрения могут быть достигнуты без массивной, компьютерного уровня мощи мозга млекопитающих. Возможность видеть явно продиктована ее существенной полезностью в процессе эволюции.
Зрение роботов
Поэтому неудивительно, что многие исследователи в области робототехники прогнозируют, что если робот сможет видеть, то мы, скорее всего, на самом деле получим бум в развитии робототехники. И роботы может быть, наконец, станут настоящими помощниками человека, чего так хочется многим людям.
Как же мы научим роботов видеть? Первая часть ответа на этот вопрос очень простая. Мы используем видеокамеру, точно такую же, как в вашем смартфоне, чтобы получать постоянный поток изображений. Сама по себе технология видеокамер для роботов является серьезным объектом исследований. Но пока просто представим себе стандартную видеокамеру. Мы передаем эти изображения в компьютер, а затем есть разные варианты действий.
С 1970-х годов разработчики занимаются совершенствованием систем машинного зрения для роботов, изучают характерные черты изображений. Это могут быть линии или такие представляющие интерес точки, как углы или определенные текстуры. Программисты создают алгоритмы, чтобы находить эти характерные черты и отслеживать их кадр за кадром в видеопотоке.
Таким образом существенно сокращается объем данных из миллионов пикселей в изображении до нескольких сотен или тысяч характерных фрагментов.
В недавнем прошлом, когда вычислительные мощности были более ограниченными, это имело очень важное значение. Далее инженеры думают над тем, что робот скорее всего увидит и что он должен делать. Они создают программное обеспечение, которое будет просто распознавать шаблоны, чтобы помочь роботу понять, что находится вокруг него.
Окружающая среда
Программное обеспечение позволяет создать только базовую картину окружающей среды, в которой робот действует, или может попытаться сопоставить найденные характерные особенности с библиотекой примитивов из встроенного программного обеспечения.
В сущности, роботы запрограммированы человеком для того, чтобы увидеть вещи, которые, по мнению человека, роботу необходимо видеть. Есть много успешных примеров реализации подобных систем машинного зрения, но практически сегодня нет роботов, которые способны ориентироваться в окружающей обстановке лишь за счет машинного зрения.
Такие системы еще не достаточно надежны, чтобы гарантированно предотвратить для робота падения и столкновения в процессе перемещения. В беспилотных автомобилях, о которых в последнее время много говорят, в дополнение к системе машинного зрения используются лазеры или радары.
В последние пять-десять лет начались исследования и разработки нового поколения систем машинного зрения. Эти исследования позволили создать не запрограммированные системы, как ранее, а изучающие то, что они видят. Для роботов были разработаны системы зрения по аналогии с тем, как ученые представляют себе принципы зрения у животных. То есть они используют концепцию нейронных слоев, как в мозгу у животных. Разработчики создают структуру системы, но не закладывают алгоритм, на основе которого эта система работает. Иными словами оставляют на усмотрение робота его совершенствование.
Этот метод известен, как машинное обучение. Подобные технологии сегодня начинают внедряться благодаря тому, что стали доступны серьезные вычислительные мощности по разумной стоимости. Инвестиции в эти технологии идут в ускоренном темпе.
Коллективный разум
Значимость обучения роботов состоит еще и в том, что они могут легко обмениваться своими знаниями. Каждому роботу не придется изучать все с нуля, как новорожденному животному. Новый робот может действовать, учитывая действия и опираясь на опыт других роботов.
Не менее важно то, что роботы, которые делятся опытом, могут также и учиться совместно. Например, каждый из тысячи роботов может наблюдать за разными кошками, делиться этими данными друг с другом через интернет. Так они могут научиться совместно классифицировать всех кошек. Это пример распределенного обучения.
Тот факт, что в будущем роботы будут способны обучаться совместно и распределенным образом, имеет глубокие последствия и, пугая одних, в то же время захватывает воображение других.
Реальная робо-революция
Сегодня есть масса применений для роботов, которые могут видеть. Не трудно найти в нашей жизни сферы, где такие роботы могут помочь.
Первые примеры использования роботов, которые могут видеть, скорее всего, будут в отраслях, которые испытывают нехватку рабочей силы, таких как сельское хозяйство, или по своей сути непривлекательны для человека и могут быть опасными. Например, поисковые работы после стихийных бедствий, эвакуация людей из опасных зон или работы в замкнутых и труднодоступных пространствах.
Порой людям трудно сохранять внимание в течение длительного периода наблюдения, что также может быть реализовано с помощью робота, который может видеть. Наши будущие домашние роботы-компаньоны будут гораздо более полезными, если они смогут нас видеть.
И в операционной, по-видимому, мы вскоре увидим роботов, которые будут помогать хирургам. Совершенное зрение робота, их супер точные фиксаторы и руки позволят хирургам сосредоточиться на основной задаче - выборе решения.
Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».
Роботы-краулеры - это своего рода автономные программы-браузеры. Они заходят на сайт, сканируют содержимое страниц, делают текстовую копию и отправляют в поисковую базу. От того что увидят краулеры на вашем сайте зависит его индексация в поисковике. Есть также более узкопрофильные программы-пауки.
- «Зеркальщики» - распознают повторяющиеся ресурсы.
- «Дятлы» - определяют доступность сайта.
- « » - роботы для считывания часто обновляемых ресурсов. А также программы для сканирования картинок, иконок, определения частоты визитов и других характеристик.
Что робот видит на сайте
- Текст ресурса.
- Внутренние и внешние ссылки.
- HTML-код страницы.
- Ответ сервера.
- Файл robots. txt - это основной документ для работы с пауком. В нем вы можете задать одни параметры для привлечения внимания робота, а другие наоборот закрыть от просмотра. Также при повторном заходе на сайт, краулер пользуется именно эти файлом.
В какой форме робот видит страницу сайта?
Есть несколько способов посмотреть на ресурс глазами программы. Если вы являетесь владельцем сайта, то для вас Google придумал Search Console.
- Добавляем ресурс на сервис. Как это можно сделать читайте .
- После этого выбираем инструмент «Просмотреть как Googlebot ».
- Нажимаем «Получить и отобразить».После выполнения сканирования будет вот такой результат.
Этот способ отображает самую полную и верную картину того, как робот видит сайт. Если же вы не являетесь владельцем ресурса то, для вас есть другие варианты.
Самый простой - через сохраненную копию в поисковой системе.
Предположим, что ресурс ещё не проиндексирован, и вы не можете найти его в поисковике. В таком случае, чтобы узнать, как робот видит сайт, нужно выполнить следующий алгоритм.
- Устанавливаем Mozila Firefox .
- Добавляем в этот браузер плагин .
- Под полем URL появится бар, в котором мы:
в «Cookies» выбираем «Disable Cookies»;
в «Disable» кликаем на «Disable JavaScript» и «Disable ALL JavaScript». - Обязательно перезагружаем страницу.
- Все в том же инструменте:
в «CSS» жмем на «Disable styles» и «Disable all styles»;
и в «Images» ставим галочку на «Display ALT attributes» и «Disable ALL images». Готово!
Зачем нужно проверять то, как робот видит сайт?
Когда поисковик видит на вашем сайте одну информацию, а пользователь другую - значит, ресурс появляется не в той выдаче. Соответственно, пользователь спешно покинет его, не найдя интересующей его информации. Если так будет делать большое количество посетителей, то ваш сайт опустится на самое дно выдачи.
Проверять нужно минимум 15−20 страниц сайта и стараться охватывать все типы страниц.
Бывает, что некоторые хитрецы специально проворачивают такие аферы. Ну, например, вместо сайта о мягких игрушках пиарят какое-нибудь казино «Кукан». Поисковик со временем это (в любом случае) обнаружит и отправит такой ресурс под фильтры.
В Инструментах для веб-мастеров позволяет понять, как ваша страница выглядит для роботов Googlebot. Заголовки серверов и код HTML помогают выявить ошибки и последствия взлома, но иногда разобраться в них бывает затруднительно. Веб-мастера обычно хватаются за голову, когда им приходится заниматься решением таких проблем. Чтобы помочь вам в подобных ситуациях, мы усовершенствовали эту функцию, и теперь она может показывать страницу с помощью того же алгоритма, который использует робот Googlebot.
Как отображается просканированная страница
При обработке страницы робот Googlebot ищет и импортирует из внешних источников все связанные с ней файлы. Обычно это изображения, таблицы стилей, элементы JavaScript и другие файлы, встраиваемые с помощью CSS или JavaScript. Система использует их для отображения страницы так, как ее видит робот Googlebot.
Функция доступна в разделе «Сканирование» вашего аккаунта Инструментов для веб-мастеров . Обратите внимание, что обработка страницы с ее последующим показом может занять достаточно продолжительное время. После ее завершения наведите указатель мыши на строку, в которой указан нужный URL, чтобы просмотреть результат.
Обработка ресурсов, заблокированных в файле robots.txt
При обработке кода робот Googlebot учитывает инструкции, указанные в файле robots.txt . Если они запрещают доступ к тем или иным элементам, система не будет использовать такие материалы для предварительного просмотра. Это произойдет и в том случае, если сервер не отвечает или возвращает ошибку. Соответствующие данные можно найти в разделе Ошибки сканирования вашего аккаунта Инструментов для веб-мастеров. Кроме того, полный перечень таких сбоев отобразится после того, как будет создано изображение страницы для предварительного просмотра.
Мы рекомендуем обеспечить Googlebot доступ ко всем встроенным ресурсам, которые есть на сайте или в макете. Это упростит работу с функцией «Просмотреть как Googlebot», позволит роботу обнаружить и правильно проиндексировать контент вашего сайта, а также поможет вам понять, как выполняется сканирование ваших страниц. Некоторые фрагменты кода, такие как кнопки социальных сетей, скрипты инструментов аналитики и шрифты, обычно не определяют оформление страницы, а значит их сканирование не обязательно. Подробнее о том, как Google анализирует веб-контент, читайте в предыдущей статье .
Надеемся, что наше нововведение поможет вам решить проблемы с оформлением сайта и обнаружить ресурсы, которые Google по тем или иным причинам не может просканировать. Если у вас есть вопросы, свяжитесь с нами в сообществе для веб-мастеров на Google Plus или поищите ответ на