Google разработал систему распознавания текстаНа официальном блоге Google красуется интересная новость: компания разработала собственную систему оптического распознавания текста, что позволяет поисковой системе различать текст на отсканированных изображениях. Так, поисковику вполне по силам распознать текст на PDF-изображениях, но, к сожалению, о дальнейших планах и намерениях ничего не известно.

PDF-файлы уже начали индексироваться системой. Наиболее сложным видится поиск по старым отсканированным документам с ухудшенной читабельностью – например, на документах, загрязненных следами от чашек с кофе, или которые обильно помечены пометками карандашом «от руки». Кроме того, компания сообщила о намерениях по размещению в Сети отсканированных версий старых газет и журналов, которые будут помещаться в новостной архив и предлагаться пользователю в качестве ответов на поисковые запросы.

Это уже не первые попытки расширения функциональности поисковой системы. Напомним, что раньше Гугл экспериментировал с сервисом Google Audio Indexing, который был призван распознавать звуковой ряд в видеоклипах. Звук конвертировался в текст и индексировался поисковой системой.

Посмотрите еще:

  1. Google открывает сервис Google Editions
  2. Google: Caffeine – готов!
  3. Поисковик Google укрепил свои позиции на рынке США.
  4. Порядка 600 фильмов студии MGM появятся в свободном доступе через сервисы Google Play и YouTube
  5. Google Chrome v 3.0