Milan Kryl

Kryl Blog - RSS

Google Search OCR

31. 10. 2008 - 14:53

Zajímavá novinka od Google byla oznámena včera. Vyhledávací robot Google umí číst naskenované dokumenty a následně v nich i vyhledávat. Po vyhledávání obličejů ve fotografiích v Google Picasa je to další hromadné zpracovávání obrázků.

Na internetu je možné najít spoustu různých druhů souborů. K nim patří i PDF dokumenty, které neobsahují elektronický text, ale skenované obrázky. I tyto skeny je možné nyní najít ve vyhledávání Google.

Rozšíření Google Book Search

OCR technologie není žádnou novinkou, ale rozpoznání pouhé jedné stránky obrázkového dokumentu je strojově docela náročná operace. Google svou OCR technologii vylepšil při hromadné indexaci knih a nyní její použití rozšiřuje i na obecné dokumenty, které se dají najít na internetu.

Další pěkné technologie

Lze si jen těžko představit situaci za pár let. Vezměte si databázi všech obličejů, které již nyní Picasa detekuje a lidé mají možnost identifikovat na svých vlastních fotografiích. Google postupně fotí města po celém světě a rozšiřuje si databázi Google Street View. Je jen otázkou času, kdy se budou v Google Earth objevovat aktuální snímky z nedávno vypuštěného Google satelitu.

Pozor, velký G se dívá...

Teď už to jen vše zkombinovat, aktuální situaci ze satelitu, databázi Google Street otagovanou přes databázi obličejů a s proskenovanými všemi textovými nápisy, které se v obrázcích objeví. Spolu s aktuální polohou všech uživatelů vlastnících T-Mobile G1 Google telefon...

Official Google Blog - A picture of a thousand words?

 

Tip: Krátké zprávy a zajímavosti (rychlý přístup https://kryl.info/kratce)

Související