CAPTCHA

Регистрациите по уеб-сайтове могат да помагат за дигитализирането на световната литература

Стара технология за идентифициране на потребителите може да цифровизира книги

Учените от университета Карнеги Мелън са измислили как да накарат хората по света да помогнат за дигитализирането на книгите по света, докато се регистрират по различни Интернет-сайтове. Методът разчита на често използвания в днешно време прийом, при който за регистрация за дадена услуга се изисква да се препише дадена дума, която е представена като графично изображение и следва да се въведе в определено за целта поле.
Попълването на тези думи или комбинации от букви и цифри имат за цел да ограничат автоматичната регистрация на т. нар. ботове. Наричат ги CAPTCHA – съкращение, което означава „напълно автоматизиран тест за различаване на хора от компютри“. Компютрите не могат да видят текста на тези графични изображения и по този начин само реални човешки индивиди могат да се регистрират за разните онлайн-услуги.
Учените от Карнеги Мелън са установили, че всеки ден по света се „решават“ 60 милиона „гатанки“ от този вид – разчитане и попълване на абсолютно безсмислени бъркотии от букви. Всяко разчитане и попълване отнема около 10 секунди.
Вместо да си губят времето да вписват нищо незначещи поредици от символи, хората могат да вписват поредици от значещи думи – кратки откъси от книги. Така времето им ще бъде използвано по полезен начин. Докато доказват, че не са машини, а обикновени човешки същества, те ще спомогнат за ускоряването на процеса по дигитализиране на литературните ценности.
„Представяте ли си, че човечеството прекарва 150 хил. часа всеки ден в правене на тая глупост,“ казва Луис вон Аан, главен асистент в университета Карнеги Mелън. Той е участвал в разработването на CAPTCHA преди 7 години. „Дали пък не можем да използваме тези човекочасове за нещо полезно за човечеството?“
Много големи проекти по света днес са си поставили за цел да дигитализират литературно съдържание, но най-често това се прави, като се сканират страниците на книгите, така че хората после да могат да „прелистват“ изображенията на сканираните страници онлайн. Понякога се прилага технология за оптично разпознаване на символи (OCR), за да стане възможно търсенето по думи. Но според вон Аан, OCR технологията не всякога сработва достатъчно добре, особено ако текстът е по-стар, избледнял или леко разкривен. В тези случаи обичайно единственият метод за дигитализирне на текста е ръчното му набиране на компютър.
Вон Аан работи с Internet Archive, където се развиват няколко проекта за сканиране на книги и се използва CAPTCHA за разчитането им. Internet Archive сканира 12 хиляди книги миесечно и ги изпраща на вон Аан под формата на файлове с изображения, които компютърът не може да разчете. Файловете биват „разрязвани“ на множество малки изображения, съдържащи по 2-3 думи, които могат да бъдат използвани като CAPTCHA в различни сайтове в Интернет. Ако достатъчно хора дешифрират CAPTCHA по този начин, доста голям брой книги могат да бъдат „набрани“ за кратко време. В университета Карнеги Мелън вярват, че по този начин могат да бъдат коригирани мног книги, така че да могат да се използват в дигитален вид на различни носители.
Проектът за „книжните“ CAPTCHA комбинации може да бъде използван навсякъде в Интернет. Засега той е известен под името reCAPTCHA и е получил подкрепата на някои големи световни сайтове. Компанията Intel е дарила техника за работата по проекта. Тя се спонсорира и от фондацията МакАртур, кото е дала на вон Аан „грант за гении“ миналата година.

Няма коментари

Comments are closed.


«
»