Friday, May 25, 2007

Công cụ mới "biến rác thành vàng"

Chỉ một vài phím bấm đơn giản là những ký tự vô nghĩa sẽ biến thành... sách. Nghe cứ như chuyện viễn tưởng, nhưng chẳng bao lâu nữa, khi gõ lại những tổ hợp ký tự lủng củng vẫn thường được dùng để xác thực tư cách thành viên một website hay mua hàng trên mạng, chính bạn sẽ góp phần vào dự án "số hóa sách toàn cầu".

Lois Von Ahn, người sáng lập ra dự án CAPTCHA. Nguồn: AP
Lois Von Ahn, người sáng lập ra dự án CAPTCHA. Nguồn: AP

Thuật ngữ riêng để chỉ những tổ hợp ký tự này là CAPTCHA, viết tắt của "bài kiểm tra hoàn toàn tự động để phân biệt giữa người với máy tính".

Máy tính không thể giải mã được sự khác nhau giữa số và chữ, vì thế, CAPTCHA đảm bảo rằng người thật đang sử dụng Website, chứ không phải các chương trình được lập trình tự động.

Các nhà nghiên cứu ước tính rằng có khoảng 60 triệu cụm từ vô nghĩa kiểu này được người dùng nhập vào mạng mỗi ngày, tức là mỗi cá nhân sẽ mất trung bình 10 giây để đọc, tiếp nhận và gõ lại.

Thay vì lãng phí thời gian vào việc gõ những cụm chữ, số ngẫu nhiên, các chuyên gia của trường Đại học Carnegie Mellon đã nảy ra một ý tưởng: Cho người dùng gõ vào một trích đoạn ngắn của một cuốn sách bất kỳ. Việc làm này đúng là "một công đôi việc", vừa khẳng định họ không phải máy tính, vừa giúp đẩy nhanh tiến độ số hóa kho tàng sách nhân loại.

"Loài người đang lãng phí tới 150.000 giờ mỗi ngày cho những cụm từ vô bổ", ông Luis von Ahn, Phó Giáo sư môn CNTT của trường Carnegie tuyên bố. "Liệu có cách nào để tận dụng tốt hơn khoảng thời gian này hay không?".

Rất nhiều dự án lớn, tầm cỡ đang được triển khai để số hóa và đưa sách lên mạng, nhưng công việc chủ yếu của chúng chỉ là scan các trang sách, cho phép người dùng "lật qua" mà thôi.

Tuy nhiên, trong những trường hợp sách bị mờ, nhòa hoặc mất chữ vì dấu ấn của thời gian, cách duy nhất để "số hóa" chúng chính là gõ lại nội dung bằng tay.

Sức mạnh số đông

Ông Von Ahn tin rằng đây chính là phân đoạn mà CAPTCHA có thể can thiệp. Ông đã bắt tay với Internet Archive, một tổ chức đang triển khai vài dự án số hóa sách quy mô.

Nguồn: AFP
Nguồn: AFP

Mỗi tháng, Internet Archive sẽ scan khoảng 12.000 cuốn sách và gửi cho Ahn vài trăm ngàn file có chứa những nội dung mà máy tính không thể nhận dạng được. Số file này sẽ được tải về máy chủ của CAPTCHA và chia nhỏ ra, phân về các website trên toàn mạng Internet.

"Nếu người dùng đồng ý giải mã CAPTCHA, chúng ta sẽ có thể số hóa sách và tận hưởng những lợi ích mà nó mang lại sớm hơn dự kiến", ông Brewster Kahle, đồng sáng lập Internet Archive cho biết.

Kahle bình luận rằng dự án của Ahn đã "huy động sức mạnh con người theo một hướng đi không thể đúng đắn hơn". "Không chi giải quyết được vấn đề thư rác, bạn còn giúp bảo tồn những trước tác và lịch sử của loài người trong kỷ nguyên số".

Dù mới chỉ chính thức khánh thành hôm thứ 4 vừa qua nhưng tới nay, đã có tới hơn 150 website sử dụng dự án CAPTCHA. Nội trong vòng nửa ngày hôm qua, dự án đã số hóa được hơn 8000 từ.

Một lần nữa, Internet lại chứng minh được sức mạnh của nó trong việc huy động năng lượng tổng hợp của cộng đồng, của số đông người dùng. Những thí dụ điển hình khác là Digg và Slashlot, nơi người dùng được quyền đánh giá chất lượng nội dung bài post.

Trọng Cầm (Tổng hợp AP, CNET)

Source: http://vietnamnet.vn/cntt/2007/05/698790/

No comments: