Khai thác dữ liệu: hướng đi tiềm năng

Khai thác dữ liệu (Data Mining) là một hướng đi đầy tiềm năng hiện nay, giúp con người tổng hợp, phân tích và khai thác dữ liệu cho các mục đích khác nhau trong đời sống.

Khai thác dữ liệu: đang “hot”

Đây cũng là một lựa chọn hấp dẫn đối với nhiều sinh viên ngành công nghệ thông tin. Trước kia, các bạn sinh viên thường tập trung theo hai hướng chính là lập trình phần mềm và mạng máy tính. Tuy nhiên, mạng Internet phát triển mạnh, dẫn theo sự bùng nổ của dữ liệu đã tạo nên một lĩnh vực đầy tìm năng là khai thác dữ liệu.

Thạc sĩ Lê Ngọc Thành, phó bộ môn Khoa Học Máy Tính, trưởng nhóm Khai Thác Dữ Liệu của Trường Đại học Khoa Học Tự Nhiên TP.HCM chia sẻ: “Ngày nay dữ liệu rất phong phú, vì vậy chúng ta cần biết cách khai thác và tận dụng chúng. Tuy nhiên, việc khai thác dữ liệu có một quy trình cần phải tuân thủ, từ khâu tiền xử lý cho đến khâu phân tích và đưa vào sử dụng. Vấn đề hiện nay là chúng ta phải tìm ra những giải pháp tối ưu để tận dụng sức mạnh xử lý của máy tính, nhằm phân tích những cơ sở dữ liệu rộng lớn trong thời gian hợp lý. Thời gian gần đây, cũng đã có nhiều bạn sinh viên chọn đề tài luận văn theo hướng này, cho thấy sinh viên đã ý thức được tiềm năng của lĩnh vực khai thác dữ liệu, cũng như triển vọng của nó trong tương lai”.

Khai thác dữ liệu: tìm kiếm và hơn thế nữa

Xây dựng bộ máy tìm kiếm và tổng hợp tin tức là công việc thể hiện rõ ràng nhất mục đích của khai thác dữ liệu. Hiện nay, thế giới đang ghi nhận sự thống trị của Google trong lĩnh vực tìm kiếm. Bên cạnh đó, không thể không nhắc tới Facebook với khả năng kết nối con người với nhau, và hiển nhiên Facebook cũng sở hữu một lượng cơ sở dữ liệu khổng lồ.

Tuy thế giới đã có những cổ máy bất bại như Google, nhưng nếu giới trẻ nói chung và sinh viên nói riêng có một ý tưởng, hướng đi khác lạ thì cũng có thể đạt được thành công. Chẳng hạn, bộ máy tìm kiếm Wada mới xuất hiện gần đây, do chính người Việt xây dựng hay dịch vụ tính toán thông minh Wolfram|Alpha do hàng ngàn lập trình viên tâm huyết cùng phát triển.

Khai thác dữ liệu: hướng đi tiềm năng - 1

Wada.vn là dịch vụ tìm kiếm thuần Việt với thế mạnh là Danh bạ web và Địa điểm.

Cụ thể, ngoài hệ thống tìm kiếm thông tin, hình ảnh trên Internet dựa theo từ khóa do người dùng nhập vào, Wada còn có Danh bạ Web và Địa điểm được xây dựng dựa trên thế mạnh là sự am hiểu sâu sắc về nền văn hóa Việt Nam của đội ngủ phát triển. Theo đó, Danh bạ Web và Địa điểm là những tính năng mà người dùng Việt không thể nào tìm thấy ở Google, cũng như các trang web nước ngoài. Với chức năng Địa điểm, người dùng có thể tìm kiếm một nhà hàng, quán cà phê, siêu thị, khách sạn, phòng mạch hay trạm xăng,… rất dễ dàng, phù hợp với cả người dùng quốc tế khi chuyển qua giao diện “English”. Riêng Danh bạ web, Wada chú trọng khai thác và sáng lọc kỹ lưỡng những trang web thuần Việt để phân nhóm và sắp xếp thứ tự hợp lý, giúp người dùng có một sổ địa chỉ, gồm hơn 50.000 địa chỉ web trong tay.

Như ông Mai Liêm Trực, Tiến sĩ, nguyên Thứ trưởng thường trực Bộ Bưu Chính Viễn Thông nói trong một sự kiện công nghệ gần đây, Việt Nam có khoảng 35 triệu người dùng Internet, trong đó có hơn 16 triệu người dùng thường xuyên. Qua đó, dễ thấy, chỉ khai thác dữ liệu và tiếp cận với người dùng Việt cũng có thể mang lại thành công, khi mà Việt Nam có một tỉ lệ lớn người dùng Internet. Tất nhiên, việc mở rộng cho người dùng quốc tế cũng là một yếu tố thứ yếu cần chú trọng.

Còn Wolfram|Alpha thì lại đi theo một hướng khác của khai thác dữ liệu, đó là khả năng giải toán thông minh. Tất nhiên, dịch vụ này cũng cung cấp tính năng tìm kiếm như Google, Yahoo! Search hay Wada, nhưng tính năng chính lại là tính toán. Người dùng có thể nhập vào một bài toán tích phân, đạo hàm hay vẽ biểu đồ, giải toán logic,… Wolfram|Alpha làm được tất cả! Để làm được điều đó, hàng ngàn lập trình viên và nhà toán học trên thế giới cũng phải trải qua quá trình thu thập, phân tích và khai thác dữ liệu trong suốt thời gian dài và chắc chắn sẽ không ngừng lại trong tương lai.

Khai thác dữ liệu: hướng đi tiềm năng - 2

Wolfram|Alpha là hệ thống tìm kiếm, nhưng thiên về tính toán trong lĩnh vực khoa học kỹ thuật.

Nói vậy mới thấy, khai thác dữ liệu không chỉ đơn giản là tìm kiếm, và cửa ngỏ để thành công với con đường này tại Việt Nam khá rộng mở. Tuy nhiên, để thành công trong lĩnh vực này, các nhà phát triển phải tinh tế tìm ra một hướng đi khác biệt, tránh đối đầu trực tiếp với những đối thủ có thể gọi là bất bại.

Để thành công, phải làm việc không ngừng

Cũng như tất cả các lĩnh vực khác thuộc ngành công nghệ thông tin, khai thác dữ liệu không bao giờ dừng lại. Khi đã có được một hệ thống đủ mạnh, nhà phát triển vẫn luôn phải bổ sung, làm mới và sàng lọc kỹ càng cơ sở dữ liệu mỗi ngày.

Tiêu biểu như hệ thống Wada, chỉ sau chưa đầy một năm phát triển, với cơ sở dữ liệu rộng lớn và “sạch”, giờ đây Wada có thể thu hút một lượng lớn người dùng và thu lợi nhuận từ các hợp đồng quảng cáo, như việc ký kết giữa Wada và một đối tác tầm cỡ thế giới - Lazara. Không chỉ vậy, mới đây, Wada còn cho ra mắt ứng dụng dành cho di động và cập nhật Wada lên phiên bản mới với giao diện đẹp và tiện dụng hơn. Những sự thay đổi phù hợp với thời gian như vậy là yếu tố khá quan trọng trong sự tồn tại phát triển, khi mà giờ đây con người đòi hỏi một sản phẩm không chỉ tốt mà còn phải đẹp.

Ngoài ra, trên thế giới còn rất nhiều đề tài phát triển liên quan tới khai thác dữ liệu, như hệ thống tương tác không chạm, phân tích sóng não, nhận diện giọng nói,... Trong đó, công nghệ nhận diện giọng nói đã đi vào thực tế. Tại Việt Nam, có thể kể đến là sự thành công của hệ thống nhận diện giọng nói và đọc báo với ngôn ngữ tiếng Việt có âm điệu, được phát triển bởi nhóm AILab của trường Đại học Khoa Học Tự Nhiên TP.HCM.

Chia sẻ
Gửi góp ý
Theo Ngọc Phạm ([Tên nguồn])
Báo lỗi nội dung
GÓP Ý GIAO DIỆN