Big data là gì, nó khác gì với data thường

6162

Bài đầu tiên trong chuỗi bài viết tìm hiểu về big data cơ bản này, chúng ta sẽ cùng đi làm rõ khái niệm về big data, để xem nó khác gì với các tệp data thường nhé.

I. Big data là gì?

Giải thích một cách hòa vốn thì big là lớn, data là dữ liệu, big data là dữ liệu lớn. Còn thực tế thì chưa có một khái niệm chính thức nào về big data tả, bởi chưa ai biết dung lượng cỡ bao nhiêu thì được coi là lớn. Nhưng nếu bạn nghĩ ra được một cột mốc để đánh dấu cho “cái sự lớn” của dữ liệu thì hãy comment bên dưới để cho mọi người cùng biết nhé.

Tuy nhiên khi dạo quanh mấy blog về big data, hay một số blog về công nghệ khác, mình thấy đa số mọi người cho rằng big data là những dữ liệu đáp ứng được 3V sau:

  • Volume: Tức là Khối lượng – Dung lượng, big data phải là một tập dữ liệu đủ lớn, nhưng cũng như đề cập ở trên – chưa có một cột mốc nào đánh dấu cho cái sự lớn cả. Bạn chỉ cần tưởng tưởng nó là một tệp dữ liệu rất lớn, lớn tới độ làm bạn thấy rằng “nó lớn vãi”.
  • Variety: Tức là sự đa dạng, big data là những dữ liệu không giới hạn sự đa dạng. Nó bao gồm tất cả các loại dữ liệu trên đời như: hình ảnh, text, video, âm thanh,… bất kể dữ liệu đó là có cấu trúc, bán cấu trúc, hay không có cấu trúc
  • Velocity: Tức là độ gia tăng của dữ liệu, dữ liệu của big data được tăng lên theo thời gian, và sự tăng lên này là cực kỳ lớn. Và cũng như tiêu chí về Volume, không có một tiêu chuẩn nào để đánh giá sự gia tăng thế nào là lớn, nhưng nó phải đủ để bạn thốt lên rằng “dữ liệu tăng nhanh vãi”.

Bạn có thể tìm thấy ở đâu đó một vài cái V khác nữa như Veracity (độ chính xác) và Value (giá trị). Nhưng mình (và một số người khác) cho rằng độ chính xác và giá trị của dữ liệu thì còn phải phụ thuộc vào yêu cầu của bài toán cần giải nữa, nó không nên là tiêu chí đánh giá dữ liệu có phải là big data hay không. Tuy nhiên tất cả mọi người đều đồng ý tối thiểu big data nên có cả 3V trên.

Mình nhớ có đọc ở đâu đó họ nói rằng 80% dữ liệu trên thế giới là big data, và chúng ta mới chỉ khai thác được 20% trong số đó.

II. Big data thường có mặt ở đâu?

Không khó để bắt gặp big data. Ví dụ như:

  • Dữ liệu trong hộp đen: Chính là cái “hộp đen” đặt trong máy bay đó. Nó ghi lại tất cả số liệu về chuyến bay, ghi âm tất cả cuộc hội thoại của phi hành đoàn.
  • Dữ liệu trên mạng xã hội: Cụ thể như trên facebook đi, tất cả những gì người dùng đăng lên như các dòng trạng thái, hình ảnh, video, lượt like, lượt share, lượt comment,… đều được ghi lại. Đương nhiên nó đủ điều kiện để trở thành big data.
  • Dữ liệu của các máy tìm kiếm: Cụ thể như google đi, các kết quả hiện ra sau khi bận nhấn nút “tìm kiếm” đều được trích xuất từ các cơ sở dữ liệu khổng lồ, kết quả trả về cũng nhiều thể loại như danh sách các trang web, video, hình ảnh.
  • Dữ liệu từ các camera quan sát: Các camera quan sát ở các ngã tư thành phố, ghi lại hoạt động của đường phố suốt ngày đêm.

III. Lợi ích & vai trò khi làm chủ được big data?

Làm chủ được big data thể hiện ở các mặt như: lưu trữ được, phân tích được, thu thập được.

Trong thời buổi hiện nay, data được xem như một dạng tài nguyên quý báu không kém gì vàng, bạc cả. Thử lấy ví dụ giữa việc bạn nắm trong tay một danh sách các “đại gia” đang có nhu cầu tậu xe, so với việc bạn vô tình nhặt được một viên kim cương. Thì cả hai trường hợp này đều có khả năng giúp bạn kiếm được tiền – tức đem lại lợi nhuận.

Đặc biệt hơn, big data còn đóng vai trò rất lớn trong việc đưa các chỉ số. Ví dụ nắm trong tay tất cả các bức ảnh mà chị em phụ nữ check in trên mạng xã hội, mình có thể phân tích và đưa ra xu hướng thời trang hiện tại, cũng như có thể dự đoán xu hướng sắp tới. Nhờ đó mà mình biết rằng nên nhập mẫu thời trang nào về bán sẽ nhận được nhiều sự quan tâm nhất.

Big data cũng có vai trò lớn trong việc phát triển AI (trí tuệ nhân tạo), bởi một trong số những yếu tố quyết định AI có thông minh hay không chính là nằm ở tập dữ liệu mà chúng ta cho nó học.

Vậy nói nhanh cho vuông, làm chủ được big data, giúp bạn tăng cơ hội kiếm tiền.

IV. Các vấn đề của big data và cách giải quyết

Về cơ bản, các vấn đề của big data có thể chia ra làm 2 nhóm:

  • Nhóm vấn đề về lưu trữ big data: Với một lượng dữ liệu khổng lồ (không có giới hạn), bạn phải tìm cách làm sao để có thể lưu trữ được hết.
  • Nhóm vấn đề về xử lý big data: Các thao các cần xử lý như phân tích một chỉ số nào đó, dự đoán một chỉ số nào đó, tìm kiếm một thông tin nào đó,…

Có một tin vui là các công nghệ hiện nay có thể giúp chúng ta giải quyết được hai loại vấn đề trên (đa phần chúng đều hoạt động dựa trên một hệ phân tán) còn giải quyết có hiệu quả hay không thì còn phụ thuộc vào độ “chịu chơi” của bạn nữa.

Trong series tìm hiểu về big data cơ bản này mình cũng sẽ giới thiệu tới bạn một vài công cụ giúp bạn giải quyết phần nào 2 vấn đề trên. Chi tiết mình sẽ trình bày ở các bài viết kế tiếp.

V. Big data khác gì data thường?

Về cơ bản, tất cả data không được xếp loại big data đều là data thường.

Đọc tới đây mà bạn vẫn không biết sự khác nhau giữa big data và data thường thì mình bắt đầu nghi ngờ việc bạn scroll nội dung quá nhanh rồi đó. Hãy quay trở lại đầu bài viết và đọc cẩn thận nhé. Rồi bạn sẽ tự phân biệt được data thường và big data khác nhau chỗ nào thôi.

VI. Tổng kết

Một vài thông tin cần thiết trong bài viết này bạn cần nhớ:

  • Tiêu chi 3V để phân biệt đâu là big data.
  • Làm chủ được big data giúp bạn tối ưu hóa giá trị
  • Big data có 2 vấn đề lớn cần giải quyết là lưu trữxử lý.

Ngắn gọn vậy thôi, hẹn gặp lại bạn trong bài viết kế tiếp.