Các kỹ thuật khai thác dữ liệu được đúc kết từ nhiều lĩnh vực học hỏi trùng lặp nhau, bao gồm phân tích thống kê, máy học (ML) và toán học. Dưới đây là một số ví dụ.
Khai thác quy tắc liên kết
Khai thác quy tắc liên kết là quy trình tìm kiếm mối quan hệ giữa hai tập dữ liệu khác nhau, dường như không liên quan đến nhau. Câu lệnh if-then sẽ cho biết xác suất của mối quan hệ giữa hai điểm dữ liệu. Nhà khoa học dữ liệu đo lường độ chính xác của kết quả bằng các tiêu chí hỗ trợ và độ tin cậy. Các tiêu chí hỗ trợ đo lường tần suất xuất hiện của những phần tử liên quan trong tập dữ liệu, trong khi đó các tiêu chí độ tin cậy cho biết số lần câu lệnh if-then được thực hiện chính xác.
Ví dụ: khi khách hàng mua một mặt hàng, họ cũng thường mua mặt hàng thứ hai có liên quan. Các nhà bán lẻ có thể sử dụng quy trình khai thác liên kết cho dữ liệu mua hàng trước đây để xác định mối quan tâm của khách hàng mới. Họ sử dụng kết quả khai thác dữ liệu để điền dữ liệu vào mục đề xuất của các cửa hàng trực tuyến.
Phân loại
Phân loại là một kỹ thuật khai thác dữ liệu phức tạp đào tạo thuật toán ML để sắp xếp dữ liệu thành các danh mục riêng biệt. Kỹ thuật này sử dụng các phương pháp thống kê như cây quyết định và thuật toán láng giềng gần nhất để xác định danh mục. Trong tất cả những phương pháp này, thuật toán được lập trình trước bằng các mục phân loại dữ liệu đã biết để đoán loại phần tử dữ liệu mới.
Ví dụ: các nhà phân tích có thể đào tạo phần mềm khai thác dữ liệu bằng hình ảnh quả táo và quả xoài được gắn nhãn. Sau đó, phần mềm có thể dự đoán hình ảnh mới là quả táo, xoài hay loại trái cây khác với độ chính xác nhất định.
Phân cụm
Phân cụm là quá trình nhóm nhiều điểm dữ liệu lại với nhau dựa trên những điểm tương đồng của chúng. Phân cụm khác với phân loại do không thể phân biệt dữ liệu theo danh mục cụ thể nhưng có thể tìm thấy kiểu mẫu trong các điểm tương đồng của chúng. Khai thác dữ liệu tạo ra một tập hợp cụm, trong đó mỗi tập hợp sẽ khác biệt với các nhóm khác nhưng đối tượng trong mỗi cụm sẽ phần nào đó có điểm tương đồng.
Ví dụ: phân tích cụm có thể giúp nghiên cứu thị trường khi làm việc với dữ liệu đa biến từ các cuộc khảo sát. Các nhà nghiên cứu thị trường sử dụng phân tích cụm để chia người tiêu dùng thành nhiều phân khúc thị trường và hiểu rõ hơn về mối quan hệ giữa các nhóm khác nhau.
Phân tích trình tự và đường xu hướng
Phần mềm khai thác dữ liệu cũng có thể tìm kiếm các kiểu mẫu mà trong đó một tập sự kiện hoặc giá trị cụ thể sẽ tạo ra nhiều sự kiện hoặc giá trị sau này. Phần mềm này có thể nhận ra một số thay đổi trong dữ liệu, xảy ra theo khoảng thời gian đều đặn hoặc thường xuyên dao động theo thời gian của các điểm dữ liệu.
Ví dụ: một doanh nghiệp có thể sử dụng phân tích đường xu hướng để phát hiện doanh số bán hàng của một số sản phẩm nhất định tăng đột biến ngay trước kỳ nghỉ lễ hoặc lưu ý thấy thời tiết càng ấm, số người truy cập trang web của họ càng tăng.
Hoặc