Khai thác Dataflow trong Power BI
Dataflow vừa mới chính thức ra mắt sau một thời gian thử nghiệm (Preview).
Lưu ý: nếu bạn đang dùng bản Power BI Pro thì với bản thử nghiệm này bạn tương tác được nhiều tính năng hơn bản chính thức (cụ thể là những tính năng chỉ có trên bản Power BI Premium).
Với dataflow chúng ta sẽ được trải nghiệm một cách tiếp cận mới hơn so với cách truyền thống (onprem).
Toàn bộ các công cụ hỗ trợ đều thuộc cloud services:
- Power Query
- Azure Data Lake
- Azure Data Factory
- Azure ML
- Azure Databricks,…
Đây cũng là xu hướng và cũng là cách để chúng ta khai thác toàn bộ sức mạnh BI của hệ sinh thái này. Ngoài ra, việc tích hợp với Power Platform hoàn toàn tương thích & dễ dàng.
Dataflow cho phép thực hiện ETL một cách dễ dàng, từ việc khai báo thông tin dữ liệu đầu vào, xử lý dữ liệu trên query (theo dataMAKER hiện tính năng vẫn chưa đầy đủ bằng query trên Power BI Desktop), thiết kế báo cáo, lập lịch tự động cập nhật dữ liệu đều rất tốt.
Đặc biệt với những bạn xử lý khối lượng dữ liệu lớn (dataMAKER đã thử nghiệm một số bảng trên 50 triệu dòng đều hoạt động rất tốt).
Việc dữ liệu được tự động lưu trữ trên Azure Data Lake (hiện tại đã cập nhật lên Azure Data Lake gen2) giúp người dùng không cần quá bận tâm đến những tác vụ mang tính hệ thống, cụ thể là bạn không nhất thiết phải quan tâm dữ liệu được tổ chức và lưu trữ theo dạng có cấu trúc hay phi cấu trúc, cách thức lưu trữ các bảng thông tin,.. Azure Data Lake làm rất tốt việc này, nếu bạn khai thác dữ liệu theo dạng CDM (Common data model) sẽ là một lợi thế không nhỏ khi khai thác tính năng tự động cập nhật dữ liệu (Incremental refresh data).
Đối với các data model phức tạp thì quan trọng nhất là xác định được các nguồn dữ liệu đầu vào, việc mò mẫm dò tìm & xử lý lỗi từ data source sẽ mất khá nhiều thời gian nếu không có thông tin rõ ràng. Với dataflow, việc này được thể hiện khá chi tiết.
Điểm hay nữa là bạn hoàn toàn có thể export cấu hình ra định dạng .json để phục vụ cho công tác kiểm tra và xử lý khi cần.
Đến đây việc tổ chức dữ liệu đã hoàn tất, việc còn lại chỉ đơn giản là kết nối vào dataflow và thiết kế báo cáo theo nhu cầu của bạn.