FANDOM


OpenRefine là một độc mã nguồn mở ứng dụng máy tính để bàn để dọn dẹp dữ liệu và chuyển đổi sang các định dạng khác, các hoạt động được gọi là tranh cãi dữ liệu. Nó tương tự như các ứng dụng bảng tính (và có thể làm việc với các định dạng tập tin bảng tính), tuy nhiên, nó cư xử giống như một cơ sở dữ liệu.

Nó hoạt động trên dòng dữ liệu đó có các tế bào dưới cột, mà là rất tương tự như bảng cơ sở dữ liệu quan hệ. Một dự án OpenRefine là một bảng. Người dùng có thể lọc các hàng để hiển thị sử dụng các khía cạnh đó xác định tiêu chí lọc (ví dụ, cho thấy hàng nơi một cột nhất định là không có sản phẩm nào). Không giống như bảng tính, hầu hết các hoạt động trong OpenRefine được thực hiện trên tất cả các hàng có thể nhìn thấy: chuyển đổi tất cả các tế bào trong tất cả các hàng trong một cột, tạo ra một cột mới dựa trên dữ liệu cột hiện có, vv Tất cả những hành động đã được thực hiện trên một tập dữ liệu được lưu trữ trong một dự án và có thể được tái hiện lại trên bộ dữ liệu khác.

Không giống như bảng tính, không có công thức được lưu trữ trong các tế bào, nhưng các công thức được sử dụng để chuyển đổi các dữ liệu, và chuyển đổi được thực hiện chỉ một lần. biểu thức chuyển đổi có thể được viết trong Google Refine Expression Language (GREL), Jython (nghĩa là Python) và Clojure.

Chương trình có một giao diện người dùng web. Tuy nhiên, nó không được lưu trữ trên web (SAAS), nhưng hiện có sẵn để tải về và sử dụng trên máy tính cục bộ. Khi bắt đầu OpenRefine, nó bắt đầu một máy chủ web và bắt đầu một trình duyệt để mở giao diện web cung cấp bởi máy chủ web này.

Khả năng

  • Làm sạch dữ liệu lộn xộn: ví dụ nếu bạn có tập tin văn bản với một số dữ liệu bán cấu trúc, bạn có thể chỉnh sửa nó bằng biến đổi, khía cạnh và clustering để làm cho dữ liệu có cấu trúc sạch.
  • Chuyển đổi dữ liệu: chuyển đổi giá trị sang các định dạng khác, bình thường hóa và denormalizing.
  • Phân tích dữ liệu từ các trang web: OpenRefine có một URL lấy tính năng và HTML jsoup phân tích cú pháp và động cơ DOM.
  • Thêm dữ liệu vào tập dữ liệu bằng cách lấy nó từ webservices (nghĩa là trở về json). Ví dụ có thể được sử dụng để mã hóa địa lý địa chỉ cho tọa độ địa lý.
  • Làm việc với Freebase:
  • Augmentation các bộ dữ liệu với dữ liệu từ Freebase.
  • Góp phần dữ liệu Freebase sử dụng tính năng Schema Alignment. Điều này liên quan đến việc hòa giải - giá trị chuỗi bản đồ trong các tế bào để các thực thể trong Freebase.

Lịch sử

OpenRefine bắt đầu cuộc sống như Freebase Gridworks phát triển bởi Metaweb và đã có sẵn như mã nguồn mở từ tháng Giêng, năm 2010. Ngày 16 Tháng 7 năm 2010, Google mua lại Metaweb, những người sáng tạo của Freebase, và vào ngày 10 Tháng 11 năm 2010 đổi tên phần mềm Freebase Gridworks của họ vào Google Refine, phát hành phiên bản 2.0. Ngày 02 Tháng Mười 2012, tác giả ban đầu David Huynh thông báo rằng Google sẽ sớm dừng hỗ trợ tích cực của Google Tinh luyện. Kể từ đó, các cơ sở mã đã được chuyển đổi sang một dự án nguồn mở có tên OpenRefine.

Tham khảo

Community content is available under CC-BY-SA unless otherwise noted.