[TIP] Sử dụng Excel làm công cụ để sao chép dữ liệu từ trang web

Sao chép dữ liệu web là hành động trích xuất dữ liệu, thông tin hoặc hình ảnh từ một trang web bằng phương pháp tự động. Nó tương tự việc sao chép và dán hoàn toàn tự động.

Chúng tôi hoặc viết hoặc sử dụng một ứng dụng để truy cập các trang web mà chúng tôi muốn và tạo một bản sao của những nội dung cụ thể mà chúng tôi muốn từ các trang web đó. Nó chính xác hơn nhiều so với tải xuống toàn bộ trang web.

Giống như bất kỳ công cụ nào khác, sao chép dữ liệu web có thể được sử dụng cho mục đích tốt hoặc xấu.

Một số lý do tốt của việc sao chép dữ liệu các trang web giúp nó được đánh giá cao là dựa trên nội dung của nó, so sánh chi phí mua sắm hoặc theo dõi thông tin thị trường chứng khoán. Bạn thậm chí có thể sử dụng nó như một công cụ nghiên cứu.

Tôi làm thế nào để lấy thông tin trên trang Web bằng Excel?

Dù bạn có tin hay không, Excel có khả năng trích xuất dữ liệu từ các trang web đã từ lâu, ít nhất là kể từ Excel 2003. Trích xuất dữ liệu web là điều mà hầu hết mọi người không nghĩ đến, chúng ta hãy xem xét việc sử dụng chương trình trang tính để làm điều này. Nhưng nó thật dễ dàng và hiệu quả.

Hãy cùng tìm hiểu cách thức thực hiện thao tác này thông qua ví dụ tạo ra một bộ sưu tập các phím tắt Microsoft Office.

Tìm các trang web bạn muốn trích xuất dữ liệu

Điều đầu tiên chúng tôi sẽ làm là tìm các trang web cụ thể mà chúng tôi muốn lấy thông tin. Đi đến nguồn và tìm kiếm tại https://support.office.com/. Chúng tôi sẽ sử dụng thuật ngữ tìm kiếm “các phím tắt thường được sử dụng”. Chúng tôi có thể làm cho nó cụ thể hơn bằng cách sử dụng tên của ứng dụng cụ thể, như Outlook, Excel, Word, v.v. Đánh dấu trang kết quả để chúng tôi có thể dễ dàng quay lại đó có thể là một ý kiến hay.

Nhấp vào kết quả tìm kiếm “các phím tắt trong Excel cho Windows”. Khi ở trên trang đó, hãy tìm danh sách các phiên bản Excel và nhấp vào Newer Versions. Bây giờ chúng tôi sẽ làm việc với phiên bản mới nhất và hay nhất.

Chúng tôi có thể quay lại trang kết quả tìm kiếm của mình và mở kết quả cho tất cả các ứng dụng Office khác trong tab riêng và đánh dấu chúng. Hầu hết mọi người sẽ dừng lại ở bước này, nhưng không phải chúng tôi. Chúng tôi sẽ đưa chúng vào Excel để chúng tôi có thể làm bất cứ điều gì hoặc bất cứ khi nào chúng tôi muốn với các dữ liệu này.

Mở Excel và trích dữ liệu

Mở Excel và bắt đầu một bảng tính mới. Lưu workbook dưới dạng Phím tắt Office. Nếu bạn có OneDrive, lưu nó ở đó để tính năng AutoSave làm điều này cho bạn.

Khi đã lưu workbook, bấm vào tab Data.

Trên thanh công cụ của tab Data, nhấp From Web.

Cửa sổ From Web sẽ mở ra. Đây là nơi chúng tôi đặt địa chỉ web hoặc URL của trang web mà chúng tôi muốn lấy dữ liệu vào. Chuyển sang trình duyệt web của bạn và sao chép URL.

Dán URL vào trường URL của cửa sổ From Web. Chúng tôi có thể chọn sử dụng chúng ở chế độ Cơ bản hoặc Nâng cao. Chế độ Nâng cao cung cấp cho chúng tôi nhiều tùy chọn hơn về cách để truy cập dữ liệu từ trang web. Đối với bài tập này, chúng ta chỉ cần chế độ Cơ bản. Nhấn OK.

Excel sẽ cố gắng kết nối với trang web. Điều này có thể mất vài giây. Chúng ta sẽ thấy một cửa sổ về tiến độ kết nối này, nếu có.

Cửa sổ Navigator sẽ mở ra và chúng ta sẽ thấy một danh sách các bảng từ trang web bên trái. Khi chúng ta chọn vào một trong số chúng, chúng ta sẽ thấy một bảng để xem trước ở bên phải. Hãy chọn bảng Frequently used shortcuts.

Chúng tôi có thể nhấp vào tab Web View để xem trang web thực tế, nếu chúng tôi cần xem xét xung quanh bảng mà chúng tôi muốn trích dữ liệu. Khi chúng tôi tìm thấy nó, chúng tôi có thể nhấp vào nó và nó sẽ được chọn để nhập.

Bây giờ, chúng ta bấm vào nút Load ở dưới cùng của cửa sổ này. Có những lựa chọn khác mà chúng ta có thể chọn, những tùy chọn này sẽ phức tạp hơn và vượt quá phạm vi trích xuất dữ liệu đầu tiên. Chúng ta chỉ cần biết là có những tùy chọn này. Khả năng trích xuất dữ liệu web của Excel rất mạnh mẽ.

Bảng trang web sẽ được tải trong Excel sau vài giây. Chúng ta sẽ thấy dữ liệu ở bên trái, trong đó số 1 nằm trong hình bên dưới. Số 2 làm nổi bật Queries được sử dụng để lấy dữ liệu từ trang web. Khi chúng ta có nhiều truy vấn (queries) trong một workbook, thì chúng ta sẽ chọn một trong những truy vấn mà chúng ta cần sử dụng.

Lưu ý rằng dữ liệu đi vào bảng tính dưới dạng bảng Excel. Nó đã được thiết lập để chúng ta có thể lọc hoặc sắp xếp dữ liệu.

Chúng ta có thể lặp lại quá trình này cho tất cả các trang web khác có các phím tắt Office mà chúng tôi muốn tổng hợp cho Outlook, Word, Access, PowerPoint, và bất kỳ ứng dụng Office nào khác.

Giữ lại dữ liệu mới được trích xuất trong Excel

Như một phần thưởng cho bạn, chúng ta sẽ bàn đến cách giữ lại dữ liệu mới được quét trong Excel. Đây là một cách tuyệt vời để minh họa rằng Excel là công cụ mạnh mẽ trong việc quét dữ liệu. Ngay cả với điều này, chúng ta chỉ thực hiện thao tác quét dữ liệu cơ bản nhất mà Excel có thể làm.

Trong ví dụ này, hãy sử dụng một trang web thông tin chứng khoán như https://www.cnbc.com/stocks/.

Thực hiện thao tác tương tự như lúc trước và sao chép và dán URL mới từ thanh địa chỉ.

Bạn sẽ thấy cửa sổ Navigator và có thể xem các bảng có sẵn trong đó. Hãy chọn mục Danh mục Chứng khoán Chính của Hoa Kỳ.

Sau khi dữ liệu được quét, chúng ta sẽ thấy một bảng tính như sau.

Ở bên phải, chúng ta sẽ thấy truy vấn cho Danh mục các chứng khoán chính của Hoa Kỳ.
Chọn nó để nó được tô sáng. Hãy chắc chắn rằng chúng ta thực hiện trên tab Table Tools và trong khu vực Design. Sau đó bấm vào nút mũi tên chỉ xuống ở dưới phần Refresh.
Sau đó bấm vào Connection Properties.

Chúng ta có thể kiểm soát cách làm mới thông tin này. Chúng ta có thể thiết lập thời gian cụ thể giai đoạn để làm mới hoặc để làm mới khi chúng tôi mở sổ làm việc vào lần tiếp theo hoặc để làm mới trong nền, hoặc bất kỳ sự kết hợp của những điều này.

Trong cửa sổ Query Properties, dưới tab Usage, chúng ta có thể kiểm soát cách làm mới thông tin này. Chúng ta có thể thiết lập thời gian làm mới cụ thể hoặc thực hiện làm mới mỗi khi chúng ta mở sổ làm việc vào lần tiếp theo hoặc làm mới trong nền, hoặc bất kỳ sự kết hợp cách làm mới nào ở trên. Một khi chúng ta đã chọn những gì chúng ta cần, nhấp vào OK để đóng cửa sổ và tiếp tục.

Chính là vậy Giờ đây, bạn có thể theo dõi giá cổ phiếu, tỷ số thể thao hoặc bất kỳ dữ liệu có tính thay đổi thường xuyên nào khác từ bảng tính Excel. Nếu bạn giỏi với các phương trình và hàm Excel, bạn có thể làm hầu hết mọi thứ bạn muốn với dữ liệu.

Có thể bạn sẽ dùng tính năng này để xác định xu hướng chứng khoán, điều hành một bể thể thao tưởng tượng tại nơi làm việc hoặc có thể chỉ cần theo dõi thời tiết. Ai biết? Trí tưởng tượng của bạn và dữ liệu có sẵn trên Internet, là những giới hạn duy nhất.

- Tags: