SEO, Tin tức, cập nhật hướng dẫn về Tiếp thị trực tuyến
  • SEO
  • Digital Marketing
  • Social Media
  • Nội dung tiếp thị
  • Kiến thức Hosting
  • Quảng cáo trả tiền
  • Kiếm tiền Online
Reading: Tại sao Google lập chỉ mục các trang web bị chặn
Share
SEO, Tin tức, cập nhật hướng dẫn về Tiếp thị trực tuyếnSEO, Tin tức, cập nhật hướng dẫn về Tiếp thị trực tuyến
Font ResizerAa
Search
  • SEO
  • Digital Marketing
  • Social Media
  • Nội dung tiếp thị
  • Kiến thức Hosting
  • Quảng cáo trả tiền
  • Kiếm tiền Online
Follow US
Copyright © 2014-2023 Ruby Theme Ltd. All Rights Reserved.
SEO, Tin tức, cập nhật hướng dẫn về Tiếp thị trực tuyến > Blog > Cẩm nang SEO > Tại sao Google lập chỉ mục các trang web bị chặn
Cẩm nang SEO

Tại sao Google lập chỉ mục các trang web bị chặn

vietecom By vietecom Last updated: 18/09/2024 10 Min Read
SHARE


Contents
Lưu lượng truy cập của Bot đến URL tham số truy vấnBài học rút ra:

John Mueller của Google đã trả lời câu hỏi về lý do tại sao Google lập chỉ mục các trang không được robots.txt cho phép thu thập dữ liệu và tại sao có thể bỏ qua các báo cáo liên quan của Search Console về các hoạt động thu thập dữ liệu đó.

Lưu lượng truy cập của Bot đến URL tham số truy vấn

Người đặt câu hỏi, Rick Horst (hồ sơ LinkedIn) đã ghi lại rằng các bot đang tạo liên kết đến các URL tham số truy vấn không tồn tại (?q=xyz) đến các trang có thẻ meta noindex cũng bị chặn trong robots.txt. Điều khiến người ta đặt câu hỏi là Google đang thu thập các liên kết đến các trang đó, bị chặn bởi robots.txt (mà không thấy thẻ meta robots noindex) sau đó được báo cáo trong Google Search Console là “Đã lập chỉ mục, mặc dù bị chặn bởi robots.txt”.

Người đó đã hỏi câu hỏi sau:

“Nhưng đây là câu hỏi lớn: tại sao Google lại lập chỉ mục các trang khi họ thậm chí không thể nhìn thấy nội dung? Lợi ích của việc đó là gì?”

John Mueller của Google đã xác nhận rằng nếu họ không thể thu thập dữ liệu trang, họ sẽ không thể thấy thẻ meta noindex. Ông cũng đề cập một cách thú vị đến toán tử site:search, khuyên bạn nên bỏ qua các kết quả vì người dùng “trung bình” sẽ không thấy những kết quả đó.

Ông viết:

“Đúng vậy, bạn nói đúng: nếu chúng ta không thể thu thập dữ liệu trang, chúng ta không thể thấy noindex. Điều đó có nghĩa là nếu chúng ta không thể thu thập dữ liệu các trang, thì chúng ta không có nhiều thứ để lập chỉ mục. Vì vậy, mặc dù bạn có thể thấy một số trang đó có site:-query được nhắm mục tiêu, nhưng người dùng trung bình sẽ không thấy chúng, vì vậy tôi sẽ không bận tâm đến điều đó. Noindex cũng ổn (nếu không có robots.txt disallow), điều đó chỉ có nghĩa là các URL cuối cùng sẽ được thu thập dữ liệu (và cuối cùng sẽ xuất hiện trong báo cáo của Search Console cho mục đã thu thập dữ liệu/chưa lập chỉ mục — không có trạng thái nào trong số này gây ra sự cố cho phần còn lại của trang web). Phần quan trọng là bạn không làm cho chúng có thể thu thập dữ liệu + có thể lập chỉ mục.”

Có liên quan: Google nhắc nhở các trang web sử dụng Robots.txt để chặn URL hành động

Bài học rút ra:

1. Xác nhận giới hạn của Site: Tìm kiếm

Câu trả lời của Mueller xác nhận những hạn chế khi sử dụng toán tử tìm kiếm nâng cao Site:search vì lý do chẩn đoán. Một trong những lý do đó là vì nó không được kết nối với chỉ mục tìm kiếm thông thường, mà là một thứ hoàn toàn riêng biệt.

John Mueller của Google đã bình luận về toán tử tìm kiếm trang web vào năm 2021:

“Câu trả lời ngắn gọn là truy vấn site: không có nghĩa là đầy đủ hoặc không được sử dụng cho mục đích chẩn đoán.

Truy vấn trang web là một loại tìm kiếm cụ thể giới hạn kết quả vào một trang web nhất định. Về cơ bản, đó chỉ là từ site, dấu hai chấm và sau đó là tên miền của trang web.

Truy vấn này giới hạn kết quả cho một trang web cụ thể. Nó không có nghĩa là một bộ sưu tập toàn diện tất cả các trang từ trang web đó.”

Toán tử trang web không phản ánh chỉ mục tìm kiếm của Google, khiến nó không đáng tin cậy để hiểu những trang nào Google đã lập chỉ mục hoặc không lập chỉ mục. Giống như các toán tử tìm kiếm nâng cao khác của Google, chúng không đáng tin cậy như các công cụ để hiểu bất kỳ điều gì liên quan đến cách Google xếp hạng hoặc lập chỉ mục nội dung.

2. Thẻ Noindex mà không sử dụng robots.txt sẽ phù hợp trong những trường hợp như thế này khi bot liên kết đến các trang không tồn tại đang được Googlebot phát hiện. Thẻ noindex trên các trang không bị chặn bởi lệnh disallow trong robots.txt cho phép Google thu thập dữ liệu trang và đọc lệnh noindex, đảm bảo trang sẽ không xuất hiện trong chỉ mục tìm kiếm, điều này được ưu tiên nếu mục tiêu là giữ một trang không nằm trong chỉ mục tìm kiếm của Google.

3. Các URL có thẻ noindex sẽ tạo mục “đã thu thập/chưa lập chỉ mục” trong Search Console và sẽ không ảnh hưởng tiêu cực đến phần còn lại của trang web.
Các mục nhập Search Console này, trong bối cảnh các trang bị chặn có chủ đích, chỉ cho biết rằng Google đã thu thập dữ liệu trang nhưng không lập chỉ mục, về cơ bản có nghĩa là điều này đã xảy ra chứ không phải (trong bối cảnh cụ thể này) có nghĩa là có điều gì đó không ổn cần khắc phục.

Mục nhập này hữu ích để cảnh báo các nhà xuất bản về các trang vô tình bị chặn bởi thẻ noindex hoặc do một số nguyên nhân khác ngăn không cho trang được lập chỉ mục. Sau đó, đó là điều cần điều tra

4. Cách Googlebot xử lý các URL có thẻ noindex bị chặn không cho thu thập thông tin bằng lệnh disallow trong robots.txt nhưng vẫn có thể phát hiện được thông qua các liên kết.
Nếu Googlebot không thể thu thập dữ liệu một trang thì nó không thể đọc và áp dụng thẻ noindex, do đó trang đó vẫn có thể được lập chỉ mục dựa trên việc phát hiện URL từ liên kết nội bộ hoặc liên kết ngoài.

Tài liệu về thẻ meta noindex của Google có cảnh báo về việc sử dụng robots.txt để không cho phép các trang có thẻ noindex trong siêu dữ liệu:

“Để quy tắc noindex có hiệu lực, trang hoặc tài nguyên không được chặn bởi tệp robots.txt và phải có thể truy cập được bằng cách khác đối với trình thu thập thông tin. Nếu trang bị chặn bởi tệp robots.txt hoặc trình thu thập thông tin không thể truy cập trang, trình thu thập thông tin sẽ không bao giờ thấy quy tắc noindex và trang vẫn có thể xuất hiện trong kết quả tìm kiếm, ví dụ như nếu các trang khác liên kết đến trang đó.”

5. Sự khác biệt giữa tìm kiếm site: so với tìm kiếm thông thường trong quá trình lập chỉ mục của Google
Trang web: tìm kiếm bị giới hạn trong một tên miền cụ thể và không liên quan đến chỉ mục tìm kiếm chính, khiến chúng không phản ánh chỉ mục tìm kiếm thực tế của Google và ít hữu ích hơn trong việc chẩn đoán sự cố lập chỉ mục.

Đọc câu hỏi và câu trả lời trên LinkedIn:

Tại sao Google lại lập chỉ mục các trang khi họ thậm chí không thể nhìn thấy nội dung?

Hình ảnh nổi bật của Shutterstock/Krakenimages.com


Nguồn: Searchenginejournal

TAGGED:bịCácchặnChỉGoogleLậpmụcsaoTạitrangweb

Sign Up For Daily Newsletter

Be keep up! Get the latest breaking news delivered straight to your inbox.
By signing up, you agree to our Terms of Use and acknowledge the data practices in our Privacy Policy. You may unsubscribe at any time.
Share This Article
Facebook Twitter Copy Link Print
Previous Article How To Balance Performance And Brand Marketing
Next Article 16 Free Title Generator Tools For Writing Better Headlines
FacebookLike
TwitterFollow
PinterestPin
InstagramFollow

Subscribe Now

Subscribe to our newsletter to get our newest articles instantly!

Most Popular
12 Best Inbound Marketing Agencies in 2025 (Comparison List)
09/06/2025
Choose the Best Strategy for Your B2B Growth
09/06/2025
Top 10 SEO Content Writing Services To Get Qualified Leads
09/06/2025
SEO for Financial Services & Products
09/06/2025
8 Actionable B2B Inbound Marketing Strategies for 2025
09/06/2025

You Might Also Like

Digital Marketing

Customer Persona là gì? Cách vẽ chân dung khách hàng (2025)

28 Min Read
Digital Marketing

Khách hàng mục tiêu là gì? Chiến lược xác định Target Customer

27 Min Read
Digital Marketing

Khách hàng mục tiêu là gì? Chiến lược xác định Target Customer

27 Min Read
Cẩm nang SEO

Product-Led Growth 2.0: Value-First AI SaaS Funnels (ChatGPT, Bolt, Eleven Labs…)

28 Min Read

Always Stay Up to Date

Subscribe to our newsletter to get our newest articles instantly!

SEO, Tin tức, cập nhật hướng dẫn về Tiếp thị trực tuyến

Trong một thế giới tìm kiếm và sự thay đổi thuật toán, Vietecom.com mang đến thông tin kịp thời, phù hợp cho các chuyên gia SEO, nhà tiếp thị và doanh nhân để tối ưu hóa và phát triển doanh nghiệp cũng như sự nghiệp của họ.

Danh mục

  • Cẩm nang SEO
  • Digital Marketing
  • Kiếm tiền Online
  • Kiến thức Hosting
  • Nội dung tiếp thị
  • Quảng cáo trả tiền
  • Social Media

Dịch vụ

  • Thiết kế website
  • Dịch vụ SEO
  • Thiết kế thương hiệuHot
  • Sản xuất Phim Quảng cáo
  • Quảng cáo Google Ads
  • Quảng cáo Facebook
  • Quảng Cáo Tiktok Ads

Liên kết

  • Dịch vụ xe du lịch
  • Cho thuê xe 7 chỗ
  • Cho thuê xe 4 chỗ
  • Ngôn ngữ Miền Tây
  • Món ngon Miền Tây
  • Làng nghề Miền Tây
  • Xem vận mệnh
Welcome Back!

Sign in to your account

Lost your password?