Nếu bạn muốn website của mình được hiển thị trong kết quả tìm kiếm Google, nó cần được index trong bộ sưu tập tìm kiếm của Google.
Bạn có thể tưởng tượng Google index như một thư viện khổng lồ của các trang web và trang riêng lẻ mà Google lưu trữ để tăng tốc quá trình tìm kiếm.
Bạn đang xem: Google Index: How to Check Total Indexed Pages & Get Instantly Indexed by Google Crawlers
Nếu mọi thứ diễn ra tốt, trang web của bạn sẽ được tự động được index. Nhưng nếu không, hoặc chỉ một số trang web của bạn được index hoặc trang web index của bạn bị vấn đề gì đó, bài viết này sẽ giúp bạn hiểu về Google index và cách đảm bảo rằng nội dung của bạn được index đúng cách để có hiệu quả tối ưu hóa công cụ tìm kiếm (SEO).
Contents
- 1 Những trang web đã được index là gì?
- 2 Tại sao các trang web lại được index?
- 3 Làm thế nào để được index bởi Google?
- 4 Làm thế nào để kiểm tra số trang của trang web của bạn đã được index bởi Google?
- 5 Cách sử dụng công cụ kiểm tra trang đã được index của Google
- 6 Lấy thông tin về trang đã được index của Google trong Google Search Console
- 7 Vì sao Google không index trang web của bạn?
- 8 1. Bạn không có cả tên miền www và tên miền không có www.
- 9 2. Google đang tìm kiếm trang web của bạn.
- 10 3. Bạn có tệp robots.txt lưu thông.
- 11 4. Google gặp sự cố khi crawling.
- 12 5. Nội dung trùng lặp gây trở ngại cho crawler.
- 13 6. Trang web của bạn gặp vấn đề về tải.
- 14 7. Bạn đang sử dụng ngôn ngữ mã không tối ưu hóa.
- 15 8. Bạn bị chặn bởi tệp .htaccess hoặc cài đặt riêng tư.
- 16 9. Bạn có chỉ định Noindex hoặc Nofollow ở một số thẻ meta.
- 17 10. Bạn bị trừng phạt một cách nghiêm trọng.
- 18 Làm thế nào để khắc phục vấn đề nếu các trang web của bạn không được liệt kê?
Những trang web đã được index là gì?
Google lưu trữ “index” được cập nhật thường xuyên của các trang web có liên quan trên web để tạo ra kết quả tìm kiếm trang web nhanh hơn. Một cách tốt nhất là nghĩ về Google index như một loại thư viện mà Google có thể dễ dàng sắp xếp lại khi cần thiết; nếu trang web của bạn không có trong index, nó sẽ không xuất hiện trong kết quả tìm kiếm.
Google sử dụng robot tự động (còn được gọi là spiders hoặc Googlebot) để liên tục tìm kiếm trên Internet các nội dung mới và các trang web mới để thêm vào index.
Bất kỳ trang web mới hoặc lượng thông tin đáng kể mới được thêm vào trang web sẽ được ghi chú bởi Google. Mỗi trang từ một trang web được index bởi robot web để đánh giá giá trị nội dung và cho các yêu cầu tìm kiếm tương lai của người tiêu dùng.
Khách hàng trên Internet sau này có thể tìm kiếm bằng cách sử dụng một số từ khóa và từ khóa có thể tìm thấy các trang web với nội dung hoặc hình ảnh liên quan.
Máy tìm kiếm Google và robot web biết về mọi thông tin mới được in hoặc đăng trên một trang web khi nó đang được đăng.
Tại sao các trang web lại được index?
Mỗi trang web mới trên Internet được index theo một số tiêu chí và công cụ đánh dấu khác.
Các trang web được index vì nội dung và trang web chính nó cần được liệt kê trong số nhiều trang web khác có thể tương tự.
Một trang web phải được index trước tiên.
Robot của Google tìm kiếm trên một trang web và tạo bản sao được lưu trữ của mỗi trang. Các chỉ mục đã hoàn thành được bổ sung và một cấu trúc mới của các trang web có giá trị cao có thể được tạo ra, ví dụ.
Cuối cùng, quá trình index của Google cho phép Google thực hiện tìm kiếm web một cách toàn diện, chính xác và nhanh chóng.
Làm thế nào để được index bởi Google?
Vậy làm thế nào để chắc chắn rằng Google index trang web của bạn?
Đây là tin vui. Google sẽ thực hiện phần lớn công việc cho bạn.
Nếu bạn không muốn trang web của mình được index ngay lập tức và không có gì bất thường về trang web của bạn, mọi thứ mà bạn cần là chờ đợi robot web của Google tìm thấy trang web của bạn và cập nhật index của Google tương ứng. Quá trình này có thể mất từ vài giờ đến vài tuần, tùy thuộc vào một số biến số. Khi trang web của bạn được index, có thể trải qua sự biến động về thứ hạng qua hiện tượng được gọi là “Google Dance”.
Nếu bạn muốn tăng tốc quá trình, hoặc muốn chắc chắn rằng Google có thông tin chính xác, bạn có thể nộp sitemap và yêu cầu index thông qua Google Search Console, một công cụ miễn phí cung cấp cho các chủ sở hữu trang web bởi Google. Nếu bạn chưa có tài khoản, bạn sẽ cần đăng ký và xác minh sở hữu miền web.
Sau khi làm xong, hãy truy cập “Công cụ kiểm tra URL” và dán URL bạn muốn Google index.
Nếu bạn muốn kiểm tra cả trang web của mình, chỉ cần dán tên miền cấp cao nhất và nhấp vào “Yêu cầu Google index”. Lưu ý rằng quá trình này có thể mất vài ngày hoặc lâu hơn.
Nếu bạn muốn tạo một tệp sitemap XML, bạn cũng có thể tải nó trực tiếp lên Google thông qua Google Search Console. Trong phần chỉ mục của Google, nhấp vào Sitemaps và bạn có thể tải tệp sitemap của mình trực tiếp lên.
Làm thế nào để kiểm tra số trang của trang web của bạn đã được index bởi Google?
Làm thế nào để biết chắc chắn rằng trang web của bạn và tất cả các trang đã được index?
Cách nhanh và đơn giản nhất là thực hiện tìm kiếm trang web đơn giản trong thanh tìm kiếm của Google bằng cách gõ “site:yourdomain.com”
Sau đây là kết quả tìm kiếm cho tìm kiếm trang web site của SEO.co:
Nếu trang web của bạn không xuất hiện, điều đó có nghĩa là nó có thể không được index và có vấn đề gì đó.
Cách sử dụng công cụ kiểm tra trang đã được index của Google
Bạn cũng có thể sử dụng công cụ kiểm tra trang đã được index của Google để xác định xem trang của bạn có được index không. Bạn có thể sử dụng công cụ kiểm tra trang đã được index của Google như sau:
- Nhập URL của bạn vào công cụ kiểm tra trang đã được index của Google.
- URL là trang web mà bạn muốn kiểm tra về xếp hạng hoặc giá trị nội dung trang web.
- Nhấp vào tiếp tục để nhận kết quả tìm kiếm của Google của quá trình quét của bạn.
Lấy thông tin về trang đã được index của Google trong Google Search Console
Làm thế nào để biết Google đã index bao nhiêu trang hiện tại của doanh nghiệp của bạn?
Xem thêm : SEO Audit: Anleitung mit gratis Checkliste
Nếu bạn muốn khám phá sâu hơn và biết chính xác những trang của bạn đã được index, cách tốt nhất là sử dụng Google Search Console.
Đăng nhập, truy cập phần chỉ mục của Google và sau đó nhấp vào tab “Phạm vi báo cáo”. Ở đó, bạn sẽ có thể tạo ra danh sách “Tất cả các trang đã biết”.
Dưới đây là một danh sách về số trang hiện tại của bạn đã được xác nhận, số lượng “Đúng và có cảnh báo” và số lượng “Lỗi” mà bạn có.
Nếu bạn thấy mọi thứ đều là số không, điều đó có nghĩa là có một vấn đề nghiêm trọng; Google không index trang web của bạn.
Nếu bạn thấy một số trang trong cột “Đúng” bằng số lượng trang trên trang web của bạn, bạn đã hoàn thành. Nếu bạn có bất kỳ trang nào trong mục “Đúng với cảnh báo” hoặc “Lỗi”, bạn có thể khám phá chúng; Google sẽ cho bạn biết cụ thể điều gì sai và cách khắc phục vấn đề.
Trong khi bạn làm việc với Google Search Console, bạn cũng có thể kiểm tra xem một trang cụ thể đã được index bằng cách sử dụng công cụ kiểm tra URL (đã thảo luận ở trên). Chỉ cần sao chép và dán URL hoặc công cụ kiểm tra URL vào công cụ và Google sẽ cho bạn biết liệu trang có xuất hiện trong index Google hay không.
Đây là cách bạn xác nhận những nỗ lực của mình là thành công nếu bạn cần khắc phục một trang không được index cụ thể. Đây cũng là cách bạn có thể được index ngay lập tức.
Vì sao Google không index trang web của bạn?
Mặc dù không thường xuyên, nhưng khi nó xảy ra, nó cảm giác đáng chán.
Nếu bạn muốn nhận lưu lượng truy cập tự nhiên từ tìm kiếm trực tuyến, bạn cần chắc chắn rằng trang web của bạn được hiển thị – nói cách khác, nếu bạn muốn xuất hiện trên trang kết quả tìm kiếm Google, Google phải biết rằng trang web của bạn tồn tại.
Và nếu trang web của bạn không được Google index, nó cũng như không tồn tại.
Nhưng có sự khác biệt lớn giữa việc được Google index và xếp hạng trên Google.
Nếu trang web của bạn không xuất hiện trong kết quả tìm kiếm hữu cơ, hãy kiềm chế việc hoảng loạn. Hầu hết trong những trường hợp này, đây chỉ là dấu hiệu của một số lỗi hoặc chướng ngại mà ngăn ngừa Google index trang web của bạn – và những vấn đề này dễ dàng được khắc phục.
Hãy xem 10 lý do tại sao Google có thể không index trang web của bạn – nếu bạn không tìm thấy trên Google, điều đó có nghĩa là một trong số đó là nguyên nhân. Nếu trang web của bạn không xếp hạng, đó là một câu chuyện khác hoàn toàn.
1. Bạn không có cả tên miền www và tên miền không có www.
Đối với khách truy cập trung bình, không có sự khác biệt đáng kể giữa một URL bắt đầu bằng https:// hoặc https://www. Cả hai đều dẫn bạn đến cùng một nơi, vì vậy phần lớn người dùng và công cụ Google webmaster không để ý đến nó. Nhưng phiên bản www thực ra là một subdomain của phiên bản không có www rộng hơn. Để có thể index trang web của bạn một cách đúng đắn, bạn cần xác minh sở hữu của mình trên cả hai phiên bản trong Google Webmaster Tools. Bạn cũng có thể đặt tên miền ưa thích của mình để thông báo cho Google biết phiên bản nào bạn muốn sử dụng chính.
2. Google đang tìm kiếm trang web của bạn.
Nếu bạn vừa mới ra mắt một trang web và bạn háo hức tìm kiếm trang web của bạn trong Google và không thấy trang web được liệt kê, hãy thư giãn. Thông thường, Google tốn ít nhất vài ngày để index trang web mới. Nếu đã qua một vài ngày mà bạn vẫn chưa thấy bất kỳ kết quả nào, nó có thể có nghĩa là Google gặp sự cố trong quá trình index trang web của bạn – và điều đó thường có nghĩa là bạn gặp vấn đề với sitemap. Nếu bạn chưa tạo hoặc tải lên một sitemap được định dạng đúng, đó có thể là vấn đề của bạn. Sau khi sửa chữa, bạn có thể “ép” Google crawl trang web của bạn thông qua Google Search Console.
Đây là nguyên nhân thông thường nhất, vì vậy nếu các trang của bạn không được index, đây có thể là nguyên nhân chính.
3. Bạn có tệp robots.txt lưu thông.
Tệp robots.txt là các tệp hướng dẫn có thể cho các web crawler biết cách hoạt động.
Đôi khi, các nhà phát triển hoặc người quản lý nội dung sẽ sử dụng tệp robots.txt để ngăn các công cụ tìm kiếm index một trang cụ thể một cách có chủ ý (ví dụ: nếu trang không sẵn sàng để công chúng xem).
Đơn giản, tệp giao tiếp với robot của Google và khiến chúng không index trang web hoặc một trang cụ thể trên trang web đó – vì vậy nếu bạn cập nhật hoặc xóa tệp, bạn sẽ không còn vấn đề về việc index trang web.
Một cuộc kiểm tra trang web đáng tin cậy sẽ tiến hành quét toàn diện mã nguồn trang web của bạn và cập nhật bất kỳ phiên bản nào của tệp robots.txt không đúng chỗ cho một lý do cụ thể.
Bạn vẫn cần một vài ngày để Google index trang web của bạn sau khi sửa lỗi tệp.
4. Google gặp sự cố khi crawling.
Không thường xuyên xảy ra, nhưng có khả năng Google gặp sự cố khi crawling một số trang web hoặc trang index của bạn.
Nếu trang chủ của bạn đã index, nhưng không phải tất cả các trang nội bộ của bạn, có thể đây là triệu chứng của một lỗi crawling đơn giản. Đăng nhập vào Google Search Console và nhấp vào “Crawl”, sau đó nhấp vào “Crawl Errors”.
Điều này sẽ đưa bạn đến danh sách bất kỳ trang nào trên trang web của bạn đang gặp lỗi crawling hiện tại. Những lỗi này đôi khi gây ra bởi tệp robots.txt, như ở trên, nhưng cũng có thể do lỗi DNS hoặc lỗi máy chủ, cả hai đều có thể dễ dàng khắc phục trong hầu hết các trường hợp.
5. Nội dung trùng lặp gây trở ngại cho crawler.
Nếu bạn tuân thủ các quy tắc tối ưu hóa nội dung, điều này không phải là vấn đề, nhưng có những trường hợp nội dung trùng lặp có thể tồn tại trên trang web của bạn – chẳng hạn như những biến thể từ “trang chủ” được thiết kế cho nhóm người tiêu dùng khác nhau.
Nếu Google phát hiện nhiều phiên bản nội dung trùng lặp, web crawler có thể bị nhầm lẫn và không index trang web của bạn.
Cách dễ nhất để khắc phục là loại bỏ nội dung trùng lặp hoàn toàn. Nếu không thể xóa hoàn toàn nội dung trùng lặp, bạn có thể sử dụng chuyển hướng 301 hoặc tệp robots.txt có chọn lọc để đảm bảo Google chỉ crawl một phiên bản của mỗi trang.
6. Trang web của bạn gặp vấn đề về tải.
Xem thêm : Top 5 Cách tăng đề xuất youtube tăng view NHANH CHÓNG
Nếu Google muốn index trang web của bạn, trang web của bạn cần phải hoạt động.
Điều này có nghĩa là nếu bạn gặp vấn đề về tải khi Google đang cố gắng index trang web của bạn, bạn có thể bỏ lỡ cơ hội được index.
Thời gian tải trang quá dài đôi khi là vấn đề; trong trường hợp này, bạn có thể giảm thời gian tải bằng cách thiết lập một hệ thống caching tốt, giảm kích thước hình ảnh và cài đặt một số ứng dụng để tăng tốc trang web. Cũng có khả năng rằng dịch vụ lưu trữ của bạn không đáng tin cậy, dẫn đến thời gian chờ ngắt quãng khi Google cố gắng index trang web của bạn.
7. Bạn đang sử dụng ngôn ngữ mã không tối ưu hóa.
Google có một số sở thích mạnh mẽ về loại mã trang web của bạn. HTML là một trong những ngôn ngữ dễ dàng index nhất có sẵn, nhưng không phải loại mã nào cũng như thế.
JavaScript và AJAX, ví dụ, được Google hỗ trợ, nhưng chúng không dễ dàng được index như HTML.
Nếu trang web của bạn được xây dựng bằng AJAX hoặc JavaScript và cấu trúc của bạn không hoàn toàn chính xác, Google có thể gặp khó khăn khi index các trang của bạn.
8. Bạn bị chặn bởi tệp .htaccess hoặc cài đặt riêng tư.
Nếu bạn khai thác một trang web WordPress, có thể bạn đã vô tình bật một cài đặt riêng tư – bạn có thể tắt nó bằng cách kiểm tra “Quyền riêng tư” trong tab “Cài đặt”.
Cũng có khả năng là bạn đang sử dụng một tệp .htaccess cho trang web của bạn trên máy chủ.
Mặc dù tệp .htaccess hữu ích trong hầu hết các trường hợp, nó đôi khi gây cản trở với việc index trang web.
Hãy nhớ rằng, các tệp .htaccess không phù hợp trong hầu hết các trường hợp, nhưng đôi khi chúng có thể gây cản trở với việc index trang.
9. Bạn có chỉ định Noindex hoặc Nofollow ở một số thẻ meta.
Giống như tệp robots.txt, đây là một phần bổ sung có thể che giấu các trang của trang web của bạn khỏi các công cụ tìm kiếm.
Kiểm tra mã nguồn trang web của bạn và tìm các thẻ meta tên “noindex”. Nếu bạn tìm thấy thẻ này ở đâu đó, bạn đã xác định vấn đề việc Google không index trang web. Đơn giản loại bỏ thẻ và thay thế nó nếu cần, bạn sẽ quay trở lại công việc index trang web của công cụ tìm kiếm.
10. Bạn bị trừng phạt một cách nghiêm trọng.
Khi Google trừng phạt trang web, thường là bằng cách giảm xếp hạng và do đó, hiển thị và lưu lượng truy cập. Tuy nhiên, có những trường hợp hiếm và cực kỳ nghiêm trọng khi Google trừng phạt trang web bằng cách lược bỏ nó hoàn toàn khỏi các index. Đây là một loại trừng phạt thủ công dành riêng cho các vi phạm lớn, vì vậy bạn không cần lo lắng về việc bạn không được index như một hình phạt.
Khi trang web của bạn bị loại bỏ, bạn có thể đã được thông báo từ một công cụ tìm kiếm, vì vậy trừ khi bạn đã nhận thông báo này, bạn không cần lo lắng về việc bạn không được index như một hình phạt.
Sau khi trang web của bạn đã có thể index, hãy đợi Google vài ngày để tìm hiểu. Bạn nên bắt đầu nhìn thấy trang web của mình trong các kết quả tìm kiếm của công cụ tìm kiếm sớm.
Nếu bạn vẫn gặp vấn đề, có khả năng vấn đề về index của bạn có thể phức tạp hơn thông thường.
Nếu trang web của bạn xuất hiện, nhưng xếp hạng rất thấp, có thể đó là dấu hiệu rằng trang web của bạn vẫn còn mới và không có nhiều quyền lực hoặc nó có thể là dấu hiệu của một trừng phạt.
Dù thế nào, việc cam kết tuân thủ các quy tắc tốt nhất trong một khoảng thời gian dài là cách tốt nhất để tăng khả năng hiển thị của bạn.
Làm thế nào để khắc phục vấn đề nếu các trang web của bạn không được liệt kê?
Nếu trang web của bạn chưa được index đầy đủ trong Google, bạn có thể bỏ lỡ lưu lượng truy cập (và doanh thu) quan trọng. Nếu các trang không xuất hiện trong SERP Google, chúng không được khám phá đặc biệt.
Nếu bạn phát hiện rằng một số (hoặc tất cả) các trang không được index, hãy thực hiện các bước sau:
Sử dụng Google Search Console để xác minh xem các trang không được index. Trang web của bạn không được index hoàn toàn, hoặc chỉ một số trang? Như bạn có thể nghi ngờ, số trang thiếu càng nhiều, vấn đề càng nghiêm trọng hơn.
Xác định nguyên nhân gốc rễ của vấn đề. Mặc dù bạn không phải là một chuyên gia kỹ thuật, bạn nên có khả năng tìm ra nguyên nhân gốc rễ của vấn đề của bạn. Xem lại phần trước để biết các lý do có thể khiến Google không index trang web của bạn. Nếu trang web của bạn mới và không có trang nào được index, có thể là một sự chậm trễ tự nhiên. Nếu không phải là trường hợp đó, bạn có thể gặp vấn đề với tệp robots.txt, chúng tôi đã thảo luận ở trên hoặc có thể do lỗi của bạn về nhiều hệ thống khác nhau.
Sửa vấn đề và gửi sitemap cập nhật. Bất kể vấn đề là gì, hãy làm việc để khắc phục nó. Khi hoàn thành, bạn có thể gửi sitemap đã cập nhật cho Google. Trong Google Search Console, chọn “Thêm tài sản” và tải lên sitemap đã cập nhật của bạn. Khi bạn làm xong, bạn có thể sử dụng Công cụ Fetch as Google để yêu cầu một con bot cụ thể để quét trang được chỉ định của bạn. Chỉ cần nhập URL, chọn máy tính để bàn hoặc di động và nhấp Fetch. Quá trình này sẽ mất một thời gian nhưng sau khi hoàn thành, Google sẽ đánh giá trang của bạn để index.
Nếu bạn bị mắc kẹt với những trang không được index và bạn không chắc chắn điều gì không đúng, hãy tuân thủ những bước gỡ rối cơ bản sau đây:
- Loại bỏ bất kỳ rào cản quét nào trong tệp robots.txt của bạn. Kiểm tra tệp robots.txt của bạn bằng cách truy cập yourdomainhere.com/robots.txt. Ở đó, bạn có thể sử dụng CTRL + F để tìm kiếm “Googlebot” và ““. Nếu bạn có bất kỳ dòng nào chỉ định User-agent: Googlebot hoặc User-agent: (địa chỉ tất cả các bot), các trang mà chúng loại bỏ sẽ không được index trong Google. Trong một số trường hợp, điều này có thể có lợi, nhưng hầu hết các lần, đây chỉ là một rào cản đơn giản đối với việc index trang. Cập nhật tệp robots.txt của bạn từ phía sau để sửa lỗi.
- Loại bỏ các thẻ meta noindex bị lạc lối. Tương tự, nếu bạn có bất kỳ thẻ content=”noindex” nào trong các thẻ meta của bạn, robot tìm kiếm của Google sẽ không index nội dung của bạn. Đây là một vấn đề đơn giản để tìm thấy và sửa chữa, ngay cả khi bạn không có kỹ năng lập trình nào.
- Loại bỏ các thẻ kiểu liên kết bị sai. Các thẻ kiểu liên kết là các thẻ trang web tùy chọn giúp Google xác định phiên bản ưu tiên, “gốc” của trang của bạn. Một số trang có một thẻ kiểu liên kết tự tham chiếu giúp Google biết đây là phiên bản duy nhất duy nhất. Tuy nhiên, nếu thực hiện không chính xác, một thẻ kiểu liên kết có thể cho Google biết tìm kiếm phiên bản gốc khác – phiên bản không tồn tại. Nếu điều này xảy ra, nó có thể gây trở ngại cho quá trình index của Google. Nếu đây là vấn đề của bạn, nó sẽ xuất hiện là một Lỗi Crawl trong Google Search Console.
- Cập nhật sitemap của bạn. Googlebot nên có thể khám phá hết tất cả nội dung của bạn một cách tự nhiên, nhưng bạn cũng có thể tạo và cập nhật sitemap XML của mình để đảm bảo Google “nhìn thấy” toàn bộ phạm vi trang web của bạn. Tải lên thông qua Google Search Console để giúp Google “thấy” toàn bộ trang web của bạn.
Hãy nhớ rằng, hầu hết mọi người quan tâm đến việc trang web của họ không được index chỉ đơn giản là không chờ đủ lâu.
Nếu chỉ là vài giờ hoặc một vài ngày kể từ khi trang web của bạn được ra mắt, hãy kiên nhẫn.
Spider của Google làm tốt công việc của nó, nhưng nó mất một thời gian để hoạt động.
Nguồn: https://diendanseotop.edu.vn
Danh mục: SEO