[সিরিয়াল টিউটোরিয়াল] - ৬ - সহজে শিখি এস ই ও । (রোবট টেক্সট)

আমাদের এস ই ও নিয়ে সিরিয়াল টিউটোরিয়াল নিয়ে যে পরিমান রেসপন্স পাচ্ছি তা বলে শেষ করা যাবে না । মাঝে কিছুদিন সময় নিয়েছিলাম পড়ার জন্য । মানে আপনাদের জন্য লেখার আগে আমাকেও পড়তে হয় । জানতে হয় । বেসিক লেভেল সহজে লিখলেও এডভান্স লেভেল নিয়ে পড়াশুনা করে তারপর লিখতে হয় । কারন , সার্চ ইঞ্জিন গুলো প্রতি বছরই কিছু না কিছু নতুন নিয়ম চালু করে । তার সাথে মিলিয়ে আমাদের কে ও এগিয়ে যেতে হবে ।

তো আজকে থাকছে রোবোট টেক্সট এর এস ই ও নিয়ে পোষ্ট । চলুন শুরু করি ।

robots.txt

Tags: robot txt,robot txt generator,robot txt file

সার্চ ইঞ্জিন মুলত বেশ কিছু প্রোগ্রাম ও এলগরিদমের মাধ্যমে গঠিত । সার্চ ইঞ্জিনের কাজই হল আপনার সাইটের সকল পোষ্ট ক্রল করা বা ঘুরা । সোজা কথায় সাইটের যত পেজ আছে সব পেজেই উনি ঢুঁ মারার ক্ষমতা রাখেন । কারন তিনি প্রোগ্রাম বা রোবট । তাকে বকা দেয়ার কেউ নেই ।
এখন ধরুন আপনার সাইটে তো অনেক পেজই আছে যা আপনার ব্যাক্তিগত বা জনসাধারনের জন্য উন্মুক্ত নয় । কিন্তু সার্চ ইঞ্জিন যদি তা ক্রল করে ফেলে তাহলেতো আপনার ব্যাক্তিগত তথ্য হ্যাকারদের হাতে চলে যাবে ।

You Must Read:

[সিরিয়াল টিউটোরিয়াল] পার্ট - ৫ - সহজে শিখি এস ই ও । (বেসিক শেষ পর্ব)

[সিরিয়াল টিউটোরিয়াল] - পার্ট- ৪- সহজে শিখি এস ই ও । (নেভিগেশান ও ইউনিক কন্টেন্ট)

[সিরিয়াল টিউটোরিয়াল] - পার্ট-৩ - সহজে শিখি এস ই ও । ( লিংক স্ট্রাকচার )

তাহলে???
ভিজিটর আনতে গিয়ে উলটো নিজের মেরুদন্ড হারাতে বসা । তাইনা ?
আর এই জন্য সার্চ ইঞ্জিন যেহেতু একটা প্রোগ্রাম তাই তাকেও দিকনির্দেশনা দিতে বা মোকাবেলা করতে হবে প্রোগ্রামের মাধমে । একেই বলে robots.txt

“robots.txt” ফাইল এমন একটি ফাইল যেটা সার্চ ইন্জিনকে বলে যে,সার্চ ইন্জিন একটা সাইটের কোন কোন্ পেজ crawl করবে আর কোন কোন পেজ crawl করবেনা।

Try: robot txt seo,robot txt 404,robot txt google

http://www.seotechexperts.com/blogs/wp-content/uploads/2016/04/robotx-txt-file.jpg

আপনার সাইটের কিছু পেজ সার্চ রেজাল্টে না দেখানো হোক আপনি হয়ত এটা চাইতে পারেন।কারন হতে পারে সেই পেজগুলির কাজ এখনও শেষ হয়নি বা অন্য যেকোন কারন।এজন্য আপনি একটি robots.txt ফাইল তৈরী করে সেখানে ঠিক করে দিতে পারেবন যে কোন্ কোন্ পেজ সার্চ ইন্জিন crawl করবেনা।আপনার যদি সাবডোমেইন থাকে এবং এর কিছু পেজ যদি সার্চ রেজাল্টে না দেখানো হোক এটা চান তাহলে এটার জন্য আলাদা একটা robots.txt ফাইল তৈরী করতে হবে।robots.txt ফাইলটি তৈরীর পর রুট ফোল্ডারে আপলোড করতে হবে।

http://cdn.poweredbysearch.com/wp-content/uploads/2014/06/robots05.jpg

robots.txt ফাইল দিয়ে সার্চ ইন্জিনের বট,ক্রাউলার এবং স্পাইডার সাইটের কোন্ কোন্ পেজ দেখবে এবং কোন্ কোন্ পেজ দেখবেনা এসব নিয়ন্ত্রন করা যায়।এই নিয়ন্ত্রনের পদ্ধতিকে বলা হয় রোবটস এক্সক্লুসন প্রটোকল (Robots Exclusion Protocol) বা রোবটস এক্সক্লুসন স্টান্ডার্ড (Robots Exclusion Standard) .এই ফাইল তৈরীর আগে এখানে ব্যবহৃত কিছু চিহ্ন চিনে নেয়া যাক:

http://prhubdigital.com/blog/wp-content/uploads/2015/01/robots2.gif

রোবট টেক্সট সিনট্যাক্স

Tags: robot txt wordpress,robot txt disallow all,robot txt test

প্রতিটি লাইন disallow: দিয়ে শুরু হয়।এরপরে আপনি / দিয়ে URL path ঠিক করে দিতে পারেন।এতে করে ওই path বা ফাইল বা ওই পেজ আর রোবট ক্রাউল করবেনা।যদি কোন path না দেন অথ্যাৎ ফাকা থাকে তাহলে disallow কাজ করবে allow এর।

Disallow ফিল্ড আংশিক বা পূর্নাঙ্গ URL উপস্থাপন করতে পারে।/ চিহ্নের পর যে path উল্লেখ থাকবে সেই path রোবট ভিজিট করবেনা।

যেমনঃ

Disallow: /help
#disallows both /help.html and /help/index.html, whereas
Disallow: /help/
# would disallow /help/index.html but allow /help.html

Tags: robot txt no index,robot txt blogger,robot txt sitemap,robot.txt কি

কিছু উদাহরনঃ
সব রোবট অনুমোদন করবে করবে সব ফাইল ভিজিটের জন্য (wildcard “*” নির্দেশ করে সব রোবট)

User-agent: *
Disallow:

সব রোবট কোন ফাইল ভিজিট করবেনা

User-agent: *
Disallow: /

গুগলবট এর শুধু ভিজিটের অনুমোদন থাকবে বাকি কেউ ভিজিট করতে পারবেনা

User-agent: GoogleBot
Disallow:

User-agent: *
Disallow: /

গুগলবট এবং ইয়াহুস্লার্প এর শুধু ভিজিটের অনুমোদন থাকবে বাকি কারো থাকবেনা

User-agent: GoogleBot
User-agent: Slurp
Disallow:

User-agent: *
Disallow: /

কোন একটা নির্দিষ্ট বটের ভিজিট যদি বন্ধ করতে চান তাহলে

User-agent: *
Disallow:

User-agent: Teoma
Disallow: /

এই ফাইলটি দ্বারা যদি আপনার সাইটের কোন URL বা পেজ crawl করা বন্ধ করে দেন তারপরেও কিছু সমস্যার কারনে এই পেজগুলি কোথাও কোথাও দেখাতে পারে।যেমন রেফারেল লগ এ URL গুলি দেখাতে পারে।তাছাড়া কিছু কিছু সার্চ ইন্জিন আছে যাদের এলগরিদম খুব উন্নত নয় ফলে এসব ইন্জিন থেকে যখন স্পাইডার/বোট crawl করার জন্য পাঠায় তখন এরা robots.txt ফাইলের নির্দেশনাকে উপেক্ষা করে আপনার সব URL crawl করে যাবে।

এসব সমস্যা এড়াতে আরেকটা ভাল পদ্ধতি হল এই সমস্ত কনটেন্টকে htaccess ফাইল দিয়ে পাসওয়ার্ড বা বন্ধ করে রাখা।

➹ rel=”nofollow” এর ব্যাপারে সতর্ক থাকুনঃ

কোন লিংকে rel এট্রিবিউট এ “nofollow” সেট করে দিয়ে গুগল বা সার্চ ইন্জিনকে বলে দিতে পারেন যে এই সমস্ত লিংক যেন সে crawl না করে।যদি আপনার সাইট কোন ব্লগ বা ফোরাম হয় যেখানে মন্তব্য করা যায় তাহলে কমেন্ট অংশকে এভাবে nofollow করে দিয়ে রাখতে পারেন।এতে করে আপনার ব্লগ বা ফোরামের খ্যাতি ব্যবহার করে নিজের সাইটের rank বাড়াতে পারবেনা।আবার অনেক সময় অনেকে আপত্তিকর সাইটের ঠিকানা আপনার সাইটে দিতে পারে ফলে যা আপনি চান না। এছাড়াও এমন সাইটের লিংক দিতে পারে যেটা গুগলের কাছে spammer, এতে করে আপনার সাইটের খ্যাতি নষ্ট হবে।

<a href="site url" rel="nofollow">Comment spammer</a>

প্রতিটি লিংকে nofollow না দিয়ে robot মেটা ট্যাগেও nofollow দিলে একই কাজ করবে।
একটি উধাহরনঃ

[সিরিয়াল টিউটোরিয়াল] - ৬ - সহজে শিখি এস ই ও । (রোবট টেক্সট)

[সিরিয়াল টিউটোরিয়াল] পার্ট - ৫ - সহজে শিখি এস ই ও । (বেসিক শেষ পর্ব)

[সিরিয়াল টিউটোরিয়াল] - পার্ট- ৪- সহজে শিখি এস ই ও । (নেভিগেশান ও ইউনিক কন্টেন্ট)

[সিরিয়াল টিউটোরিয়াল] - পার্ট-৩ - সহজে শিখি এস ই ও । ( লিংক স্ট্রাকচার )

Most Related