আমাদের এস ই ও নিয়ে সিরিয়াল টিউটোরিয়াল নিয়ে যে পরিমান রেসপন্স পাচ্ছি তা বলে শেষ করা যাবে না । মাঝে কিছুদিন সময় নিয়েছিলাম পড়ার জন্য । মানে আপনাদের জন্য লেখার আগে আমাকেও পড়তে হয় । জানতে হয় । বেসিক লেভেল সহজে লিখলেও এডভান্স লেভেল নিয়ে পড়াশুনা করে তারপর লিখতে হয় । কারন , সার্চ ইঞ্জিন গুলো প্রতি বছরই কিছু না কিছু নতুন নিয়ম চালু করে । তার সাথে মিলিয়ে আমাদের কে ও এগিয়ে যেতে হবে ।
তো আজকে থাকছে রোবোট টেক্সট এর এস ই ও নিয়ে পোষ্ট । চলুন শুরু করি ।
Tags: robot txt,robot txt generator,robot txt file
সার্চ ইঞ্জিন মুলত বেশ কিছু প্রোগ্রাম ও এলগরিদমের মাধ্যমে গঠিত । সার্চ ইঞ্জিনের কাজই হল আপনার সাইটের সকল পোষ্ট ক্রল করা বা ঘুরা । সোজা কথায় সাইটের যত পেজ আছে সব পেজেই উনি ঢুঁ মারার ক্ষমতা রাখেন । কারন তিনি প্রোগ্রাম বা রোবট । তাকে বকা দেয়ার কেউ নেই ।
এখন ধরুন আপনার সাইটে তো অনেক পেজই আছে যা আপনার ব্যাক্তিগত বা জনসাধারনের জন্য উন্মুক্ত নয় । কিন্তু সার্চ ইঞ্জিন যদি তা ক্রল করে ফেলে তাহলেতো আপনার ব্যাক্তিগত তথ্য হ্যাকারদের হাতে চলে যাবে ।
ভিজিটর আনতে গিয়ে উলটো নিজের মেরুদন্ড হারাতে বসা । তাইনা ?
আর এই জন্য সার্চ ইঞ্জিন যেহেতু একটা প্রোগ্রাম তাই তাকেও দিকনির্দেশনা দিতে বা মোকাবেলা করতে হবে প্রোগ্রামের মাধমে । একেই বলে robots.txt
“robots.txt” ফাইল এমন একটি ফাইল যেটা সার্চ ইন্জিনকে বলে যে,সার্চ ইন্জিন একটা সাইটের কোন কোন্ পেজ crawl করবে আর কোন কোন পেজ crawl করবেনা।
Try: robot txt seo,robot txt 404,robot txt google
আপনার সাইটের কিছু পেজ সার্চ রেজাল্টে না দেখানো হোক আপনি হয়ত এটা চাইতে পারেন।কারন হতে পারে সেই পেজগুলির কাজ এখনও শেষ হয়নি বা অন্য যেকোন কারন।এজন্য আপনি একটি robots.txt ফাইল তৈরী করে সেখানে ঠিক করে দিতে পারেবন যে কোন্ কোন্ পেজ সার্চ ইন্জিন crawl করবেনা।আপনার যদি সাবডোমেইন থাকে এবং এর কিছু পেজ যদি সার্চ রেজাল্টে না দেখানো হোক এটা চান তাহলে এটার জন্য আলাদা একটা robots.txt ফাইল তৈরী করতে হবে।robots.txt ফাইলটি তৈরীর পর রুট ফোল্ডারে আপলোড করতে হবে।
robots.txt ফাইল দিয়ে সার্চ ইন্জিনের বট,ক্রাউলার এবং স্পাইডার সাইটের কোন্ কোন্ পেজ দেখবে এবং কোন্ কোন্ পেজ দেখবেনা এসব নিয়ন্ত্রন করা যায়।এই নিয়ন্ত্রনের পদ্ধতিকে বলা হয় রোবটস এক্সক্লুসন প্রটোকল (Robots Exclusion Protocol) বা রোবটস এক্সক্লুসন স্টান্ডার্ড (Robots Exclusion Standard) .এই ফাইল তৈরীর আগে এখানে ব্যবহৃত কিছু চিহ্ন চিনে নেয়া যাক:
Tags: robot txt wordpress,robot txt disallow all,robot txt test
প্রতিটি লাইন disallow: দিয়ে শুরু হয়।এরপরে আপনি / দিয়ে URL path ঠিক করে দিতে পারেন।এতে করে ওই path বা ফাইল বা ওই পেজ আর রোবট ক্রাউল করবেনা।যদি কোন path না দেন অথ্যাৎ ফাকা থাকে তাহলে disallow কাজ করবে allow এর।
Disallow ফিল্ড আংশিক বা পূর্নাঙ্গ URL উপস্থাপন করতে পারে।/ চিহ্নের পর যে path উল্লেখ থাকবে সেই path রোবট ভিজিট করবেনা।
যেমনঃ
Tags: robot txt no index,robot txt blogger,robot txt sitemap,robot.txt কি
কিছু উদাহরনঃ
সব রোবট অনুমোদন করবে করবে সব ফাইল ভিজিটের জন্য (wildcard “*” নির্দেশ করে সব রোবট)
সব রোবট কোন ফাইল ভিজিট করবেনা
গুগলবট এর শুধু ভিজিটের অনুমোদন থাকবে বাকি কেউ ভিজিট করতে পারবেনা
গুগলবট এবং ইয়াহুস্লার্প এর শুধু ভিজিটের অনুমোদন থাকবে বাকি কারো থাকবেনা
কোন একটা নির্দিষ্ট বটের ভিজিট যদি বন্ধ করতে চান তাহলে
এই ফাইলটি দ্বারা যদি আপনার সাইটের কোন URL বা পেজ crawl করা বন্ধ করে দেন তারপরেও কিছু সমস্যার কারনে এই পেজগুলি কোথাও কোথাও দেখাতে পারে।যেমন রেফারেল লগ এ URL গুলি দেখাতে পারে।তাছাড়া কিছু কিছু সার্চ ইন্জিন আছে যাদের এলগরিদম খুব উন্নত নয় ফলে এসব ইন্জিন থেকে যখন স্পাইডার/বোট crawl করার জন্য পাঠায় তখন এরা robots.txt ফাইলের নির্দেশনাকে উপেক্ষা করে আপনার সব URL crawl করে যাবে।
এসব সমস্যা এড়াতে আরেকটা ভাল পদ্ধতি হল এই সমস্ত কনটেন্টকে htaccess ফাইল দিয়ে পাসওয়ার্ড বা বন্ধ করে রাখা।
➹ rel=”nofollow” এর ব্যাপারে সতর্ক থাকুনঃ
কোন লিংকে rel এট্রিবিউট এ “nofollow” সেট করে দিয়ে গুগল বা সার্চ ইন্জিনকে বলে দিতে পারেন যে এই সমস্ত লিংক যেন সে crawl না করে।যদি আপনার সাইট কোন ব্লগ বা ফোরাম হয় যেখানে মন্তব্য করা যায় তাহলে কমেন্ট অংশকে এভাবে nofollow করে দিয়ে রাখতে পারেন।এতে করে আপনার ব্লগ বা ফোরামের খ্যাতি ব্যবহার করে নিজের সাইটের rank বাড়াতে পারবেনা।আবার অনেক সময় অনেকে আপত্তিকর সাইটের ঠিকানা আপনার সাইটে দিতে পারে ফলে যা আপনি চান না। এছাড়াও এমন সাইটের লিংক দিতে পারে যেটা গুগলের কাছে spammer, এতে করে আপনার সাইটের খ্যাতি নষ্ট হবে।
<a href="site url" rel="nofollow">Comment spammer</a>
প্রতিটি লিংকে nofollow না দিয়ে robot মেটা ট্যাগেও nofollow দিলে একই কাজ করবে।
একটি উধাহরনঃ
তো আজকে থাকছে রোবোট টেক্সট এর এস ই ও নিয়ে পোষ্ট । চলুন শুরু করি ।
robots.txt |
সার্চ ইঞ্জিন মুলত বেশ কিছু প্রোগ্রাম ও এলগরিদমের মাধ্যমে গঠিত । সার্চ ইঞ্জিনের কাজই হল আপনার সাইটের সকল পোষ্ট ক্রল করা বা ঘুরা । সোজা কথায় সাইটের যত পেজ আছে সব পেজেই উনি ঢুঁ মারার ক্ষমতা রাখেন । কারন তিনি প্রোগ্রাম বা রোবট । তাকে বকা দেয়ার কেউ নেই ।
এখন ধরুন আপনার সাইটে তো অনেক পেজই আছে যা আপনার ব্যাক্তিগত বা জনসাধারনের জন্য উন্মুক্ত নয় । কিন্তু সার্চ ইঞ্জিন যদি তা ক্রল করে ফেলে তাহলেতো আপনার ব্যাক্তিগত তথ্য হ্যাকারদের হাতে চলে যাবে ।
You Must Read:তাহলে???
[সিরিয়াল টিউটোরিয়াল] পার্ট - ৫ - সহজে শিখি এস ই ও । (বেসিক শেষ পর্ব)
[সিরিয়াল টিউটোরিয়াল] - পার্ট- ৪- সহজে শিখি এস ই ও । (নেভিগেশান ও ইউনিক কন্টেন্ট)
[সিরিয়াল টিউটোরিয়াল] - পার্ট-৩ - সহজে শিখি এস ই ও । ( লিংক স্ট্রাকচার )
ভিজিটর আনতে গিয়ে উলটো নিজের মেরুদন্ড হারাতে বসা । তাইনা ?
আর এই জন্য সার্চ ইঞ্জিন যেহেতু একটা প্রোগ্রাম তাই তাকেও দিকনির্দেশনা দিতে বা মোকাবেলা করতে হবে প্রোগ্রামের মাধমে । একেই বলে robots.txt
“robots.txt” ফাইল এমন একটি ফাইল যেটা সার্চ ইন্জিনকে বলে যে,সার্চ ইন্জিন একটা সাইটের কোন কোন্ পেজ crawl করবে আর কোন কোন পেজ crawl করবেনা।
Try: robot txt seo,robot txt 404,robot txt google
আপনার সাইটের কিছু পেজ সার্চ রেজাল্টে না দেখানো হোক আপনি হয়ত এটা চাইতে পারেন।কারন হতে পারে সেই পেজগুলির কাজ এখনও শেষ হয়নি বা অন্য যেকোন কারন।এজন্য আপনি একটি robots.txt ফাইল তৈরী করে সেখানে ঠিক করে দিতে পারেবন যে কোন্ কোন্ পেজ সার্চ ইন্জিন crawl করবেনা।আপনার যদি সাবডোমেইন থাকে এবং এর কিছু পেজ যদি সার্চ রেজাল্টে না দেখানো হোক এটা চান তাহলে এটার জন্য আলাদা একটা robots.txt ফাইল তৈরী করতে হবে।robots.txt ফাইলটি তৈরীর পর রুট ফোল্ডারে আপলোড করতে হবে।
robots.txt ফাইল দিয়ে সার্চ ইন্জিনের বট,ক্রাউলার এবং স্পাইডার সাইটের কোন্ কোন্ পেজ দেখবে এবং কোন্ কোন্ পেজ দেখবেনা এসব নিয়ন্ত্রন করা যায়।এই নিয়ন্ত্রনের পদ্ধতিকে বলা হয় রোবটস এক্সক্লুসন প্রটোকল (Robots Exclusion Protocol) বা রোবটস এক্সক্লুসন স্টান্ডার্ড (Robots Exclusion Standard) .এই ফাইল তৈরীর আগে এখানে ব্যবহৃত কিছু চিহ্ন চিনে নেয়া যাক:
রোবট টেক্সট সিনট্যাক্স |
Tags: robot txt wordpress,robot txt disallow all,robot txt test
প্রতিটি লাইন disallow: দিয়ে শুরু হয়।এরপরে আপনি / দিয়ে URL path ঠিক করে দিতে পারেন।এতে করে ওই path বা ফাইল বা ওই পেজ আর রোবট ক্রাউল করবেনা।যদি কোন path না দেন অথ্যাৎ ফাকা থাকে তাহলে disallow কাজ করবে allow এর।
Disallow ফিল্ড আংশিক বা পূর্নাঙ্গ URL উপস্থাপন করতে পারে।/ চিহ্নের পর যে path উল্লেখ থাকবে সেই path রোবট ভিজিট করবেনা।
যেমনঃ
- Disallow: /help
- #disallows both /help.html and /help/index.html, whereas
- Disallow: /help/
- # would disallow /help/index.html but allow /help.html
Tags: robot txt no index,robot txt blogger,robot txt sitemap,robot.txt কি
কিছু উদাহরনঃ
সব রোবট অনুমোদন করবে করবে সব ফাইল ভিজিটের জন্য (wildcard “*” নির্দেশ করে সব রোবট)
User-agent: *
Disallow:
সব রোবট কোন ফাইল ভিজিট করবেনা
User-agent: *
Disallow: /
গুগলবট এর শুধু ভিজিটের অনুমোদন থাকবে বাকি কেউ ভিজিট করতে পারবেনা
User-agent: GoogleBot
Disallow:
User-agent: *
Disallow: /
গুগলবট এবং ইয়াহুস্লার্প এর শুধু ভিজিটের অনুমোদন থাকবে বাকি কারো থাকবেনা
User-agent: GoogleBot
User-agent: Slurp
Disallow:
User-agent: *
Disallow: /
কোন একটা নির্দিষ্ট বটের ভিজিট যদি বন্ধ করতে চান তাহলে
User-agent: *
Disallow:
User-agent: Teoma
Disallow: /
এই ফাইলটি দ্বারা যদি আপনার সাইটের কোন URL বা পেজ crawl করা বন্ধ করে দেন তারপরেও কিছু সমস্যার কারনে এই পেজগুলি কোথাও কোথাও দেখাতে পারে।যেমন রেফারেল লগ এ URL গুলি দেখাতে পারে।তাছাড়া কিছু কিছু সার্চ ইন্জিন আছে যাদের এলগরিদম খুব উন্নত নয় ফলে এসব ইন্জিন থেকে যখন স্পাইডার/বোট crawl করার জন্য পাঠায় তখন এরা robots.txt ফাইলের নির্দেশনাকে উপেক্ষা করে আপনার সব URL crawl করে যাবে।
এসব সমস্যা এড়াতে আরেকটা ভাল পদ্ধতি হল এই সমস্ত কনটেন্টকে htaccess ফাইল দিয়ে পাসওয়ার্ড বা বন্ধ করে রাখা।
➹ rel=”nofollow” এর ব্যাপারে সতর্ক থাকুনঃ
কোন লিংকে rel এট্রিবিউট এ “nofollow” সেট করে দিয়ে গুগল বা সার্চ ইন্জিনকে বলে দিতে পারেন যে এই সমস্ত লিংক যেন সে crawl না করে।যদি আপনার সাইট কোন ব্লগ বা ফোরাম হয় যেখানে মন্তব্য করা যায় তাহলে কমেন্ট অংশকে এভাবে nofollow করে দিয়ে রাখতে পারেন।এতে করে আপনার ব্লগ বা ফোরামের খ্যাতি ব্যবহার করে নিজের সাইটের rank বাড়াতে পারবেনা।আবার অনেক সময় অনেকে আপত্তিকর সাইটের ঠিকানা আপনার সাইটে দিতে পারে ফলে যা আপনি চান না। এছাড়াও এমন সাইটের লিংক দিতে পারে যেটা গুগলের কাছে spammer, এতে করে আপনার সাইটের খ্যাতি নষ্ট হবে।
<a href="site url" rel="nofollow">Comment spammer</a>
প্রতিটি লিংকে nofollow না দিয়ে robot মেটা ট্যাগেও nofollow দিলে একই কাজ করবে।
একটি উধাহরনঃ
Reply EmoticonEmoticon