গুগল ভিশন এপিআই ব্যবহার করে একটি ইমেজ থেকে এক্সট্রাক্ট করা টেক্সট অ্যাক্সেস করতে, আপনি এপিআই-এর অপটিক্যাল ক্যারেক্টার রিকগনিশন (OCR) ক্ষমতাগুলি ব্যবহার করার সাথে জড়িত কয়েকটি ধাপ অনুসরণ করতে পারেন। Google Vision API-এ OCR প্রযুক্তি হস্তাক্ষর সহ চিত্রগুলি থেকে পাঠ্য সনাক্তকরণ এবং নিষ্কাশন সক্ষম করে। এই কার্যকারিতাটি বিশেষত সেই অ্যাপ্লিকেশনগুলিতে উপযোগী যেগুলির জন্য ভিজ্যুয়াল ডেটাতে উপস্থিত পাঠ্য তথ্যের বিশ্লেষণ এবং বোঝার প্রয়োজন৷
প্রথমত, আপনাকে Google Vision API এর সাথে কাজ করার জন্য প্রয়োজনীয় পরিবেশ সেট আপ করতে হবে। এর মধ্যে রয়েছে Google ক্লাউড কনসোলে একটি প্রকল্প তৈরি করা, ভিশন API সক্ষম করা এবং প্রয়োজনীয় প্রমাণীকরণ শংসাপত্র যেমন একটি API কী বা পরিষেবা অ্যাকাউন্ট কী পাওয়া।
একবার আপনার পরিবেশ সেট আপ হয়ে গেলে, আপনি একটি চিত্র ফাইলে OCR সম্পাদন করতে Vision API এর `asyncBatchAnnotateFiles` পদ্ধতি ব্যবহার করতে পারেন। এই পদ্ধতিটি আপনাকে প্রক্রিয়াকরণের জন্য চিত্র ফাইলগুলির একটি তালিকা পাস করতে এবং অ্যাসিঙ্ক্রোনাসভাবে ফলাফলগুলি পেতে দেয়। বিকল্পভাবে, আপনি সরাসরি চিত্রগুলির একটি তালিকা প্রক্রিয়া করতে `asyncBatchAnnotateImages` পদ্ধতি ব্যবহার করতে পারেন।
একটি চিত্র থেকে পাঠ্য বের করতে, আপনাকে `AnnotateImageRequest` অবজেক্টের একটি উদাহরণ তৈরি করতে হবে এবং পছন্দসই বৈশিষ্ট্যগুলি নির্দিষ্ট করতে হবে৷ এই ক্ষেত্রে, আপনি চিত্র থেকে পাঠ্য বের করতে চান তা নির্দেশ করার জন্য আপনি `TEXT_DETECTION` বৈশিষ্ট্য সেট করবেন৷ আপনি OCR এর নির্ভুলতা উন্নত করতে ভাষা ইঙ্গিতের মতো অতিরিক্ত প্যারামিটারগুলিও নির্দিষ্ট করতে পারেন।
এরপরে, আপনাকে একটি বেস64-এনকোডেড স্ট্রিং-এ ইমেজ ফাইল এনকোড করতে হবে এবং এনকোড করা ইমেজ ডেটা ব্যবহার করে `ইমেজ` অবজেক্টের একটি উদাহরণ তৈরি করতে হবে। এই `Image` অবজেক্টটি আগে তৈরি করা `AnnotateImageRequest` অবজেক্টে যোগ করা উচিত।
অনুরোধ সেট আপ করার পরে, আপনি আপনার নির্বাচিত পদ্ধতির উপর নির্ভর করে `batchAnnotateImages` বা `batchAnnotateFiles` পদ্ধতি ব্যবহার করে ভিশন API এ পাঠাতে পারেন। API ছবিটি প্রক্রিয়া করবে এবং নিষ্কাশিত পাঠ্য সহ একটি প্রতিক্রিয়া প্রদান করবে।
প্রতিক্রিয়া থেকে নিষ্কাশিত পাঠ্য অ্যাক্সেস করতে, আপনি `AnotateImageResponse` অবজেক্টের `টেক্সট অ্যানোটেশন` ফিল্ডে পুনরাবৃত্তি করতে পারেন। এই ক্ষেত্রটিতে `EntityAnnotation` অবজেক্টের একটি তালিকা রয়েছে, প্রতিটি ইমেজে একটি শনাক্ত করা পাঠ্য উপাদান উপস্থাপন করে। প্রতিটি `EntityAnnotation` অবজেক্টের `description` ফিল্ডে এক্সট্রাক্ট করা পাঠ্য থাকে।
এখানে পাইথনে একটি উদাহরণ কোড স্নিপেট রয়েছে যা দেখায় কিভাবে Google Vision API ব্যবহার করে একটি চিত্র থেকে নিষ্কাশিত পাঠ্য অ্যাক্সেস করতে হয়:
python from google.cloud import vision def extract_text_from_image(image_path): client = vision.ImageAnnotatorClient() with open(image_path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) request = vision.AnnotateImageRequest( image=image, features=[{'type': vision.Feature.Type.TEXT_DETECTION}] ) response = client.batch_annotate_images(requests=[request]) for annotation in response.responses[0].text_annotations: extracted_text = annotation.description print(extracted_text) # Usage extract_text_from_image('path_to_image.jpg')
এই উদাহরণে, `extract_text_from_image` ফাংশন ইনপুট হিসাবে একটি ইমেজ ফাইলের পথ নেয় এবং ভিশন API-এ একটি অনুরোধ পাঠাতে Google ক্লাউড ভিশন ক্লায়েন্ট লাইব্রেরি ব্যবহার করে। নিষ্কাশিত পাঠ্য তারপর প্রিন্ট আউট হয়.
Google Vision API ব্যবহার করে একটি চিত্র থেকে নিষ্কাশিত পাঠ্য অ্যাক্সেস করতে, আপনাকে পরিবেশ সেট আপ করতে হবে, পছন্দসই বৈশিষ্ট্য সহ একটি `AnnotateImageRequest` অবজেক্ট তৈরি করতে হবে, চিত্র ফাইলটি এনকোড করতে হবে, API-তে অনুরোধ পাঠাতে হবে এবং নিষ্কাশিত পাঠ্য পুনরুদ্ধার করতে হবে। প্রতিক্রিয়া থেকে। ভিশন API-এর OCR ক্ষমতা হাতের লেখা সহ চিত্রগুলি থেকে পাঠ্য সনাক্তকরণ এবং নিষ্কাশন সক্ষম করে।
সম্পর্কিত অন্যান্য সাম্প্রতিক প্রশ্ন এবং উত্তর হস্তাক্ষর থেকে পাঠ্য শনাক্ত করা এবং বের করা:
- Google Vision API ব্যবহার করে জটিল নথি থেকে পাঠ্য বের করার সময় কোন সীমাবদ্ধতা দেখা দিতে পারে?
- Google Vision API-এর পাঠ্যের ব্যাখ্যায় আত্মবিশ্বাসের স্তরের তাৎপর্য কী?
- কিভাবে Google Vision API সঠিকভাবে হস্তলিখিত নোট থেকে পাঠ্য সনাক্ত করতে এবং বের করতে পারে?
- হস্তলিখিত চিত্রগুলি থেকে পাঠ্য সনাক্তকরণ এবং নিষ্কাশনের ক্ষেত্রে চ্যালেঞ্জগুলি কী কী?
- গুগল ভিশন কি হাতের লেখা চিনতে পারে?