Jericho Parser

Parser HTML راان و باز برا م شما
انون بارر ن

Jericho Parser رتبه بند و خلاصه

تبلغات

  • Rating:
  • مجوز:
  • GPL
  • قمت:
  • FREE
  • نام ناشر:
  • M Jericho
  • وب سات ناشر:
  • http://jericho.htmlparser.net/doc/index.html
  • سستم ها عامل:
  • Mac OS X
  • حجم فال:
  • 1.7 MB

Jericho Parser برسب ها


Jericho Parser شرح

Parser HTML راان و باز منبع باز برا م شما Jericho HTML Parser تابخانه جاوا منبع باز است ه اجازه تجزه و تحلل و دستار قطعات سند HTML، از جمله ت ها سمت سرور، در حال ه بازتولد HTML نامعتبر ا غر قابل تشخص است. Parser Jericho HTML همنن توابع دستار فرم HTML را فراهم م ند. در انجا برخ از و ها لد "Jericho HTML Parser": حضور HTML فرمت شده به شدت با تجزه بقه سند دخالت نم ند، ه باعث م شود تابخانه اده آل برا استفاده از HTML "دنا واقع" ه در تجزه ننده ها را خن م ند. PSP، JSP، ASP، PSP و برسب ها سرور Mason به صراحت توسط تجزه ننده به رسمت شناخته شده است. ان به ان معن است ه HTML معمول هنوز هم به درست تجزه شده است، حت ار برسب ها سرور در داخل آنها وجود داشته باشد، ه به عنوان مثال معمول است ه به طور وا تنظم و ها عنصر را معمول است. نه روداد و نه تجزه ننده درخت مبتن بر درخت، بله از ترب از جستجو متن ساده، تشخص برسب ارآمد و شور موقعت برسب استفاده م ند. متن ل سند منبع ابتدا به حافظه بارذار م شود و سس تنها بخش ها مربوطه برا شخصت ها مربوطه هر عملات جستجو جستجو م شود. در مقاسه با تجزه ننده مبتن بر درخت مانند DOM، الزامات حافظه و منابع م تواند بسار بهتر باشد، ار فقط بخش ها و سند باد تجزه شوند ا اصلاح شوند. HTML نادرست ا بد فرمت شده به راحت م تواند به راحت نادده رفته شود، بر خلاف تجزه ننده ها مبتن بر درخت ه باد هر ره را در سند از بالا به ان شناسا ند. در مقاسه با تجزه ننده مبتن بر روداد مانند SAX، رابط در سطح بسار بالاتر و بصر تر است، و نماش درخت از سلسله مراتب عنصر سند به راحت در صورت لزوم اجاد م شود. موقعت ها شروع و اان در سند منبع از تمام بخش ها تجزه شده در دسترس هستند، اجازه م دهد اصلاح تنها بخش ها انتخاب شده از سند بدون ناز به بازساز ل سند از درخت. ردف و تعداد ستون هر موقعت در سند منبع به راحت قابل دسترس است. فراهم م ند رابط ساده اما جامع برا تجزه و تحلل و دستار از نترل ها فرم HTML، از جمله استخراج و جمعت از مقادر اوله، و تبدل به حالت خواندن فقط خواندن ا داده ها صفحه نماش. تجزه و تحلل نترل ها فرم همنن اجازه م دهد داده ها درافت شده از فرم ذخره شده و ارائه شده به صورت مناسب. انواع برسب ها سفارش را م توان به راحت تعرف و ثبت نام برا تشخص توسط تجزه ننده. عملرد داخل ساخته شده برا استخراج تمام متن از نشانه ذار HTML، مناسب برا تغذه به موتور جستجو متن مانند آا Lucene. عملرد داخل ساخته شده برا رندر نشانه ذار HTML با قالب بند متن ساده. قابلت ها ساخته شده در فرمت د منبع HTML ه عناصر را با توجه به عمق خود در سلسله مراتب عنصر سند نشان م دهد. عملرد داخل ساخته شده به جمع و جور د منبع HTML با حذف تمام فضا سفد غر ضرور.


Jericho Parser نرم افزارها مرتبط

rage webdesign

اجاد صفحات وب، آنها را در تمام مروررها آزماش ند و آنها را با ان نرم افزار شفت انز منتشر ند ...

608 17.4 MB

دانلود