اينترنت و شبکه کاربرد وب براي گزينش اخبار تجاري

10 سال, 9 ماه پیش
مطالب قدیمی
علی پامناری
217 بازدید
0 دیدگاه

مقدمه
وب 3 که توسط تیم برنرزلی معرفی شد ارکان گوناگونی مانند RDF و آنتولوژی را داراست . RDF زمانی برای شرح منابع است و بخوبی توانایی معرفی انواع فرداده ها را داراست . اگر بخواهیم مفهوم برابری از کلمات با معنی یکسان دریافت شود ، از آنتولوژی یا هستی شناسی استفاده کنیم . همان گونه که در جهان هستی بین اشیا روابط معناداری برقرار است در وب نیز همین روابط بین اشیا با مختصر تفاوتی وجود دارد . نرم افزار پروتگه برای پیاده سازی آنتولوژی اخبار مالی به کار گرفته شده که توانایی بالایی را دارد و انواع خروجی های OWL را داراست . استوک واچر نمونه ای از کاربرد خبر معنایی در تجارت الکترونیک است .
بر خلاف مطبوعات چاپی سنتی و برنامه های تلویزیونی ، اخبار وب ، به محض ظهور ، در معرض عموم قرار می گیرند و علاوه بر آن ، پوشش کامل وب به صورت مداوم و پیوسته در حال افزایش است .

وب سایت های
خبری ، RSS-FEEDS ، را جهت به روز ماندن عموم مردم با توجه به علایق ایشان فراهم می کنند . یکی از حوزه هایی که دسترسی به اطلاعات و اخبار مفهومی نقش مهمی را ایفا می کند ، بازارهای مالی است . با معرفی کالاهای جدید مثل click funds سطح اشتغال عموم مردم در فعالیت های مالی و سرمایه ای نیز رو به افزایش نهاده است . این اشتغال فزاینده ، نیاز دسترسی به رسانه هایی که بتوانند اخبار اقتصادی قابل اعتماد و مرتبط را در مدت زمان کم فراهم کنند ، مطرح         می سازد . وب ، به این نیاز پاسخ می دهد و در آن واحد ، کاربران را با مقادیر زیادی اطلاعات روبهرو می سازد . سوالاتی مانند از چه جاهایی اخبار سریع تر دریافت می گردد ؟ یا چه
وب سایت های
خبری قابل اعتمادترند ؟ در حال افزایش است .
با حضور وب معنایی زبان هایی مثل OWL ، RDF ، به این سوالات پاسخ می دهند . هدف ما ایجاد برنامه ای است که به غیر کاربران غیر حرفه ای اینترنت در اشتغال و یافتن اخبار بازارهای تجاری کمک کند تا بتوانند به راحتی به اخبار مرتبط یا پرت فولیو خود دست یابند . این تلاش منتهی به استوک واچر شده است یعنی برنامه ای که دید کلی و سفارشی شده از اخبار طبقه بندی شده را مقدور ساخته و در عین حال این اخبار را بر اساس ارتباط شان با هم درجه بندی می کند .
در این مقاله ابتدا بر روی پروژه های مربوطه قبلی تمرکز کرده ایم . سپس برنامه stock watcher ارایه شده است . در این بخش ساختار برنامه و بر هم کنش های کاربر با آن مطرح شده است . خروجی این برنامه و نتایج به دست آمده در قسمت بعدی مطرح شده است در پایان با ارایه ایده هایی برای پژوهش های آتی ، نتیجه گیری می کنیم .
پیشینه تحقیق
در این قسمت هدف شناسایی برنامه های کاربردی پیشین و تکنیک های مورد استفاده آن ها است . پروژه آرتکواکت یکی از شناخته شده ترین پروژه های وب معنایی است . یکی از عوامل مهمی که در محبوبیت آن نقش داشته ، همزیستی بین برنامه کاربردی و تکنولوژی های وب معنایی است . هدف آرتکواکت یافتن اطلاعاتی در اینترنت راجع به هنرمندان و نقاشی ها است که از منابع مختلف اطلاعاتی را گردآوری      می نماید و به کاربران متفاوت ارایه می کند . مهم ترین نکته قابل توجه مرحله استخراج اطلاعات است . در این مرحله آرتکواکت به سرعت داده ها را از روی وب جستجو می کند و پایگاه دانش را با آن تکمیل می نماید . برای این منظور زبان GATE به کار گرفته می شود ، که دارای چارچوب طبیعی زبان مهندسی محسوب می شود . ولی داده های مورد نیاز استوک واچر بر روی
وب سایت هایی
به شکل فراداده در دسترس هستند . استوک واچر می تواند فرمت html داشته باشد . برنامه دیگری که هدفی شبیه استوک واچر دارد ، تحلیل گر اخبار تجاری است (MMA ) بر خلاف نامش این برنامه اخبار را تحلیل نمی کند و فقط اطلاعات را از RSS-FEEDS های مختلف مثل امور مالی یاهو استخراج می کند و قطعه های خبری ویژه ای را برای کاربر نمایش می دهد . این برنامه کمپانی های زیادی را در بر می گیرد که شخص می تواند اخبار را از آن ها دریافت کند همچنین مقدار زیادی اطلاعات آماری در مورد اخبار سرمایه که به وسیله شاخص های مختلفی قابل طبقه بندی هستند در اختیار ما قرار می دهد .
استوک واچر :
استوک واچر برنامه مبتنی به وب است که به کاربران اجازه می دهد اخبار را از منابع RSS استخراج کنند . این اخبار مربوط به پرت فولیو    آن ها است این برنامه به کمپانی های فعال در نزدگ توجه دارد و به کاربر امکان می دهد تا پرت فولیو خود را با استفاده از شاخص هایی        Nasdag-100 بسازند که در آن شرکت های بزرگی مانند گوگل ، میکروسافت و دل یافت می شوند . خلاصه بودن احتیاجات باعث       می شود ، گزینه های قابل انتخاب این برنامه به این شرکت ها محدود باشد که از مزایای این طرح است . هر چند توسعه پذیر بودن سیستم کنونی سبب می گردد طراحی به آسانی صورت پذیرد . یعنی شامل شرکت های بزرگ دیگر هم به شود . یک پوشش html که قابل سفارشی شدن را داراست در hoovers.com استفاده شده است که برای استخراج اطلاعات از شرکت های Nasdag-100 به کار گرفته می شود . از اطلاعات این
وب سایت
در حدود 00400 کمپانی خصوصی و غیر خصوصی استفاده می کنند . هستی شناسی OWL مورد استفاده در این سیستم شود توسط نرم افزار پروتگه ایجاد شده است . به کمک OWL قابلیت تفسیر ماشین بیشتر از تکنیک های دیگری مانند XML یا RDF می شود .
استوک واچر از پایگاه داده ی مایکروسافت اکسس استفاده می کند تا اطلاعات مربوطه را ذخیره سازد . علت اصلی انتخاب اکسس سهولت استفاده از رابط گرافیکی آن است . اگر چه یک ابزار تمام شی گرا نیست اما می تواند برای استوک واچر به خوبی کار کند .

1-ساختار استوک واچر :
در شکل 1 خلاصه ای از سیستم بصورت الگویی مفهومی (CM) نمایش داده شده این الگو به سه قسمت تقسیم شده است در قسمت A داده ها و اطلاعات از شرکت های مخصوصی استخراج می شوند و در پایگاه داده اکسس ذخیره می گردند . هنگامی که پایگاه داده پر شود کاربران می توانند پرت فولیو خود را از اطلاعات شرکت های داخل پایگاه داده بسازند . با ایجاد این پرت فولیو یک هستی شناسی متناظر با آن به طور خودکار تولید می گردد پیدایش هستی شناسی در بخش B رخ می دهند . در بخش C برنامه به دنبال منابع Feeds گوناگون برای اخبار سفارشی مرتبط با هستی شناسی پرت فولیو سفارشی شده است .
1-1-استخراج داده ها
اولین مرحله استفاده از سیستم استوک واچر استخراج اطلاعات مرتبط است . هر بار که کاربر وارد می شود اطلاعات به صورت Realtime از Nasdag-100 استخراج می شود . به خاطر مسایلی مانند زمان بارگزاری و Uptime برای
وب سایت های
مختلف است به نظر می رسد که اطلاعات فقط یک بار سریع تر و مطمئن تر استخراج می گردند و در پایگاه داده ذخیره شوند .
ماژول Nasdaq2Databse . مسئول استخراج اطلاعات و ذخیره داده ها است . این ماژول ملزومات استخراج نام تجاری کمپانی را از 100 NASDAQ فراهم می کند . این اطلاعات به همراه نام کامل کمپانی در پایگاه داده ذخیره می شود . ملزومات دیگر نیز مربوط به استخراج باقی اطلاعات از H OOVERS.COM است . این اطلاعات دربردارنده افراد مهم در کمپانی رقابت کنندگان و صنعت مورد فعالیت آن است .
1-2-ایجاد آنتولوژی
برای ساخت آنتولوژی از نرم افزار پروتگه به خاطر محبوبیت و سادگی استفاده می شود . یکی از مهم ترین کلاس های موجود در آنتولوژی مالی استوک واچر کلاس شرکت است . علاوه بر آن تفکیکی بین شرکت هایی که در پرت فولیو کاربر وجود دارد و رقبای آن ها باید بوجود آید . که باعث به وجود آمدن دو Subclasses در کلاس اصلی Company می شود . علاوه Industry Class را نیز تعریف می کنیم که در برگیرنده تمام شرکت هاست . هنگامی که از ابزار پرس و جوی SPARQ استفاده شود گروه بندی کمپانی های خاص باعث سهولت شناسایی رقبا می شود . در نهایت Class Person افراد مهم در کمپانی مشخصی را نیز می نماید . به منظور فعال سازی استنتاج در آنتولوژی بوجود آمده یک استنتاجگر (DIG ) همراه با Protege نصب می گردد . بهترین انتخاب Racerpro است مهم ترین مورد مربوط به محبوبیت استنتاچ کننده در ترکیب با Protege می باشد و روش ساده پیکر بندی آن است . Protege تست های متفاوتی را ارایه کرده که می توان آن ها را بر روی آنتولوژی بکار برد . مهم ترین آن هاست (Classify Taxonomy ) با اجرای این تست استنتاچ کننده به بررسی درستی ساخت کلاس ها و کلاس های فرعی می پردازد . داده ها از Nasdag-100 و OOVERS.COM استخراج شده در پایگاه داده قرار گرفتن می گیرند ، سپس برای استفاده روی خط آماده می شوند . به محض این که کاربر با سایت ارتباط برقرار کرد و پرت فولیو خود را ساخت قسمت B برنامه نیز فعال می شود . استفاده از تکنیک های متفاوت که توسط Jena framework فراهم شده باعث می شود که استوک واچر بتواند آنتولوژی مالی را به خوبی ادره کند .
1-3 جستجوی خبری

پس از کامل شدن آنتولوژی و بازیابی اطلاعات از RSS-feeds جستجو برای خبرهای مرتبط شروع می شود . در مراحل اولیه توسعه ی برنامه موتور جستجو فقط این مطلب را در نظر می گیرد که آیا عنوان یا مشروح اخبار واقع بر RSS-feeds هرگونه لغت یا کلماتی را که در آنتولوژی ظاهر ظاهر می شوند در برگرفته است یا خیر این روش روش خوبی نیز به نظر می رسد مطابقت های جزئی یا کلمات خیلی رایج موضوعات خبری نامربوطی را گزینش کرده و الگوریتم جستجو نیز به اصلاحات بیشتری نیاز داشت کلمات مشابهی مثل سیستم ها و شرکت های ثبت شده فیلتر شده تا هرگونه عدم مطابقت را ایجاد نکند علاوه بر آن کمترین طول برای لغات و کلمات به 3 حرف محدود شده است تمامی کلمات از هم مجزا می شوند و فقط هنگامی به عنوان یک تطبیق شمرده می شوند که مانند هم باشند تطبیق های جزئی مثل dell در modeling شمرده نمی شوند و به حساب نمی آیند . این موارد نتایج جستجو را کمی بهبود می دهند حتی اگر تقریبا همه کلمات جستجو شده مربو ط باشند باز هم کلمات نامربوط در نتایج به دست آمده دیده می شوند . سناریو زیر را مشاهده کنید در جستجو برای خبری راجع به Adobe برنامه به آیتم های خبری با نام مشابه کمپانی هایی مثل کرل ، ماکروسافت Adobe بر می خورد برای حل این مشکل سیستم نمره گذاری اجرا شده است تطبیق بر عناوین 2 امتیاز و در متن 1 امتیاز دریافت می کند یک آیتم خبری باید برای نمایش در صفحه نتایج حداقل 2 امتیاز داشته باشد اکنون برنامه می تواند موضوعات خبری را درجه بندی کند از بقیه اخبار چشم پوشی می کنیم یعنی آنهایی که کمتر از 2 نمره کسر کرده اند بدین ترتیب ارتباط نتایج به صورت معنا داری تقویت و بهبود می یابد با استفاده از نام کمپانی های شناخته شده مانند دل و گوگل این نمره افزایش می یابد . این اسامی اغلب به عنوان منبع یا مثالی در مقالات با کمترین ارتباط به خود کمپانی مورد استفاده قرار گرفته است . علاوه بر آن سیستم نمره گذاری را می توان به عنوان چارچوبی برای اصلاحات بعدی مورد استفاده قرار داد . هم چنین می توان از الگوریتم های جستجو گر هوشمندی استفاده کرد که ارتباط بین اخبار مختلف را تقویت کند . مثال هایی از این گونه روش ها متضمن محاسبه فواصل بین کلمات است ( یا یافتن معانی کلمات موجود در متن ) برای جستجوی RSS-feeds از informa و sparql استفاده می کنیم . informa در قالب جاوا است که عبارتند از HOTsheet وRisotto . مهمترین خصوصیت Informa متضمن توانایی باز یابی همه ی newsfeed های موجود در اینترنت است . برنامه ها سند سازی خوبی را ارائه می کند که کاربرد آن را در برنامه اصلی ساده تر می سازد . LQRAPS زبان پرس و جو و پروتکل دسترسی به داده ها برای وب معنایی محسوب می شود . مهمترین کاربرد آن استخراج اطلاعات از آنتو لوژی های RDF یا OWL است

– رابطه كاربري
يكي از مهمترين جنبه هاي در تكوين رابطه كاربري براي يك
وب سایت
كابر پسند بودن آن است عواملي مثل قابليت استفاده ،طراحي ،هماهنگي ،هدايت وسادگي نقش بزرگي در چگونگي كاربر پسند بودن آن است با درنظر داشتن اين مطلب ،رابطه كاربري برنامه را بر پايه اسدگي و كارآيي طراحي ميكنيم.
استوك اچرا با استفاده از ساختن حساب كابري يا بدون آن به كار گرفته مي شود :بازديد كندگان سايت مي توانند بين LOG IN كردن با چشم پوشي از اين مرحله و ساختن مستقيم پرت فوليو حق انتخاب داشته باشند اشكال انتخاب دوم مربوط به اين است كه سيستم ، ترجيحات كاربر ( يعني كمپاني كه كاربر به آن علاقه دارد ) را به خاطر نخواهد آورد .
پس از ايجاد حساب كاربري ، سند تجاري پرت فوليو در پايگاه داده ذخيره مي شود و هر موقعي كه كاربر در سيستم لاگسن نمايد دردسترس و قابل بارگذاري است . هنگامي كه كاربر وارد
وب سایت
مي شود ،يك منو شامل چهار مرحله ظاهر خواهد شد.

مرحله اول كمپاني هايي از 100-NASDAQرا نشان مي دهد در اين جا، كاربر مي تواند پرت فوليو خود را تشكيل دهد . كاربر هاي موجود مي توانند كمپاني هاي جديد تري را به فوليو اضافه كنند يا اين كه مي يتواندد موارد موجود را حذف كنند ، اين عمل به راحتي PROFILE كاربررا در پايگاه داده تغيير خواهد داد .در مرحله دوم ، كاربر در ميان اطلاعات و داده هايمورد علاقه اش موردي را انتخاب كند .رقبا در شركت هاي انتخاب شده ،اشخاص مهم واخبار مورد فعاليت هاي مرتبط با صتنعتي كه شركت ها در آن مورد فعالايت دارند وارزش سهامNASDAQ
كه داده هاي عددي را شكل 3 ديد كلي از خروجي سيستم را رايه مي كند هنگامي كه پرت فوليو تناه شامل يك كمپاني ،مثلا گوگل اشد . اولين ستون آيتم هاي خبري توليد شده توسط
RSS-FEEDS براي نام كمپاني ، ارايه مي شود كنار ستون ، خبري كه در بردارنده رقباي كمپاني هستند،نمايش داده شده است و در ادامه خبر راجع به افراد مهم است . دوستون آخر ، خلاطه اي از پيام هاي خبري را جه به صنعتي كه كمپاني در ان فعال است و آخرين ارزش سهام آن شركت است .
آيتم هاي خبري بر حسب تاريخ دريافت ذخيره مي شوند
نوار time line، معيار زماني در مورد خبرهاي گزينش شده را مي دهد . اين نوار به كاربران توانايي تشخيص آخرين خبر را ميدهد . و مي تواند زير بناي عمليات بعدي محسوب شود .
راجب توانايي هاي فعلي كمپاني هاي انتخاب شده ارياه مي كند .
سه انتخاب اول اثر مستقيم بر آنتولوژي دارند . در حالي كه مورد چهارم در مرحله سوم ، كاربران مي توانند از منبع RSS-FEEDS استفاده كرده وداده ها را استخراج كنند همچنيم كاربران مي توانند ليست استاندارد RSS-FEEDS را سفارشي سازند استوك واچر بيشتر RSS-FEEDS اقتصادي پشتيباني ميكند.

4- نمايش خروجي :
براي نمايش نتيج استوكر واچر، از ابزاري به نام time line استفاده مي كنند. اين ابزار براي نمايش مناسب حوادث مربوط به زمان طراحي شاخته مي شود .
TIME LINE به مراحل نصب نياز ندارد ( نا ازجانب سرور ، نه از جانب مشتري ) و رويداد هاي مربوط به ان به راحتي در فايل XML ذخيره مي گردد.

5- نتيجه گيري و تحقيقات بيشتر
مهم ترين هدف اي برنامه تشريح برنامه استوك واچر است . در بخش هاي قبلي ،معماري آن بيان شد و جزيياتي راجع به ابزر برنامه نويسي ارايه گرديد با ضميم كردن يك سيستم درجه بندي الگو ريتم هاي ارائه شده قادر به درجه بندي خبر بر حسب قابليت اطمينان و ارتباط آن ها ( با موضوع جاري ) شديم . اين برنامه آيتم هاي خبري مربوط به پرت فوليو كابر را بر حسب موضوع مرتبط نمايش مي دهد.
مهمترين هدف زبان آنتولو‍‍ژي وب owl ساخت دادهاي قابل فهم براي ماشين هاي تحت وب است . استوك .اچر ، زير بناي پيشرفت هي آينده در اين را فراهم كرده است . از آنجاكه برنامه خصوصياتش برا اساس هستي شناسي و تكنيك هاي به كار گرفته شده است
تحليل مفهومي اخبار امكان پذير است به كمك اييت روش به تحليل مفهومي اخبار در مورد قيمت مشترك داشته باشيم . ابزار ديگر مثل LINE TIMEقدرت نرم افزار را درمتن اضافه ميكند(قراردادن پيشگويي در مفاهيم موقتي ) بنا براين تحليل اثرات دقيق آيتم هاي خبري بر ارزش سهام خواهد شد .
مزيت ديگر اين برنامه به استخراج دادها از شركت مربوطه است . استخراج داد ها از صفحه HTML طول ميكشد واين امر نبايد در زمان جستجوي كاربر اتفاق افتد كل پايگاه به صورت دو را اي با داده هاي HOOVERS.COM بروز ميش ود . با استفاده از پايگاه داده به روز شده به جاي HOOVERS.COM ،براي بازيابي اطلاعات ، بازدهي برنامه بيشتر مي شود اين پايگاه داده همه كمپاني هاي قرار گرفته در 100 جايگاه اول رابر مي گرداند و اطلاعاتي در مورد رقباي آن ، افراد مهم و بازرا رائه مي دهد . با استفاده از چنين پايگاه داد ه اي برنامه هميشه اطلاعات را به روز استفاده ميكند .