از فرمولهای نظری موجود برای H-index ، مواردی که اخیراً توسط Burrell (J Informetr 7: 774-783 ، 2013b) پیشنهاد شده است و توسط Bertol i-Barsotti و Lando (J Informetr 9 (4): 762-776 ، 2015) اثبات شده استدر برآورد ارزش واقعی H-Index Hirsch (Proc Natl Acad Sci USA 102: 16569-16572 ، 2005) بسیار مؤثر است ، حداقل در سطح دانشمند فردی. این رویکردها به ترتیب بر اساس یک "استاندارد" و یک نسخه "تغییر یافته" از توزیع هندسی ، به دو فرمول کمی متفاوت منجر می شوند. در این مقاله ، ما پیدایش این دو فرمول را بررسی می کنیم - که ما فرمول لامبرت- W را "اساسی" و "بهبود یافته" برای H-index می نامیم و اثربخشی آنها را با تعدادی از موارد گرفته شده از چاه مقایسه می کنیم. کلاسهای شناخته شده Glänze l-Schubert از مدل های H-Index (در عوض ، بر اساس یک مدل پارتیایی) با استفاده از یک مطالعه تجربی. تمام فرمول های در نظر گرفته شده در مقایسه "آماده استفاده" هستند ، یعنی توابع شاخص های استناد ساده مانند: تعداد کل نشریات. تعداد کل استنادها ؛تعداد کل مقاله استناد شده ؛تعداد استناد به استناد به مقاله. مطالعه تجربی مبتنی بر داده های استناد به دست آمده از دو مجموعه مختلف از ژورنال متعلق به دو زمینه علمی مختلف است: به طور خاص ، 231 ژورنال از حوزه "آمار و روش های ریاضی" و 100 ژورنال از حوزه "اقتصاد ، اقتصاد ، اقتصاد و دارایی"، به ترتیب تقریباً 100000 و 20،000 نشریه. داده های استناد به ویندوزهای مختلف زمان انتشار/استناد ، انواع مختلف اسناد "قابل استفاده" و رویکردهای جایگزین برای تجزیه و تحلیل فرایند استناد ("آینده نگر" و "گذشته نگر") اشاره دارد. نتیجه می گیریم که ، به ویژه در نسخه بهبود یافته آن ، فرمول Lambert- W برای H-index یک قانون آماده برای استفاده کاملاً قوی و مؤثر را فراهم می کند که اگر هدف شخص (به سادگی) باشد ، باید به سایر فرمول های شناخته شده ترجیح داده شود. برآورد قابل اعتماد از H-index.
روی نسخه خطی کار می کنید؟
معرفی
برخی از شاخص های کتابخانه ای ساده و اساسی ، مانند تعداد کل استنادهای C ، تعداد کل نشریات با حداقل تعدادی استناد k هر یک ، tk، تعداد کل استنادها برای مقالات T استناد شده ، جحرف، میانگین تعداد استنادها در هر مقاله (ACPP) ، (M = C/T ) (جایی که از این پس ، آخرت ، T مخفف t است0) ، و همچنین H-index (Hirsch 2005 ؛ Braun et al. 2006 ؛ Schubert and Glänzel 2007 ؛ Harzing and Van der Wal 2009) ، به طور معمول برای اندازه گیری ارتباط و تأثیر استناد به روزنامه ها هنگام محاسبه با توجه به مناسب ، استفاده می شودبازه های زمانی از پیش تعیین شده. به طور خاص ، نسخه های محدود شده زمان از ACPP منجر به انواع مختلف "عوامل تأثیر" می شود ، با انواع احتمالی تعریف شده با توجه به ویندوزهای مختلف از پیش تعیین شده و زمان استناد ، و همچنین بسته به میزان همپوشانی بین این بازه ها (همزمان و همزمانعوامل تأثیر دیامان ؛ اینگورسن و همکاران 2001). به طور مشابه ، نسخه های جایگزین از H-index تعریف شده است (همزمان و Diaronous H-indexes ؛ Ba r-Ilan 2010). به طور کلی ، تمام این شاخص ها اطلاعات مربوط به تعداد استناد به یک ژورنال را در یک پنجره زمانی از پیش تعیین شده-که معمولاً مقدار زیادی از داده ها-به یک ارزش نماینده واحد قابل تفسیر به عنوان یک اندازه گیری "کیفیت" ژورنال می پردازند ، ادغام می کنند. محاسبه آنها نیاز به دانش در مورد کل الگوی استناد یا حداقل بیشتر آن دارد. در سالهای اخیر ، علاقه خاصی به توسعه مدلهای نظری نشان داده شده است که با توجه به ارزش های برخی دیگر ، می توان از این نظر یکی از این شاخص ها را تخمین زد. نمونه های نماینده شناخته شده مدل های نظری هستند که با استفاده از آنها می توانند ارزش H-index ، H را بدست آورند:
- به عنوان تابعی از C (هیرش 2005) ،
- به عنوان تابعی از T (Egghe and Rousseau 2006) ،
- به عنوان تابعی از t1(Burrell 2013a) ،
- به عنوان تابعی از C و T (Glänzel 2006 ؛ Iglesias and Pecharroman 2007 ؛ Schubert and Glänzel 2007 ؛ Bletsas and Sahalos 2009 ؛ Egghe et al. 2009 ؛ Egghe and Rousseau 2012) ،
- به عنوان تابعی از c ، t1و سی1Bertoli-Barsotti و Lando (2015) ؛
بلکه مدل های نظری که با آن می توان C را به عنوان تابعی از h (پترسن و همکاران 2011)، یا به عنوان تابعی از m و h (Egghe و همکاران 2009)، یا تابعی از T و h (Burrell 2013b) تخمین زد.) و غیره. این مدل ها که معمولاً به نوبه خود مبتنی بر فرض یک مدل احتمالی خاص برای توزیع استناد هستند ممکن است مؤثر باشند، برای مثال، زمانی که شاخص مورد علاقه را نمی توان مستقیماً به دلیل در دسترس نبودن آن به دست آورد، یا زمانی که در دسترس بودنداده های استنادی ناقص استبه عنوان مثال، ممکن است موردی وجود داشته باشد که در آن h در دسترس نباشد اما ما C و T را بدانیم (گلنزل 2006؛ شوبرت و گلنزل 2007؛ بلتساس و ساهالو 2009)، یا موردی باشد که در آن باید مقادیر گمشده ضرایب تاثیر را با استفاده از آن نسبت دهیم. در دسترس بودن شاخص h به عنوان یک پیش بینی کننده (برتوچی و همکاران 2015).
به طور خاص، در این مقاله ما عمدتاً بر روی مسئله به دست آوردن یک فرمول صریح "جهانی" برای تخمین مقدار واقعی شاخص h تمرکز می کنیم. اخیراً، بورل (2013b) و برتولی-بارسوتی و لاندو (2015) مدلی را معرفی کردند که در تخمین ارزش واقعی شاخص h برای دانشمندان فردی بسیار مؤثر بوده است. به طور دقیق تر، این رویکردها به دو فرمول کمی متفاوت منجر می شوند (یا ممکن است منجر شوند) که به ترتیب مبتنی بر یک نسخه «استاندارد» و «تغییر شده» از توزیع هندسی هستند. در بخش اول بخش «روش ها» یک معادله (عملکردی) بر اساس توزیع هندسی ارائه می کنیم که مبنای نظری هر دو این رویکرد را تشکیل می دهد. در واقع، این معادله به ما اجازه می دهد تا یک تخمین گر شکل بسته از h-index را استخراج کنیم که به عنوان تابعی از (برخی از) معیارهای استنادی بالا بیان می شود. ما به دلایلی که در زیر مشخص خواهد شد، این تخمین گر را فرمول لامبرت-W برای شاخص h نام خواهیم برد.
در ادبیات علمی مرتبط ، نویسندگان غالباً تجزیه و تحلیل خود را به مسئله تخمین پارامترهای ناشناخته یک مدل پارامتری نظری پیشنهادی برای H-index ، با فرض دانستن مقادیر واقعی H-index محدود می کنند. در عوض ، در این مقاله ما مسئله عملی تر (و به معنای خاص ، مخالف) را برای تعیین H-index (ناشناخته) بر اساس یک فرمول آماده برای استفاده در نظر می گیریم. سپس ، در تحلیل های تجربی ما از مقادیر واقعی H-index استفاده خواهیم کرد اما فقط برای ارزیابی ، یک خلفی ، عملکرد فرمولهای آماده برای استفاده و تعیین (شاید به دلایل تفسیری) پارامترهای ناشناخته از یکمدل پارامتری نظری. در این مقاله ، ما در مورد H-Index برای مجلات تمرکز خواهیم کرد (Braun et al. 2006). یکی از مهمترین تفاوت ها بین موارد یک دانشمند فردی و یک ژورنال این است که در حالت دوم ، H-index باید در یک نسخه "به موقع" محاسبه شود ، یعنی محدود به ویندوزهای زمان مناسب ، معمولاً نسبتاً کوتاه ، انتشار و استنادبشردر این راستا ، لازم به ذکر است که یک تعریف آشنا مانند "یک ژورنال دارای شاخص H است اگر H از انتشارات آن حداقل استنادهای H داشته باشد و سایر نشریات هر یک بیش از استنادهای H ندارند" تا حدودی نادرست است زیرا این کار را نمی کندویندوزهای زمانی را که برای محاسبه H در نظر گرفته می شود ، مشخص کنید. یکی از اهداف مطالعه ما همچنین آزمایش استحکام فرمول به صورت تجربی در برابر گزینه های مختلف ممکن از (1) طول ویندوزهای زمانی و (2) نوع رویکرد اتخاذ شده برای تجزیه و تحلیل فرایند استناد است: "آینده نگر".) یا "گذشته نگر" (همزمان) (Glänzel 2004). ما همچنین باید بر مقایسه اثربخشی بین فرمول لامبرت- W برای H-Index و یک کلاس محبوب از مدل های جایگزین ، مربوط به فرمول به اصطلاح Glänzel-Schubert ، که قبلاً ثابت شده است با همبستگی بسیار مرتبط است ، تمرکز کنیم. ساع ت-index.
در بخش دوم بخش "روشها" ، ادبیات موجود را در مورد خانواده های Glänze l-Schubert از مدلها (و مدل های مرتبط) مرور می کنیم و در مورد برخی از جنبه های مشکل ساز مرتبط با حضور پارامترهای ناشناخته در عبارات آنها بحث می کنیم. سپس ، در بخش "دو مطالعه تجربی" ، ما نتایج مقایسه تجربی بین فرمول لامبرت- W را برای H-index و این مدل های جایگزین ، با استفاده از دو مجموعه داده مختلف ژورنال گزارش می کنیم. برای این کار ، ما داده های استناد را از پایگاه داده SCOPUS در حدود 100،000 و 20،000 نشریه برای مجموعه داده های اول و دوم بارگیری کردیم. بر اساس نتایج مطالعه تحقیق ما ، نتیجه می گیریم که فرمول لامبرت- W برای H-index یک قانون آماده برای استفاده مؤثر را فراهم می کند که اگر هدف شخص (به سادگی) برای به دست آوردن یک قابل اعتماد ، باید به سایر فرمول های شناخته شده ترجیح داده شود. برآورد H-index.
مواد و روش ها
مدل های رابطه بین H و سایر معیارهای ساده مبتنی بر تعداد استناد
یک معادله اساسی که H ، T و C را به هم وصل می کند
یک مدل از یک معادله فرضی از نوع
$ $ f سمت چپ ( راست) = 0 $ $
به دنبال ، اتصال H ، T و C است. به طور طبیعی ، ما یک رابطه قطعی را بین مقادیر مشاهده شده H ، T و C فرض نمی کنیم ، بلکه باید یک رابطه "احتمالی" را تعیین کنیم. در واقع ، مشکلی که در اینجا مطرح شده است ، ایجاد فرمول برای پیش بینی ها است. به طور خاص ، ما سعی می کنیم مدلی را شناسایی کنیم که بتواند یک دوره ورودی را با توجه به دو مورد دیگر پیش بینی کند (به عنوان مثال H با داده T و C ، یا C داده شده H و T ، یا ، که همان است ، C / T داده H وt ، و غیره). یک راه حل اولیه از Eq عملکردی.(1) با "فرض" (که در اینجا یک فرضیه کار ساده را نشان می دهد) می توان توزیع هندسی (GD) را با پارامتر P ، بدست آورد
$$pleft( x
ight) = frac>> <<left( <1 + P>
ight)^>>، Quad x = 0،1،2 ، ldots ، $ $where p ( x ) gives the probability of observing x and P , P>0 ، نمایانگر انتظار GD است (جانسون و همکاران 2005 ، ص 210). سپس مقدار (n سمت چپ (x راست) = TP Left (x راست) ) تعداد "مورد انتظار" مقالات را با استناد به X بیان می کند (عملکرد فرکانس اندازه). اکنون ، از آنجا که برای هر k ، (k in سمت چپ <
ight>) ، ( sum nolimits_^ = 1 - سمت چپ ( frac راست)^ ) ، تعداد پیش بینی شده مقالات با حداقل استنادهای k
By definition of the h -index, h , this yields the equation (left(> راست)^ - frac = 0 ). سپس ، با فرض (M = C/T ) به عنوان برآورد انتظار P (به جانسون و همکاران 2005 ، معادله 5. 12 ، ص 211 مراجعه کنید) ، ما مدل زیر از معادله عملکردی را استخراج می کنیم
$$left(> راست)^ - frac = 0. $ $ما در تصویب توجه می کنیم که این مدل ، به عنوان یک محصول جانبی ، فرمول (n سمت چپ (0 راست)/ = سمت چپ ( راست)^ بازده می دهد.< 1>) برای "عامل عدم وجود" ، اثبات نتیجه ای که توسط Hsu و Huang (2012) حدس زده شده است (همچنین به Egghe 2013 ؛ Burrell 2013c مراجعه کنید). این معادله یک الگوی نظری از رابطه بین H-index ، تعداد انتشارات t و ACPP ، m را نشان می دهد. معادله (4) با توجه به هر یک از استدلال های آن قابل حل است. به خصوص،
- (الف) با توجه به H و T ، ما به راحتی تخمین (P^) انتظار P را به شرح زیر می گیریم:
$ $ p^ = frac<<left( <frac>
ight)^>>>
ight)^>>,$$ $ $ Z = W سمت چپ (< Tlog a> درست) ، $ $
جایی که (W سمت چپ ( cdot راست) ) نمایانگر عملکرد به اصطلاح لامبرت - W (Corless و Jeffrey 2015) است. به یاد داشته باشید که تابع Lambert - W تابع w (y) رضایت بخش (y = w سمت چپ (y راست) e^ است) ، و می توان در حال حاضر با استفاده از نرم افزار ریاضی محاسبه شد ، به عنوان مثال بسته نرم افزاری Mathematica ® 10. 0 (Wolfram Research ، Inc. 2014 ؛ این زبان در زبان Wolfram به عنوان "Lambertw") یا همچنین با استفاده از محیط محاسبات آماری R اجرا شده است (R Development Core Team 2012). از این رو
$ $- H log frac= W سمت چپ (< Tlog frac> درست) ، $ $ این است که ، به طور معادل ، $ $ H_^ <left( 0
ight)>= frac<>
ight)>
ight)>> <<log left( <1 + m^< 1>>
ight)>>,$$معادله ای که H ، t را به هم وصل می کند1و سی
به عنوان یک قاعده کلی ، باید انتظار داشته باشید که دانش دیگر (به عنوان مثال ، غیر از M و T) آمار خلاصه ساده از داده های استناد RAW به افزایش دقت تخمین H-index کمک می کند. در واقع ، اگر ما نیز فرض کنیم که ما می دانیم1، یک نسخه اصلاح شده از فرمولهای فوق را می توان با گرفتن توزیع هندسی تغییر یافته (SGD) با پارامتر q به راحتی معرفی کرد
$ $ p سمت چپ (y راست) = frac<<left(
ight)^>>>>، Quad y = 1،2 ، ldots ، $ $
where p ( y ) represents the probability of observing the number of citations y of a paper cited at least once, and Q , Q>1 ، نمایانگر انتظار SGD است. از آنجا که برای هر k ، (k in سمت چپ <
ight>) ، ( sum nolimits_^= 1 - left(>
ight)^) , then (T_ left(> راست)^) تعداد مقالات با حداقل استنادهای K + 1 را نشان می دهد. سپس ، با فرض (M_ =>>
ight. ke-0pt> >) ، میانگین تعداد استنادهای مقالاتی که حداقل یک بار ذکر شده است ، به عنوان یک پروکسی برای انتظار Q ، ما معادله عملکردی زیر را استخراج می کنیم
$$left( - 1>>>>>
ight)^ - frac>>= 0 $ $این معادله را می توان با توجه به هر یک از استدلال های آن حل کرد. به خصوص،
$$Q^ = left(>>>
ight)^
ight)>>>
ight. ke-0pt> <left(
ight)>>>>> راست)^< 1>$$ $ $ H_^ <left( 1
ight)>= frac< 1><<log left( ^ < 1>>
ight)>> cdot Wleft(>>^ < 1>>> cdot log سمت چپ ( ^< 1>>
ight)> درست). $ $یک فرمول برای H-index ، به عنوان تابعی از t1، ج و ج1
اگر ما همچنین تعداد کل استنادهای مقاله ذکر شده را نیز بدانیم ، ج1، ما می توانیم امیدوار باشیم که دقت فرمول فوق را بهبود بخشیم (H_^<left( 1
ight)>) به علاوه. در واقع ، با استفاده از میانگین بریده شده - یعنی میانگین نمونه به دست آمده از کاغذ بسیار استناد شده - ( tilde_ =<<left(
ight)> ریاضی<left/ <vphantom <<left(
ight)> <left(
ight)>>>
ight. ke-0pt> <left(
ight)>>) به جای م1، ما یک نسخه اصلاح شده (بهبود یافته) از فرمول فوق را بدست می آوریم ، که باید ( tilde_^ را تعریف کنیم<left( 1
ight)>) ,
$ $ tilde_^ <left( 1
ight)>= frac< 1><<log left( _^ < 1>>
ight)>> cdot w سمت چپ (<frac<>_^ < 1>>> cdot log سمت چپ (_^< 1>>
ight)> درست). $ $همانطور که مشهور است ، توزیع استناد بسیار کم رنگ است. از این رو میانگین نمونه توسط مقادیر شدید تحریف می شود. به طور خاص ، حضور مقالات بسیار با استناد به فرد تمایل به بیش از حد c دارد ، و در نتیجه (H_^<left( 1
ight)>) ، در مقایسه با H-Index واقع ی-که به وضوح برای یک مقاله بسیار بسیار استناد شده حساس نیست. به این معنا ، استفاده از یک میانگین بریده شده صرفاً تکنیکی برای کاهش این تعصب احتمالی است.
به طور خلاصه ، ما داریم: (H_^<left( 0
ight)>= H_^<left( 0
ight)> چپ ( راست) ) یا همچنین ، به طور معادل ، (h_^<left( 0
ight)>= H_^<left( 0
ight)> چپ ( راست) ) ، و ( tilde_^<left( 1
ight)>= tilde_^<left( 1
ight)>left( ,T_> راست) ) یا همچنین ، به طور معادل ، ( tilde_^<left( 1
ight)>= tilde_^<left( 1
ight)>ترک کرد(درست)) . ما به ترتیب به این فرمول ها به عنوان فرمول های Lambert- W برای H-index ، به ترتیب ، در یک "اساسی" ، (H_^ اشاره خواهیم کرد.<left( 0
ight)>) ، و یک نسخه "بهبود یافته" ، ( tilde_^<left( 1
ight)>)فرمول ( tilde_^<left( 1
ight)>) برای برآورد H-index برای دانشمندان فردی ، در جای دیگر Bertol i-Barsotti و Lando (2015) در نظر گرفته شده است.
مدل های پارامتری نظری برای H-Index مربوط به فرمول Glänze l-Schubert
یک جایگزین شناخته شده "الگوی نظری از وابستگی به استناد H-index بر اندازه نمونه و میانگین میزان استناد نمونه" (شوبرت و همکاران 2009) همان پیشنهادی شوبرت و گلنزل (2007) است که خاطرنشان کردند H-index تقریباً متناسب با "عملکرد قدرت از اندازه نمونه و میانگین نمونه" است ، یعنی با عملکرد (M^ t^ ) (شوبرت و همکاران 2009 ؛ همچنین به Glänzel 2007 ، 2008 مراجعه کنید). در برنامه های کاربردی ، این واقعیت به عنوان مدلهای پارامتری ممکن برای H-Index ، مجموعه ای از "انواع" را ایجاد کرده است. تفکیک هر یک از آنها با نه مورد زیر مفید است.
- (الف) ایگلسیاس و Pecharroman (2007) خانواده یک پارامتری زیر مدل های H-index را به دست آوردند:
فارکس کاران ایران...
ما را در سایت فارکس کاران ایران دنبال می کنید
برچسب :
نویسنده : ديناروند فهيمه
بازدید : 49
تاريخ : پنجشنبه
26 مرداد
1402 ساعت: 19:17