تجزیه و تحلیل خودکار از کلمات در 117 سال به ارزش بررسی فیزیکی ، الگوهای علمی را انتخاب می کند - ایده های مهم که از طریق ادبیات پدیدار می شوند و گسترش می یابند.
محققان با داشتن بسیاری از مجلات علمی در دسترس آنلاین ، می توانند ارتباط بین مقالات و شبکه های تأثیر علمی را با جزئیات بی سابقه کشف کنند. اکنون تیمی از محققان در مورد این نوع تحلیل ها جدید ارائه می دهند. آنها روشی را برای بررسی مجموعه های مقالات برای شناسایی "یادگاری ها" - کلمات یا عباراتی که مفاهیم علمی خاص را ضبط می کنند و در رشته های خود پذیرش گسترده ای کسب می کنند ، گزارش می دهند. محققان می گویند که روش آنها می تواند ابزاری کمی و عینی برای مطالعه ظهور و تکامل ایده های علمی باشد.
از اواسط دهه 1960 ، محققان پیوندهای استناد را بین مقالات علمی برای بررسی تأثیر ، بهم پیوسته و "عامل تأثیر" نویسندگان و مقالات بررسی کرده اند. اما توبیاس کوهن از انستیتوی فناوری فدرال سوئیس (ETH) در زوریخ و همکارانش خاطرنشان می کنند که این روشها اجازه نمی دهد مطالعه مستقیم از گسترش محتوای فکری آن مقالات از طریق جامعه علمی باشد.
برای کشف ظهور ایده های علمی ، کوهن و همکارانش می خواستند راهی برای پاکسازی ادبیات برای کلمات یا عبارات نشان دهنده مفاهیم علمی قابل توجه پیدا کنند ، اما در عین حال آنها را از اصطلاحات مشترک مانند "آزمایش" متمایز می کنند. آنها این کلمات یا عبارات را "یادگار" می نامند ، با استفاده از نامی که در ابتدا توسط زیست شناس تکاملی ریچارد داوکینز به دلیل اشیاء قابل توجه فکری پیشنهاد شده است - به عنوان مثال ، یک دین یا یک مارک سیاست. به گفته داوکینز ، الگوهای رفتاری می توانند در یک فرهنگ انسانی پراکنده شوند یا از بین بروند [1].
Meme را پیدا کنید. هر نقطه یک مقاله تحقیقاتی را در بایگانی بررسی فیزیکی نشان می دهد. هر مقاله به دیگران اشاره می کند ، و هرچه اشاراتی بیشتر دو مقاله مشترک باشد ، نقاط آنها نزدیک تر ظاهر می شود. در طرح فوقانی ، رنگ ها با مجلات بررسی فیزیکی مطابقت دارند (قرمز: فیزیک. Rev. A ؛ Blue: B ؛ Green: C ؛ Yellow: D ؛ Magenta: E ؛ Brown: دیگران). در طرح پایین ، رنگ ها نمایانگر الگوهای علمی هستند که توسط یک تحلیل آماری جدید مشخص شده اند (قرمز: "کوانتوم" ؛ سبز: "شکافت" ؛ آبی تیره: "گرافن" ؛ آبی روشن: "انتقاد خود سازمان یافته" ؛ مگنتا: "جریان ترافیک")Meme را پیدا کنید. هر نقطه یک مقاله تحقیقاتی را در بایگانی بررسی فیزیکی نشان می دهد. هر مقاله به دیگران اشاره می کند ، و هرچه اشاراتی بیشتر دو مقاله مشترک باشد ، نقاط آنها نزدیک تر ظاهر می شود. در طرح فوقانی ، رنگ ها با فیزیک مطابقت دارند. بیشتر نشان بده، اطلاعات بیشتر
Meme را پیدا کنید. هر نقطه یک مقاله تحقیقاتی را در بایگانی بررسی فیزیکی نشان می دهد. هر مقاله به دیگران اشاره می کند ، و هرچه اشاراتی بیشتر دو مقاله مشترک باشد ، نقاط آنها نزدیک تر ظاهر می شود. در طرح فوقانی ، رنگ ها با مجلات بررسی فیزیکی مطابقت دارند (قرمز: فیزیک. Rev. A ؛ Blue: B ؛ Green: C ؛ Yellow: D ؛ Magenta: E ؛ Brown: دیگران). در طرح پایین ، رنگ ها نمایانگر الگوهای علمی هستند که توسط یک تحلیل آماری جدید مشخص شده اند (قرمز: "کوانتوم" ؛ سبز: "شکافت" ؛ آبی تیره: "گرافن" ؛ آبی روشن: "انتقاد خود سازمان یافته" ؛ مگنتا: "جریان ترافیک")×
این تیم در جستجوی MEME ها ، از سال 1893 تا 2009 بر روی بایگانی بررسی فیزیکی فیزیکی آمریکا ، تقریباً نیم میلیون عناوین و خلاصه ها را متمرکز کردند. آنها با استفاده از نرم افزار استاندارد ، یک شبکه استناد ساختند که مجموعه داده ها را به عنوان ابر از امتیازات نشان می دا د-نقطه نماینده یک نشریه واحد ، و خوشه هایی از نقاط که نشانگر مقالات با استنادهای زیادی است. خوشه های در مقیاس بزرگ در این تصویر با زیرزمین های فیزیک تحت پوشش هر ژورنال بررسی فیزیکی مطابقت دارند ، با اتصالات بین خوشه هایی که متقاطع بین رشته ای را منعکس می کنند.
از طریق قدرت محاسبات محكم ، كوه و همكارانش سپس از طریق این پایگاه داده APS برای هر دنباله مكرر احتمالی كلمات n ، به نام n-gram جستجو كردند. برخی از این موارد - به عنوان مثال ، "از" یا "از" که با فرکانس بسیار خوبی ارائه شده است ، اما به وضوح یادگار نیستند. بنابراین تیم برای هر n-gram یک اقدام آماری را که آنها آن را نمره انتشار می نامند ، تعریف کرد. یک نمره انتشار بالا مربوط به یک N-GRAM است که از نزدیک الگوی استناد را ردیابی می کند ، یعنی در مقالاتی که سایر مقالات حاوی همان N-Gram را ذکر می کنند ، ترجیحاً نشان می دهد. کلمات متداول مانند "OF" نمره انتشار کم دارند.
سپس تیم "نمره یادداشت" یک N-Gram را به عنوان نمره انتشار آن ضرب شده توسط فرکانس که در پایگاه داده ظاهر می شود ، تعریف کرد. این روش نمرات مشابهی را به اصطلاحاتی مانند "کوانتوم" ، "گرافن" و "جریان ترافیک" نشان می داد ، حتی اگر فرکانس های آنها با ضریب بیش از صد متفاوت باشد. آنها تجزیه و تحلیل مشابهی را در دو پایگاه داده دیگر ، وب علوم ، با بیش از 46 میلیون مقاله و PubMed با حدود نیم میلیون مقاله انجام دادند. محققان توزیع N-GRAMS را در توطئه های دو بعدی با نمره انتشار به عنوان محور افقی و فرکانس به عنوان محور عمودی ترسیم کردند. در این توطئه ها ، خطوط از نمره میمون ثابت از بالا سمت چپ به پایین راست اجرا می شوند. محققان دریافتند که برای هر مجموعه داده ، توزیع مشابه N-GRAM ها منطقه زیر و سمت چپ حداکثر نمره Meme را پر کرده است ، با وجود تفاوت در اندازه و موضوع موضوع سه پایگاه داده.
اما آیا N-Grams با امتیاز بالا واقعاً نمایانگر الگوهای علمی بود؟50 اصطلاح از بایگانی APS با بالاترین نمرات انتشار شامل بسیاری از نامزدهای MEME قابل قبول ، مانند "کیهان شناسی کوانتومی حلقه" (شماره 1) و "نانولوله های کربن" (شماره 6) ، و همچنین چندین فرمول شیمیایی از جمله MGB 2 (شماره 7 ؛ یک ابررسانا مشهور). برای قضاوت در مورد اهمیت این شرایط ، محققان بررسی کردند که آیا ویکی پدیا برای آنها مدخل دارد و همچنین دو دانشجوی فارغ التحصیل فیزیک را برای ارزیابی اهمیت اصطلاحات ثبت نام کرده است. اکثر شرایط برتر 50 هر دو آزمایش را پشت سر گذاشتند.
الكساندر پیترسن از مؤسسات ، بازارها ، فن آوری ها (IMT) مؤسسه مطالعات پیشرفته در لوكا ، ایتالیا ، می گوید كه وی تحت تأثیر قرار گرفته است كه این روش "ساده اما قدرتمند" هم ممكی های بسیار نادر و هم نسبتاً متداول را پیدا می كند. او فکر می کند که مدل Meme که توسط کوهن و همکارانش نشان داده شده است "نقطه شروع مثمر ثمر" برای تجزیه و تحلیل عمیق تر از گسترش ایده های علمی ، بر اساس اصول سازگار از فرآیندهای وراثت ژنتیکی ارائه می دهد.