ほぼテク 7月13日ChatGPTで「文章の中の大事な単語を拾いだす」テキストデータから宝を見つける究極のガイド？論文メタデータ編！

ほぼテク読者の皆様、いつも大変ありがとうございます！
我妻裕太です。

GPTに関する連続投稿約78日目です！

昨日東京にいたのですが、もう外にいるだけでサウナ状態でした(汗)
あの中をマラソンしている方がいたのですが、凄い人たちだなと思った今日この頃！

熱中症には気をつけていきましょう！

本日も「文章の中の大事な単語を拾い出す」実験をChatGPTで試してみようシリーズです。
ChatGPTを有効活用できないか毎日試行錯誤中です！

本日のテーマは学術的な視点で見ていきたいと思います。
そう、論文です！

論文管理でのよくある課題

広大で急速に進化する学術研究の世界では、学術論文の管理はしばしば圧倒的な課題となります。何百、何千もの論文を追跡し、その内容を理解することはかなり！とても時間がかかります。

私も過去に、今もたまに！論文に関するお仕事をさせていただくことがあるのですが、それはもう大変な作業ですよね。

色々な論文に関わる業務があるかと思うのですが、特に論文の管理は個人的には様々な課題があるような気がします。実際に論文を管理する際は論文の本文だけでなく、論文のメタデータが綺麗に整理されている状態でないと瞬時に目的とする情報を探すのが大変なデータです。

そのメタデータを毎回論文の中らか手作業で研究者名、著者名、掲載ジャーナル名などの重要なデータを特定し記録しなければならないことが多い気がします。最近では便利なソフトが出てきたのでそれを活用することもできるかもしれませんが。

論文メタデータの抽出と整理に固有名詞抽出を使った時のメリット

この問題を解決するための一つの方法が、固有名詞抽出を使用した論文メタデータの自動抽出と整理です。これは、著者名、掲載ジャーナル名、公開日、DOI（Digital Object Identifier）などの重要なメタデータを自動的に特定し、データベースに整理します。これにより、論文の管理や検索が容易になり、必要な情報を瞬時に見つけることが可能になります。

ChatGPTを活用した論文固有名詞抽出システムの運用イメージ

この固有名詞抽出を行うシステムは、ChatGPTなどの大規模な言語モデルを利用して実装することができます。具体的には、ChatGPTは学術論文のテキストを入力として受け取り、重要なメタデータを抽出することが可能です。この結果はデータベースに保存され、後で簡単に検索・抽出することができます。

これが私にとっての夢のシステムです！？

では実際に本当に大切な情報を抽出してくれるのか試してみましょう。

今回の実験ルールは以下の通りです。

・サンプルの論文データから論文名、著者名、掲載ジャーナル名、公開日、DOIを抽出できないか実験します。
・GPT-3.5で実験する。
・プロンプトは以下で実行します。

【プロンプト】
以下の論文情報から、論文名、著者名、掲載ジャーナル名、公開日、DOIを抽出してください。

論文：
（論文を記載）

※今回のデモデータの論文は実在しないもので、あくまでも論文を想定したダミーデータですので、ご了承ください。

一応このようなイメージです↓

Advanced Approaches Enhance Forecasting of Planet Distributions from Appearance Information

John Doe*, Mary Smith*, Robert J. Anderson, Miroslav Dudik, Simon Ferrier, Antoine Guisan, Robert J. Hijmans, Falk Huettmann, John R. Leathwick, Anthony Lehmann, Jin Li, Lucia G. Lohmann, Bette A. Loiselle, Glenn Manion, Craig Moritz, Miguel Nakamura, Yoshinori Nakazawa, Jacob McC. Overton, A. Townsend Peterson, Steven J. Phillips, Karen Richardson, Ricardo Scachetti-Pereira, Robert E. Schapire, Jorge Soberon, Stephen Williams, Mary S. Wisz and Niklaus E. Zimmermann

The prediction of planetary distributions is crucial to a wide range of applications in astronomy, astrophysics and space conservation science. The increasing electronic access to extensive sets of appearance records in astronomical databases and observatories, yet little effective guidance on how best to use this information in the context of numerous modelling approaches. To meet this need, we compared 16 modelling methods across 226 planets from 6 regions of the universe, creating the most comprehensive set of model comparisons to date.

We used appearance-only data to fit models, and independent presence-absence data to evaluate the predictions. Along with well-established modelling methods such as generalised additive models and GARP and BIOCLIM, we explored methods that either have been developed recently or have rarely been applied to modelling planetary distributions. These include machine-learning methods and community models, both of which have features that may make them particularly well suited to noisy or sparse information, as is typical of planetary appearance data.

The appearance-only data were effective for modelling planetary distributions for many planets and regions. The advanced methods consistently outperformed more established methods. The results of our analysis are promising for the use of data from astronomical databases and observatories, especially as methods suited to the noise inherent in such data improve.

John Doe (j.doe@unimelb.edu.au), Department of Astronomy, University of Melbourne, Parkville, Victoria, 3010 Australia… (Please replace all the author and affiliation details with fictional ones)

Journal of Computational Environmental Science

January 1, 2023
N Engl J Med 2015; 772:11-20
DOI: 16.1056/NEJMoa1412215

ではさっそく試してみましょう。

【抽出結果】

論文名: Advanced Approaches Enhance Forecasting of Planet Distributions from Appearance Information
著者名: John Doe*, Mary Smith*, Robert J. Anderson, Miroslav Dudik, Simon Ferrier, Antoine Guisan, Robert J. Hijmans, Falk Huettmann, John R. Leathwick, Anthony Lehmann, Jin Li, Lucia G. Lohmann, Bette A. Loiselle, Glenn Manion, Craig Moritz, Miguel Nakamura, Yoshinori Nakazawa, Jacob McC. Overton, A. Townsend Peterson, Steven J. Phillips, Karen Richardson, Ricardo Scachetti-Pereira, Robert E. Schapire, Jorge Soberon, Stephen Williams, Mary S. Wisz, and Niklaus E. Zimmermann
掲載ジャーナル名: Journal of Computational Environmental Science
公開日: January 1, 2023
DOI: 16.1056/NEJMoa1412215 (Please note that the provided DOI does not match the article. The DOI format used here is a fictional one for demonstration purposes.)

おぉ、おーーーー相変わらず早いな、そしてちゃんと抽出してくれている。
凄いな正解っすよ。

さらにDOIも「Please note that the provided DOI does not match the article. The DOI format used here is a fictional one for demonstration purposes.」と書いてあり、「提供されたDOIは論文と一致しません。ここで使用されているDOIの形式は、デモンストレーション目的のために架空のものです」という内容です。

凄いな！ダミーって分かってるんですね。
これは人で時間をかけて見なくてもあっという間に初案を作って、その結果を人間が責任をもってやればOKですね。

大分効率化できそう！
ちなみにどういう観点で情報抽出しているか聞いてみました。

論文名、著者名、掲載ジャーナル名、公開日、およびDOIの情報を抽出するために、以下の手順を使用しています。

論文名: 最初の文から論文のタイトルを抽出しています。通常、タイトルは大文字で始まり、句読点（ピリオド、クエスチョンマーク、エクスクラメーションマーク）で終わります。

著者名: 論文内に著者リストが表示されていますので、その情報から著者名を抽出しています。通常、著者名はカンマで区切られ、名前と姓が含まれます。また、著者名の後にアスタリスク(*)がある場合、これは通常、所属機関の表記などを示す注釈です。

掲載ジャーナル名: 論文内に明示的に掲載ジャーナル名が記載されている場合、それを抽出しています。ジャーナル名は一般にイタリック体または引用符で囲まれています。

公開日: 論文内の情報から公開日を抽出しています。一般的に、公開日は年、月、日の形式で表示されます。

DOI: 論文内にDOI（デジタルオブジェクト識別子）が提供されている場合、それを抽出しています。DOIは一般に”DOI:”または”DOI：”という接頭辞を伴っており、数字とピリオドから構成される一意の識別子です。

これらの手順を使用して、与えられたテキストから論文情報を抽出しています。ただし、与えられたテキストの形式や情報の正確性に依存するため、抽出結果が完全に正確であるとは限りません。

だそうです(笑)

凄いな！ちゃんと根拠を書いてくれている！これがあれば抽出結果も説明可能ですね。

いやー素晴らしい。研究アシスタントにいいですね。

まとめ

っということでいかがでしたでしょうか。
今日もなかなか面白かったですね。

論文の管理は時間と労力を必要とする作業ですが、固有名詞抽出を使用することでその負担を軽減することができます。ChatGPTなどのAI技術を活用すれば、このプロセスを自動化し、研究者が必要な情報を迅速に見つけられるよう支援することが可能です。

これにより、研究機関では本来の研究活動に集中することができ、科学的な発見がより迅速に進むのではないでしょうか。

テクノロジーの空は今日も快晴ですね！

本日の記事がみなさまの業務効率化のヒントになれば幸いです。
今回も最後までお読みいただき、ありがとうございました。

それでは、また次回のほぼテクでお会いしましょう！

SRA東北の我妻裕太でした。
さようなら！