英語長文 (論文, 特許文書) をChatGPT, 翻訳ツールを駆使して効率よく読む
※ 前置きが無駄に長いので目次からChapter 4. 実践編partにリンクをおすすめします。
0. はじめに
0.0 AI (ChatGPT) の最近 (2023/10) のニュース
AIの進歩は凄まじくGPTで出来ることを試すまえに新しい機能がつぎつぎとバージョンアップされています。最近, 目と耳を手に入れたことが話題になっています。『目』の機能ですが, プレゼンスライドの原案をGPTに『見せて』改善案をもらおうと思います。
スライドのテーマは『生成系AIと技術革新の発展スピード』です。紙に殴り書きして作った適当な原案をGPTに見せて『こういうのが作りたいです。』と直感的な相談ができるようになりました。
フルボッコにダメ出しされました。こちらから『ここはこのようにしたら良いでしょうか?』『ここの表現は間違っていませんか?』など画像さえあればあいまいな質問でも伝わると感心しました。何回も対話, ラリーを重ねて具体的な改善案をもらえました。
もう一つは, 画像生成機能『DALL-E3』ダリスリー です。
高機能な画像生成が可能になりデザイン性の優れたプレゼンスライド作りが出来るようになりました。実際, 『大学』『発明』『特許』『AIアンドロイド』などのキーワードから短時間でほぼ思い通りの画像生成が可能でした。
この図はAIの未来は明るいということを表した図です。しかし現実は異なり良いことばかりではなさそうです。ChatGPTリリース初期から耳にタコが出来るくらい聞いたフレーズですが, 『Garbage in, garbage out』 良いプロンプトから良いものが生まれる。また, GPTはしばしば副操縦士 co-pilotに例えられます。
うまく利用すれば非常に強力な相棒になりますが, 使い方を誤ると逆の結果となることもしばしばです。実際できると紹介されて触ってみたが全然使い物にならなかったという経験はないでしょうか。
AIは思ったよりも普及せず, むしろ一般userの信頼を失いつつあると巷ではもっぱらの噂です。嘘をつく (ハルシネーション) や著作権の侵害, 個人情報の流出リスクがあるなど克服すべき問題は多々あります。
この文章をGPTに読み込ませDALL-E3を用いて画像生成しました。
0.1 背景
企業のGPT利用率が低いということがたびたび指摘されています。前述の理由 (ハルシネーション) などから国内での普及は欧米とくらべ著しく低いです。
孫社長はGPTを利用して1000件近くの特許をとっているとのことです。今回, GPTの特許活用 (AI関連の特許を出すという訳ではなく), 英文特許の要約, 特許侵害権回避, 特許調査などに活用できないか相談がありこの記事を作成しました。
すでにやりつくされているだろうと思い調査したところやはり結構活用法が出てきました。これまでnoteでAIの医療分野への活用法に関する記事を紹介してきました。
その中でAIを利用した医学英語論文の検索や和訳, 要約方法などについて述べてきました。また, 前回PDFファイルを要約するツールを紹介してきました。
ChatGPTは一度の会話で行える文字数の限界が決まっており, 4096トークン (日本語2500文字程度?) という単位が上限です。
数千文字のPDFファイルであればAIが『本文全体を参照』してくれて全文の内容の要約を教えてくれます。しかし数万文字のPDFファイルは全体の内容を要約することはできず
AIが全文の概要が書かれている箇所を自分で見つけ出し (例えば前書きや, 目次) その部分の要約をあたかも全体の要約として返してきます。また, 使用するプラグインや要約ソフトによっては長文ファイル自体扱っていない場合があります。今回, これまで記事で紹介したコツを併用することで長文ファイル, 特に英文特許を効率良く読む方法を検証したいと思います。
1. 特許調査業務におけるAI (ChatGPT) 利用の問題点
自分が特許を発明しChatGPTに特許出願の補助をしてもらうという架空の設定で補助可能な項目, 現在 (2023/10) の問題点を列挙してもらいます。
個人で特許を出したいと思います。
あなた (ChatGPT) は特許調査業務の補助はできますか?? 問題点とともにまとめてください。
嘘をつく (ハルシネーション)などの技術的問題, AIロボットであり人間の専門家ではないという法的な問題があります。まずはGPT4に質問してみます。
私は 小さな化学系ベンチャー企業の一研究員です。有機電界効果トランジスタのゲート絶縁膜として
用いる『全く新しい有機化合物』を発見しました。有機トランジスタの特許について教えて下さい。
特許内容『有機トランジスタ』に対する回答ではなく, 一般的な『特許申請』に関するものでした。プラグインWeb pilotやWeb browsingモードを使用すれば現在存在する, 具体的な情報をリンク先とともに提示してくれます。
有機電界効果トランジスタのゲート絶縁膜として用いる『全く新しい有機化合物』を発見しました。
類似特許をJ-PLAT-PATで検索しIPC, Fタームを検索しリンク先とともに提示してください。
まつこと1-2分
実在するリンクをいくつか教えてくれました。ハルシネーション, あいまいな返答を回避できます。
2. 特許調査業務の具体例 簡単に
2.0 特許調査業務におけるChatGPTの利用
今回の記事のmotivationは英文特許文書, 特に長文のものを効率的に読めないかという問い合わせで始まりました。専門外ですがこれまでのAI活用術が利用できそうでは?と思い記事としてまとめました。まずはいつものようにGPT自身に得意分野とそうでないものに分類してもらいました。
ChatGPTを用いた特許調査業務について機能別に分類して, さらにあなた (ChatGPT) の主観で
いいのでA-Dの4段階で得意度を評価してください。評価の理由も1, 2行でのべてください。
大きくカテゴライズするとGPTが特許の業務で補助できる項目は
とのことです。
下にサブカテゴリーとその自己評価を示します。さすがGPT要約, 分類は大の得意です。少し違和感, 重複した項目がありましたのでこちらで修正しました。一部word等微修正しています。
なるほどです。すごく分かりやすい説明でした。AI (ChatGPT) の基本原則として無理をさせない, 得意なことをしてもらうということで要約, 翻訳, ドラフト作成, 質疑応答は他の分野と同様に文句なしに活用できそうです。逆に, 競合分析, 自動解析, 自動整理, 検索など高度な処理が必要なものは外部API, pluginsを併用するか, 専用ソフト (有料) を利用した方が早いと思われます。
2.1 特許調査と知的財産戦略のサポート
この項目は, 関連する特許情報を効率的に検索し, 整理することで, 企業がその技術的なポジションを明確に把握できるよう支援, さらに, 競合他社との関係を分析し, 潜在的な問題や特許侵害のリスクを予防または回避をGPTを用いて効率化を目的とします。
・GPT+web browsing modeで検索
有機電界効果トランジスタのゲート絶縁膜の類似特許をJ-PLAT-PATで検索し
テーマコード選択, FIを検索しリンク先とともに提示してください。
他にもFタームリスト, IPC などの検索を頼んでも正確なリンクを返してくれました。一般的なブラウザ, Googleなどの検索エンジンで手動で行うよりやや便利といったところでしょうか。
ちなみにPlugin Web pilotでは検索できませんでした…
・GPTに検索式を作成しもらう方法の紹介です (↓)。
・専用ソフトです (↓)
今後, 専用ソフトやPluginsが開発されていくのではないでしょうか。
次に競合分析, 問題特許対策についてです。
現在のあなた (GPT4) では競合分析:問題特許対策, 権利侵害の回避は難しくまだまだ人間の専門家が
手動ですべき仕事ではないかと考えています。
2.2 特許情報処理と文書
この項目は特許文書の要約生成, 特許の有効性や新規性の分析, そして特許分類の自動化を含み, GPTを利用することで効率的に企業が特許データを整理し技術的ポジションを明確にすることを目的としています。
2.1と重複する項目が多くGPT単独での活用は限定的で専用のソフトの開発が期待されています。
2.3 翻訳・言語サポート
今回の記事のメインとなります。企業が英文の特許文書を効率的に理解することを目的としています。ここ最近のプラグイン, AIアシストWebアプリの性能向上により英文PDFの翻訳, 要約性能が上昇しています。のちほど詳細に解説したいと思います。
2.4 特許原案作成
この項目は, 企業が新しい発明や技術に対する特許原案を効率的に作成することを目的としています。GPTはもともとの性能で初稿 (ドラフト) や要約を迅速に生成することが可能です。またプロンプトを最適化することによって近い将来ほぼ自動で作成可能になるのではと考えています。
このあたりは以前紹介しました病歴要約自動作成の記事に通じるものがあるのではないかと思います。時間があれば特許の自動作成にも挑戦したいと思います。
2.5 特許知識強化とアイデア開発
この項目は, 特許に関連する知識の習得やリサーチ技術の向上, そしてGPTを利用して新しい発明のアイデアを効率的に生成することを目的としています。
ソフトバンクの孫氏は多い日で30件, 特許の申請をしているらしいです。
その方法は ① アイデアの壁打ち:ChatGPTと対話していくうちに新しいアイデアが生まれる ② 円卓会議:ChatGPTに複数の役割, 人格を与えて議論させ, そこから新しいアイデアを引き出すというものらしいです。
「毎日ChatGPTを使っていない人は『人生を悔い改めた方がいい』」と言われたみたいです。孫氏みたいな優秀な人は毎日使うべきでしょう。
『Garbage in, garbage out』 良いプロンプトから良い発明が生まれる。
孫氏はからは『新しい特許』が生まれると思います。筆者は毎日使っていますが『AI遊びのおもちゃ』くらいしか生まれてません…
3. 英文特許PDFの準備
3.1 英文特許検索サイト
Web browsingモードで特許がダウンロードできるサイトを教えてもらいます。
AIを用いた英文→和文翻訳のデモを目的に英文特許がダウンロードできるサイトを探しています。
外国のウェブサイトでもいいのでリンクを下さい。
3.1.1 Google Patents
『organic transistor (有機トランジスタ)』と検索して適当に英文特許をダウンロードします。
検索して一番上にでてきた特許を選びました。
『organic transistor, manufacturing method of semiconductor device and organic transistor』という題名の21ページ 1.8MB 1万1千文字のPDFファイルです。
3.2.2 Espacenet
同様にorganic transistorで検索します。
上から3番目の『ORGANIC TRANSISTOR』という題名ファイルをダウンロードしました。
46ページ 2.1 MB 文字数不明のPDFファイルでした。
3.2 英文特許PDFファイルの種類
3.2.1 テキストPDFと画像PDF
上記二つのPDFファイルは一見同じPDFですが中身は全く別物です。
①. テキストPDF
Google PatentからダウンロードしたPDFファイルはいわゆる一般的なPDFファイルです。内部がテキストファイルで構成されており, 文章の一部をコピーすることができまた, Plugin などで直接文章を読み込むことが出来ます。
②. 画像PDF
一方, EspacenetのPDFファイルは内部がテキストではなく『画像』のため直接読み込むことができずにOCR (光学文字認識) でテキストファイルに変換する必要があります。現在のOCR技術では文字の認識性能はそれほど高くなく, ChatGPTが実用レベルで文字を認識することは出来ません。
3.2.2 読み取り精度が異なる理由
もとの素材は同じPDFなのにAIで要約させたら出来るときと出来ないときがあるという経験は無いでしょうか?? たとえば先ほどのGoogle PatentからダウンロードしてきましたPDFファイルをChatPDF: Chat with any PDFで「要約してください」と頼んでも初めは出来ないと返答されました。しかし自環境でPDF化 (自分のPCで一旦テキスト化してPDFに変換) すれば大抵要約することができます。
方法はいくつかあります。
① Adbe Acrobat などのアプリケーションを使う場合。
変換に時間がかかるのであまりおすすめしませんが…
Ms word にはデフォルトでPDF変換機能がありますので 別名保存でファイルの種類を PDFに選ぶだけです。
② ブラウザなどで開きコピペ
こちらはより一般的な方法です。Adobe ReaderやEdgeなどブラウザ, PDFを開けるものならなんでも。一旦開き『Ctrl+A』やマウスで文字全体をドラッグしてコピー (Ctrl+C) します。
Wordに貼り付けて (Ctrl+V), さきほどと同様にPDFとして保存します。
さて, ここでもとのPDFは読めないのに変換しなおしたファイルは読める現象について結構前から疑問でしたので今回GPTに聞いてみました。
前回酷評したAdvanced Data Analysis ですがこういうときに役にたちます。
さきほど提示した二つのPDFをいろいろなAIで要約してもらったときに大きな差がでました。
二つのPDFの構造の問題が要約精度の差につながると考えています。
前者は特許サイトからダウンロードしてきた英文特許, 後者は自環境で再構築したPDFファイルです。
何度かやりとりして出た結論です。
要はダウンロードした特許ファイルは特殊な制作環境 (ソフト, フォント, エンコーディング) なので一旦, 自環境で作成しなおすとそれらが"リセット"されるというイメージですね。
そういう訳で前回, これまで不可能と思われていた膨大な文字数の要約が正確に出来たということですね。
↓ダイジェスト↓自環境でPDF作成することで長文要約が可能になったdemo
以前noteで紹介しました『ChatGPTの医療活用』という3万1千文字の記事の要約を試みました。まず, もとのブログの文章をワードに抽出しpdfとして書きだしました。
(noteブログ→Word→PDF)
ChatGPT+プラグイン (Mixer Box)で要約しています。
50ページ目の 3. AIの落とし穴 『出来る出来る詐欺』などについてまとめて下さい。
病歴要約の作成について解説してください。
↑ダイジェスト↑
4. 実践編 長文英語特許の要約, 翻訳
長文PDFをAIを用いて要約, 翻訳する方法は非常に多く, 何を使ったら一番効率化できるかあまり知られていません。実用レベルとそれに近いと考えているものを列挙します。
4.1 DeepL翻訳
会員登録 (無料) することで文字数の上限が増えるなどのメリットがあり, おすすめです。
「ファイルの翻訳」から手持ちのPDFを選ぶだけで全頁を一気に変換してくれます。
画像や文章などレイアウトを保ったまま全ページ, 全文章を一括で和訳してくれました。難点としては翻訳性能が他のAIと比べるとやや劣ることと, 最近知りましたが有料版 (¥1000/月) でも5ファイルしかアップロードできないことです。
しかし完全無料でも他のAIと組み合わせることで便利な読み方ができます。
PDFから特定の文章をコピーします。
Shaperに貼り付けると自動で改行がなくなり連続した文章になります。「DeepLで翻訳」をクリックします。
非常に精度の高い翻訳が可能です。会員登録 (無料版) で一度に翻訳できる文字数の上限は5000文字です。
さらにこの文章のうちさらに気になる箇所, 疑問に思う箇所をChatGPTにコピペすることで内容の要約, 対話が可能です。
一度にやり取りできる文字数 (トークン上限4096) は2500文字程度と言われ, それ以上の文字数になると精度が落ちます。ChatGPT (特にGPT4の場合) なので対話性能は高く, 専門的な質問に対しも的確に答えてくれます。
電子密度に関しての具体的な記述, 大気中の安定性, ゲート絶縁膜の具体的な化合物に関して
記載はありましたか? また, ソース電極, ドレイン電極に関して専門外にもわかるように
説明してください。
4.2 Google翻訳
完全無料でできることが利点です。完全無料で思い出しましたが無料でAIアシストスライド作成するツールもGoogleが群を抜いているような気がします。
↓ Slides AI ↓
Google翻訳もDeepLにそこまで劣らない性能です。
長文PDFを一括翻訳する場合は前述の行程 (PDF→Word→PDF) を踏む必要があります。
繰り返しになりますがまずはPDFファイルを開き全体をコピー (Ctrl+A→Ctrl+C) します。
Wordにペーストします。
例のごとく改行が無数に表れて非常に読みにくいです。このままでも翻訳出来ますが気になりますので『改行』を取り除きたいと思います。文字数が膨大 (1万単語超) のためshaperでは不可なのでWordの機能を使います。
全ページの全行の『改行』が無くなり読みやすくなりました。ついでにページ数も半分位 (40p→20p) になりました。
Wordのファイル保存→PDFで保存します。出来上がったPDFをGoogle翻訳のサイトに行き
ドキュメント→翻訳 をクリックします。全文の翻訳が一度にできました。日本語訳のニュアンスの違和感がありますが全単語を忠実に和訳してくれています。
この手法の難点は翻訳性能がやや劣ること, 改行除去の手間が面倒くさいことコピペの段階で画像が無くなってしまったので文字だけの再現でレイアウトが保たれていないことです。それらのデメリットを考慮しても数万文字の一括翻訳は価値はあるかと思います。
※PubMedなどの英語論文
PDFファイル内部の構造がシンプルなので上記の行程 (PDF→Word→PDF) を行わなくてもワンクリックで一括和訳できます。
何個かファイル (最大2万文字程度) を試しましたが安定して翻訳可能でした。しかも画像などのレイアウトも保ったままです。
4.3 ChatGPT+プラグイン
前述2種の方法とは全く異なる手法です。ChatGPTの特性上, 全文の忠実な翻訳はできません。しかし, 文章全体から特定のChapter, 段落, key wordを参照し, それに関する要約や疑問点の相談などが出来るという大きなメリットがあります。
お勧めプラグインはAsk YourPDFとMixerBoxです。この二つは得意分野が微妙に違うみたいです, 今回はAsk YourPDFがうまくいったので主にこちらを紹介します。
使い方ですが, 有料プラグイン, ChatGPT plusに加入している ($20/月) 方向けです。
プラグインストア (Plugin store) からAskYourPDFを選びインストール (Install) します。以下の専用のサイトからリンクIDを作成します。
中央の四角に手持ちのPDFをドラッグ&ドロップしてしばらく待ちます。
特許のホームページからダウンロードしてきたPDFを読んでみます。
ID (青で囲まれた結構な桁の英数字) が出来上がりましたらリンク (上の赤で囲まれた□が二つ重なったマーク) を押すとコピーされます。GPTのChat欄にペーストして要約するようにプロンプトします。
無料版では1日3ファイルまで, 1ファイル100ページ, 1ファイル当たりのサイズは15MBまでです。明確な文字数の上限は無かったと思います。
使い方です。ChatGPTでプラグインを有効にします。
4.3.1 ①オリジナルPDF
まずはGoogle Patentsからダウンロードしてきた「そのままの」PDFを要約します。
Ask YourPDF で以下の文献を参照して日本語で要約してください。
9aebe657-5503-42af-b8b0-d3d0■■■■■■■■■■
文章全体の要約ではなく序盤のabstractを和訳して要約したものです。
しかし, 特許文書の質問に対しては専門的内容でも正確に返答してくれます。
N型有機半導体の方が好まれる利点は何ですか?
大気中, 水分に対して極めて不安定というデメリットがあるはずです。
また, 電界効果移動度はどれくらいですか。具体的な有機化合物は何が選ばれていますか。
微妙にずれていましたが特許文書のどのページに記載してあったかも教えてくれました。
ゲート絶縁層に用いられる素材およびその特性について詳細に解説してください。
4.3.2 ② 再変換したPDF
次は自分のPCで一旦wordなどでテキストファイルに変換後, PDFに再変換したものになります。
先ほどと全く同じ質問をしてみました。
N型有機半導体の方が好まれる利点は何ですか?
大気中, 水分に対して極めて不安定というデメリットがあるはずです。
また, 電界効果移動度はどれくらいですか。具体的な有機化合物は何が選ばれていますか。
ゲート絶縁層に用いられる素材およびその特性について詳細に解説してください。
精度はこちらの方が高いと思われます。また, この手法の利点として文字数が膨大 (数万文字) でも安定性, 再現性が高く①オリジナルPDFで読み込みができなかった他のプラグインでも出来ました。Mixer Boxというプラグインで同じ質問をしてみます。
今回はAsk YorPDFが全体的に解答精度は良かったです。
4.3.3 さらに長文の英語特許
Google Patentsの特許文書は10-20ページのものが多いです。『AI (人工知能)』で検索して今回見つけた中で一番長かった60ページのファイルに挑戦してみます。
60ページ, 3万単語超の英語長文特許です。
グラフベースのAIトレーニングという面白そうな題材ですが英語で一から読んでいたら途方もなく時間を費やしそうです。これをそのままGoogle翻訳にかけてみました。
日本語訳は一応できているみたいですがレイアウトがめちゃくちゃで全く読めません。
これまでと同様にwordからpdfに再変換します。
Google翻訳に入れます。
一応全文の和訳が一気に出来ました。
つづいてAsk YourPDFでリンク作成します。文字数, ページ数が膨大ですが, ファイルサイズが0.8MBと小さいのでいけそうです。
Ask YourPDFで参照してください。どのようなことがかかれていますか。
481a8eb9-343f-4df3-a764-3a9■■■■■■■■■■
AIシステムのトレーニングと操作を高速化および/または改善するための次元の要約と
迅速な次元のクエリの提供に関する方法論の詳細を述べてください。
またその内容は何ページに記載がありましたか?
いくつか質問しましたが全て正確な内容でした。
5. まとめ
長文英文ファイルをPythonや外部ツールを使わずに比較的簡単, 無料 (GPT plusは有料ですが…) に翻訳する方法を紹介しました。特に英文特許はPDFの内部構造が複雑 (もともとAIに解析されることを目的に作っていないと思われフォント, エンコード, レイアウト, 作成ツール等が特殊) なため簡単には和訳できません。以下の方法でうまくいきました。