PDFSデータ抽出がまだデータの専門家にとって悪夢である理由

クレジット:ゲッティイメージズを通してキリルム
ただし、最近のテストによると、これらのプロモーションの主張は、現実の世界を常に見ているわけではありません。 「私は通常、ミストラルモデルのかなり大ファンですが、彼らが先週リリースした新しいOCR固有のファンは本当にひどく演奏しました」とウィリスは言いました。
「同僚がこのPDFを送って、私が彼が含まれるテーブルを分析するのを手伝うことができるかどうか尋ねました」とウィリスは言います。 「複雑なレイアウト要素を備えたテーブルを備えた古いテーブルです。新しい [Mistral] OCR固有のモデルは本当にひどく機能し、都市の名前と多くの数字を繰り返しました。 」
AI AIA Doriaの開発者は最近、原稿を理解する能力を備えたX欠陥を指摘し、「残念ながら、ミストラル-crはまだ通常のVLMの呪いを持っています。
Willis Googleによると、AIモデルは現在、ドキュメントを読むことができるように実行されています。
ジェミニのパワーは、主に広範なドキュメント(「コンテキストウィンドウ」と呼ばれる短期メモリのタイプで)処理する能力に起因しています。ウィリスは、特に重要な利点として発言します。この能力は、より堅牢な手書きのコンテンツと組み合わさって、Googleモデルに、現実世界のドキュメントの処理タスクよりも実際的な利点を与えているようです。
LLMに基づく短所OCR
彼の約束にもかかわらず、LLMSはドキュメント処理にいくつかの新しい問題を提示します。その中には、converめや幻覚(信頼できるサウンドが誤った情報)を導入したり、テキストの指示にランダムに従ったり(ユーザーチャレンジの一部であると考えてください)、または一般的にデータのみを誤って解釈することができます。
ソース参照
#PDFSデータ抽出がまだデータの専門家にとって悪夢である理由