ChatGPT 4.0使用之论文阅读

文章目录

    • 阅读环境准备
      • 打开AskYourPDF
      • 进入主站
    • 粗读论文
      • 直接通过右侧边框进行提问
      • 选中文章内容翻译或概括
      • 插图的理解
    • 总结

拥有了GPT4.0之后,最重要的就是学会如何充分发挥它的强大功能,不然一个月20美元的费用花费的可太心疼了(家境贫寒,哭)。这里简单记录一下GPTs插件:AskYourPDF的使用。

注意:这个只能作为论文阅读的辅助工具,可以帮你快速的过一下文章,GPT给出的结果并不一定完全准确,尤其是理论推导部分,想要深入学习文章的内容必须得自己看文章内容。而且实测插件对中文的支持不友好。

阅读环境准备

很多同学可能不会注册ChatGPT4.0,可以参考一下链接
https://zhuanlan.zhihu.com/p/684660351
https://chenmmm07.github.io/chenmmm07/2024/02/03/gpt-register/

打开AskYourPDF

点击网页端左侧边栏”探索GPTs“,单击该插件

进入主站


刚开始提问它会询问你是否访问AskYourPDF主网站,直接点击确认

然后会先给你一个回答,回答的后面会给一个主站的链接,点击进入


进入主站后点击对应的文章并新建会话

粗读论文

可以在右上角选择适合自己的语言,推荐英文,中文的效果会差很多,甚至直接无法回答

直接通过右侧边框进行提问

选中文章内容翻译或概括


输出的内容会在右边栏进行展示。比较难受的是当你使用中文时这些操作可能是无法执行的,提示”抱歉,我无法提供中文答案“,对于文中内容的理解也不如使用英文提问。

插图的理解

可以点击”explain images“,截取想要的图片提问,实测使用英文prompt效果确实会好很多,以下是具体例子:

  • 中文prompt:请描述这幅图具体做了什么,要求:解释每个模块的输入输出,并回答该模块的作用
  • 英文prompt:Please describe what exactly this diagram does, and ask for an explanation of the inputs and outputs of each module, and an answer about what the module does
替代文本
截图内容
  • 中文回答
这幅图展示的是Transformer模型的整体架构,包括编码器(左侧)和解码器(右侧)。编码器:
- 输入:序列的输入嵌入(Input Embedding)。
- 过程:输入嵌入会与位置编码(Positional Encoding)相结合,使模型能捕捉到序列中词汇的顺序信息。之后,输入会通过N层相同的结构,每层包含两个子模块:多头注意力机制(Multi-Head Attention)和前馈全连接网络(Feed Forward)。每个子模块的输出都会经过一个残差连接(Add & Norm)。
- 输出:编码器的输出是输入序列的一个高层次的表征,这个表征会传递给解码器。解码器:
- 输入:序列的输出嵌入(Output Embedding)。
- 过程:输出嵌入首先经过右移(shifted right),同样结合位置编码后输入到解码器的N层结构中。每层包括三个子模块:屏蔽的多头注意力机制(Masked Multi-Head Attention)、多头注意力机制(和编码器的输出有关联)及前馈全连接网络。与编码器类似,每个子模块都有一个残差连接。
- 输出:解码器的输出经过线性变换(Linear)和softmax函数,得到最终的输出概率分布(Output Probabilities),即对下一个可能输出的预测。每个模块的作用:
- 多头注意力(Multi-Head Attention):让模型在计算注意力时能够综合不同子空间的信息。
- 前馈全连接网络(Feed Forward):每个位置上应用相同的全连接网络,用于非线性变换。
- 残差连接和
  • 英文回答
This diagram represents the model architecture of the Transformer, a neural network architecture that relies entirely on self-attention mechanisms for natural language processing tasks.The Transformer consists of two main sections: the encoder (on the left) and the decoder (on the right).**Encoder:**
- Inputs: The raw input tokens are first converted into fixed-size vectors through the "Input Embedding" layer.
- Positional Encoding: These vectors are then combined with "Positional Encoding" to retain the order of the tokens.
- Multi-Head Attention: This module allows the encoder to focus on different positions of the input sequence, enabling the model to learn the relevance of all other tokens with respect to each token in the sequence.
- Add & Norm: The output of the multi-head attention is normalized and added back to the input (residual connection) to facilitate deep stacking of layers without the vanishing gradient problem.
- Feed Forward: A feed-forward neural network is applied to each position separately and identically; this consists of two linear transformations and a ReLU activation in between.
- The components from Multi-Head Attention to Feed Forward are stacked N times (as depicted by Nx), which allows for greater abstraction of the input features at each level.**Decoder:**
- Outputs (shifted right): The target sequence tokens are similarly embedded and positionally encoded. However, they are shifted right to ensure the prediction for position `i` can only depend on positions before `i`.
- Masked Multi-Head Attention: This module is similar to the encoder's multi-head attention but prevents each position from attending to subsequent positions during training to preserve the auto-regressive property.
- Multi-Head Attention: In this layer, the decoder attends to the encoder's output. This allows the decoder to focus on relevant parts of the input sequence.
- Add & Norm: Similar to the encoder, the outputs of attention layers are normalized and added back to the input of that layer.
- Feed Forward: As with the encoder, a position-wise feed-forward network is applied.
- The components from Masked Multi-Head Attention to Feed Forward are also stacked N times.
- Linear: A final linear transformation converts the decoder output to a size suitable for the next step.
- Softmax: The linear layer's output is converted to a probability distribution over possible output tokens using a softmax function.The final output is the probability distribution of the next token in the sequence, given the previous tokens in the output sequence and the entire

总结

对于不介意看英文的同学来说是一个很不错的工具,只可惜对中文的支持还是比较欠缺,当然这个不是插件的问题,而是GPT本身对中文就不够友好,希望之后的版本可以加强一下这方面吧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/508102.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Sora:引领A股市场的AI革命

OpenAI发布的文生视频模型Sora对A股市场产生了显著影响。Sora模型能够根据文本提示生成长达一分钟的逼真视频,这一技术突破在资本市场引起了广泛关注。Sora的发布导致相关概念股在A股市场上出现了显著上涨。例如,据报道,Sora发布后&#xff0…

【数据结构】_包装类与泛型

目录 1. 包装类 1.1 基本数据类型和对应的包装类 1.2 (自动)装箱和(自动)拆箱 1.2.1 装箱与拆箱 1.2.2 自动(显式)装箱与自动(显式)拆箱 1.3 valueOf()方法 2. 泛型类 2.1 泛…

MATLAB环境下基于图像处理的计算病理学图像分割(MATLAB R2021B)

人工智能是病理学诊断和研究的重要新兴方法,其不仅可用于病理形态数据分析,还可整合免疫组化、分子检测数据和临床信息,得出综合的病理诊断报告,为患者提供预后信息和精准的药物治疗指导。计算病理学是病理学与AI、计算机视觉等信…

Mistral AI 的大语言模型怎么样?

对用户来说,更多的选择没坏处;如果这个选择本身还很优质,那就更棒了。 对话 早上,我收到了 Mistral 发来的邮件,提示我拥有了访问 Le Chat 的权限。 我一时觉得很奇怪,什么是 Le Chat? 然后我才…

深度学习需要掌握哪些数学基础?

《深度学习的数学》这本书再合适不过了。作者罗纳德.T.纽塞尔(Ronald T. Kneusel),拥有超过 20年的机器学习行业经验。 本书适合有一定深度学习基础、了解Python编程语言的读者阅读,也可作为用于拓展深度学习理论的参考书。 为什么…

STM32(8)NVIC编程

中断源由部分片上外设产生 在misc.h中找,杂项 配置NVIC GPIO和AFIO不能产生中断源,但能通过EXTI,由EXTI产生中断源 NVIC不需要开启时钟,因为NVIC模块位于内核内部,芯片一上电就能工作。 中断响应函数 中断向量表在启…

韦东山嵌入式Liunx入门驱动开发五

文章目录 一、驱动程序基石1-1 休眠与唤醒1-2 POLL机制1-3 异步通知(1) 异步通知程序解析(2) 异步通知机制内核代码详解 1-4 阻塞与非阻塞1-5 定时器(1) 内核函数(2) 定时器时间单位 1-6 中断下半部 tasklet 本人学习完韦老师的视频,因此来复习巩固,写以…

【HTML】HTML基础6.2(表格之合并单元格)

目录 合并单元格效果 与<> ​编辑 合并属性 使用方法 步骤总结 合并单元格效果 代码 <table align"center" border"2"><thead><tr><th>演员</th><th>成就</th><th>剧照</th></tr>&l…

二维码门楼牌管理系统技术服务:二维码技术深度解析

文章目录 前言一、二维码的清晰度与准确性二、二维码的规格与容错率三、二维码门楼牌管理系统的应用与优势 前言 随着科技的进步&#xff0c;二维码技术在我们的日常生活中扮演着越来越重要的角色。尤其在门楼牌管理系统中&#xff0c;二维码技术的应用更是为城市管理带来了革…

3D数字孪生

数字孪生&#xff08;Digital Twin&#xff09;是物理对象、流程或系统的虚拟复制品&#xff0c;用于监控、分析和优化现实世界的对应物。 这些数字孪生在制造、工程和城市规划等领域变得越来越重要&#xff0c;因为它们使我们能够在现实世界中实施改变之前模拟和测试不同的场景…

Learning from Unlabeled 3D Environments forVision-and-Language Navigation

这篇论文是关于高级指令的 摘要 在视觉和语言导航 (VLN) 中&#xff0c;实体代理需要按照自然语言指令在真实的 3D 环境中进行导航。现有 VLN 方法的一个主要瓶颈是缺乏足够的训练数据&#xff0c;导致对未见过的环境的泛化效果不理想。虽然 VLN 数据通常是手动收集的&#x…

Java集合-ArraysLIst集合

集合是“由若干个确定的元素锁构成的整体”&#xff0c;在程序中&#xff0c;一般代表保存若干个元素(数据)的某种容器类。在Java中&#xff0c;如果一个Java对象可以在内部持有(保存)若干其他Java对象&#xff0c;并对外提供访问接口&#xff0c;我们把这种Java对象的容器称为…