Skip to content
View kaixindelele's full-sized avatar
🎯
Focusing
🎯
Focusing
Block or Report

Block or report kaixindelele

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Please don't include any personal information such as legal names or email addresses. Maximum 100 characters, markdown supported. This note will be visible to only you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
kaixindelele/README.md

Hi there is kaixindelele 👋

寻求一份LLM相关的大厂工作。目前正在准备校招,暂时不考虑实习,除非 条件非常契合。

简历详情

Yongle Luo

电子邮箱:lyl1994@mail.ustc.edu.cn
作品链接:Github (19000+ stars)
博客链接:知乎:强化学徒 (19K 关注)

求职意向

RLHF,or 基于LLM的具身智能, or LLM+长文本总结和对话等落地应用,or LLM+Robot or Auto+

期望能有机会进入大厂的核心团队,或者中厂的有钱团队。

教育经历

郑州大学 | 自动化 | 本科 | 2013-2017

中国科学技术大学 | 模式识别与智能系统 | 研二转博;博士四年级在读 | 2017-至今

研究经历

深度强化学习代码库DRLib

  • 基于Spinning UP封装的深度强化学习算法:DQN、DDPG、TD3、SAC、PPO、PER、HER等。
  • 深度强化学习算法链接:DRLib (438 stars)

稀疏奖励矫正密集奖励的强化学习

  • 论文综合稀疏奖励全局收敛但效率低下以及密集奖励收敛快但容易局部最优的特点,提出dense2sparse解决方案,兼顾二者的优势,同时提高探索效率和最终性能。
  • 《Balance Between Efficient and Effective Learning: Dense2Sparse Reward Shaping for Robot Manipulation with Environment Uncertainty 》(共一,机器人会议 2022 AIM,Oral Presentation)
  • 23年改进版《D2SR: Transferring Dense Reward Function to Sparse by Network Resetting》,有效解决多奖励函数切换的稳定性问题,性能大幅提升,大幅降低奖励函数设计要求(一作,机器人EI会议RCAR, Oral,非常有意思的工作)

乒乓球仿真搭建和真机验证—深度强化学习的单步决策高效学习

  • 基于Mujoco物理引擎的乒乓球击球平台,实现与真机类似的击球效果。将击球任务建模成单步强化,利用HER的重标记获得完美样本,用于自我引导探索,实现对数据的高效利用。真机验证结果显示200个回合可以实现92%的落点成功率。
  • 《SIRL: Self-Imitation Reinforcement Learning for Single-step Hitting Tasks》(一作,CAA,A类会议,ARM)

自我引导持续强化学习—彻底解决深度强化学习,在稀疏奖励下复杂序列任务中效率低下的问题

  • 首次提出自我引导探索的强化学习框架。面对奖励反馈稀疏的复杂任务,该算法可以让智能体从失败中提取有效信息,积极探索,不断积累优势,最终实现高效学习。在一到三物体的各类操作任务中都取得极高探索效率,真机实验从零开始训练仅需250回合即可达100%成功率,是本人博士期间最有学术价值的工作。
  • 在此基础上的另外一个侧重于策略优化的工作正在撰写,可以使得样本效率再次提高60%以上。
  • 代码已开源:RHER; 论文已在ArXiv公布:Relay Hindsight Experience Replay(一作,NeuroComputing, 二区Top,已接收)

证书及项目经历

  • 证书:英语四六级、心理咨询师三级
  • 项目经历:
    • 开源ChatPaper,获得16.0K star,GitHub连续三天热榜第五,月活60W,注册用户7W。
    • 开源ChatOpenReview项目:1. 利用langchain实现基于数据库的审稿回复辅助;2. 基于deepspeed做模型SFT;3. 借助搜索引擎,实现全局文献库的审稿。
    • 基于Spinning UP封装的深度强化学习算法:DQN、DDPG、TD3、SAC、PPO、PER、HER等(DRLib 438 star)。
    • 基于强化学习的竞技型乒乓球机器人运动控制系统研发(横向,148w,本人负责 仿真系统搭建和强化算法)
    • LLM+Robot技能库的研发ing,已实现技能库的开发和初步验证。
    • ChatSensitiveWords,利用敏感词库+LLM实现弹性敏感词检测。兼顾效果和速度。

自我评价

  • 熟练掌握经典深度强化学习算法,拥有丰富的机器人仿真和真实系统搭建经验。
  • 品行良好,为人坦率靠谱。工程能力强,编程基础扎实,但没有系统做过算法题,可结合GPT4快速开发。
  • 擅长将人类学习经验应用于人工智能领域,科研能力优秀,拥有丰富的团队合作经验,热爱开源、技术分享和教学。
  • 希望能结合大模型的文本能力,做高等教育的AI辅助,或者LLM+RL的微调,或者LLM的其他应用。

Pinned

  1. RHER RHER Public

    The official code for paper “Relay Hindsight Experience Replay: Self-Guided Continual Reinforcement Learning for Sequential Object Manipulation Tasks with Sparse Rewards”

    Python 123 10

  2. ChatPaper ChatPaper Public

    Use ChatGPT to summarize the arXiv papers. 全流程加速科研,利用chatgpt进行论文全文总结+专业翻译+润色+审稿+审稿回复

    Python 17.8k 1.9k

  3. hzeyuan/OpenGPTS hzeyuan/OpenGPTS Public

    OpenGPTs- Powerful GPTs Colipot | 强大的gpts浏览器插件|多窗口|批量对话|chatgpt3.5|chatgpt4.0

    TypeScript 156 10

  4. DRLib DRLib Public

    DRLib:A concise deep reinforcement learning library, integrating HER and PER for almost off policy RL algos.

    Python 491 70

  5. ChatOpenReview ChatOpenReview Public

    Crowdfunding open source projects: use OpenReview's high-quality review data to fine-tune a professional review and response LLM. 众筹开源项目:利用OpenReview的优质审稿数据,微调出一个专业的审稿和审稿回复GPT

    Python 195 12

  6. ChatSensitiveWords ChatSensitiveWords Public

    利用LLM+敏感词库,来自动判别是否涉及敏感词。

    Python 83 12