avatar

谢佳龙(Jialong Xie)

山东大学博士研究生,是一位喜欢骑行、徒步、记录生活的人生体验家. A Ph.D. candidate at Shandong University, I am a life enthusiast who enjoys cycling, hiking, and documenting the little moments of my life.

个人简介 Short Bio

目前正在山东大学控制科学与工程学院攻读博士学位, 研究方向语言引导的机器人目标分割与抓取姿态估计.
I am studying for a PhD in the School of Control Science and Engineering of Shandong University, researching language-conditioned robot object image segmentation and grasp pose estimation.

在生活中,我尝试做一名冒险家,目前对徒步、露营、土坡车、健身、养宠物感兴趣,喜欢通过相机记录自己生活的点点滴滴,希望抓住最后这一点快乐的读书时光和为数不多的青春,多尝试不一样的东西。
In life, I am an adventurer, currently trying hiking, camping, dirty jumping in mountain biking, fitness, pet and other activities. I like to capture the little moments of my life through my camera, hoping to seize these last joyful moments of my student days and the fleeting youth to try as many different things as possible.

感兴趣领域 Interests

  • 服务机器人
    Service Robots

  • 大模型
    Large Language Model

  • 多模态
    Multimodaity

  • 人机交互
    Human-Robot Interaction

  • 具身操作
    Embodied Manipulation

  • 计算机视觉
    Computer Vision

教育经历 Education

  • 2015年9月-2019年6月:杭州电子科技大学自动化学院获得学士学位
    September 2015 - June 2019: B.S. Degree from School of Automation, Hangzhou Dianzi University
  • 2022年7月-2022年9月:俄罗斯ITMO大学控制系统与机器人国际夏令营
    July 2022 - September 2022: International Summer School for Control Systems and Robotics, ITMO University, Russia
  • 2019年9月-2022年6月:杭州电子科技大学自动化学院获得硕士学位
    September 2019 - June 2022: M.S. degree from School of Automation, Hangzhou Dianzi University

学术论文 Publications

  • J. Xie, J. Liu, Z. Zhu, C. Wang, P. Duan and F. Zhou, “Infusing Multisource Heterogeneous Knowledge for Language-Conditioned Segmentation and Grasping,” in IEEE Transactions on Instrumentation and Measurement, vol. 73, pp. 1-11, 2024.
  • J. Xie, J. Liu, S. Huang, C. Wang and F. Zhou, “Listen, Perceive, Grasp: CLIP-Driven Attribute-Aware Network for Language-Conditioned Visual Segmentation and Grasping,” in IEEE Transactions on Automation Science and Engineering, doi: 10.1109/TASE.2024.3510777.
  • Xie J, Liu J, Wang G, et al. SATR: Semantics-Aware Triadic Refinement network for referring image segmentation[J]. Knowledge-Based Systems, 2024, 284: 111243.
  • J. Xie, F. Zhou, J. Liu and C. Wang, “Semi-Supervised Language-Conditioned Grasping With Curriculum-Scheduled Augmentation and Geometric Consistency,” in IEEE Robotics and Automation Letters, vol. 10, no. 4, pp. 4021-4028.
  • Xie J, Zhang B, Lu Q, et al. A Dynamic Head Gesture Recognition Method for Real-time Intention Inference and Its Application to Visual Human-robot Interaction[J]. International Journal of Control, Automation and Systems, 2024, 22(1): 252-264.
  • 谢佳龙,张波涛,吕强.一种基于双流融合3D卷积神经网络的动态头势识别方法[J].电子学报,2021,49(07):1363-1369.
  • J. Liu, J. Xie, L. Xiao, C. Wang and F. Zhou, “Hierarchical Multi-Modal Fusion for Language-Conditioned Robotic Grasping Detection in Clutter,” in IEEE Robotics and Automation Letters, vol. 9, no. 10, pp. 8762-8769.
  • J. Liu, J. Xie, S. Huang, C. Wang and F. Zhou, “Continual Learning for Robotic Grasping Detection With Knowledge Transferring,” in IEEE Transactions on Industrial Electronics, vol. 71, no. 9, pp. 11019-11027..
  • J. Liu, J. Xie, F. Zhou and S. He, “Question Type-Aware Debiasing for Test-Time Visual Question Answering Model Adaptation,” in IEEE Transactions on Circuits and Systems for Video Technology, vol. 34, no. 11, pp. 10805-10816, Nov. 2024.
  • Liu J, Xie J L, Zhou F, et al. Triadic temporal-semantic alignment for weakly-supervised video moment retrieval[J]. Pattern Recognition, 2024, 156: 110819.

项目经历 Project Experience

  • 山东省重点研发计划(乡村振兴科技创新提振行动计划)项目:宜居宜业和美乡村关键技术集成与综合应用示范(2023TZXD018), 2023.9 - 2026.8.

    负责视觉-语言图像目标分割与机器人抓取姿态估计,主要完成项目多模态感知:

    (1)设计指代目标图像分割模型,使用Swin Transformer做视觉编码器、RoBERTa做语言编码器,设计语言引导的像素解析模块,在Swin Transformer中实现语言特征融入,结合边界、细节与显著特征实现三元特征融合,构建多任务训练损失;

    (2)微调CLIP模型作为视觉与文本编码器,实现复杂场景下隐式文本-图像对齐特征提取,通过GPT-4生成实体常识知识并设计异构多源知识融合策略,构建高精细度解码器结构,实现混乱场景下的多模态感知。

    (3)为提高少量语言-视觉数据训练的有效性,构建基于课程学习计划的数据增强方案,设计学生-教师知识蒸馏网络,并构建视觉几何一致性正则策略。相关工作整理论文4篇。

  • 美团机器人研究院科研合作项目:基于具身智能的混乱场景自适应持续抓取方法研究, 2024.3 - 2025.3.

    主要负责基于大模型的机器人行为控制与决策代码生成,主要完成构建大模型-机器人结合的Agent框架,使用GPT-4作为大模型基础构建Prompt工程,将机器人感知信息(目标位置、语音指令等)作为动态输入Prompt、定义机器人API手册作为Tool-Use Prompt并迭代选择Top-K个优秀历史行为数据作为CoT与Memory Prompt,使用GPT-4补充感知目标的常识知识信息并构建场景知识图谱,实现机器人在目标遮挡下的细粒度信息感知和自主目标探索。相关成果整理成了论文1篇。

  • 济南市“新高校20 条”资助科研带头人工作室项目:机器人超融合云服务平台实用化关键技术研究(2021GXRC079), 2022.1.1 - 2024.12.31.

    主要负责基于ChatGLM的服务机器人故障诊断问答系统构建,完成设计服务机器人云平台故障诊断智能助手,构建用于的SFT和RLHF阶段的基于Alapace格式的服务机器人故障-问题数据集,并基于GPT-4进行优化和拓展数据集,使用ChatGLM3-6B作为基础大模型,在LLaMA-Fractory平台上对其进行LoRA微调和DPO对齐,实现了服务机器人故障诊断智能问答系统。

  • 浙江省重点研发计划项目:面向养老助残任务的刚-柔-软集成协作机器人设计及智能控制(2019C04018), 2019.9 - 2022.9

    负责视频动作识别与基于人类反馈的机器人决策生成方案设计,主要实现视频分析与个性化交互算法设计:

    (1)设计基于视频流的动态头势识别算法,基于Tensorflow构建双流3DCNN网络,实现视频流下的实时动态头势识别,并部署在RTX3060服务器与英伟达Jetson TX2开发板;

    (2)使用头势识别与表情识别作为显式和隐式的奖励函数模型,使用机器人行为模型作为动作空间,通过人类情感反馈训练DQN模型,实现了机器人主动和被动地做出服务决策。相关工作整理成论文2篇。

  • 企业合作项目:无人驾驶汽车模拟系统开发, 2020.12 - 2021.6.

    负责无人驾驶感知决策方法开发,主要实现:

    (1)基于松灵底盘搭建无人驾驶平台,基于ROS实现Intel NUC工控机与英伟达Jetson Xavier的双机通讯,其中NUC实现数据采集与预处理,Xavier实现视觉模型推理;

    (2)基于YOLO实现红绿灯、行人等目标数据采集与微调,并在Xavier和ROS进行部署(3)基于C++完成车道线检测,并利用PID、KCF和卡尔曼滤波算法实现车道线跟踪。

实习经历 Intern Experience

  • 阿里巴巴菜鸟集团:自动驾驶大模型算法工程师

    (1)跟进最新自动驾驶VLA模型,复现OmniDrive、Orion等VLA架构

    (2)搭建Nuscenes、Bench2Drive等自动驾驶开环和闭环测试环境

    (3)设计基于LLM(VLM)-Diffusion融合架构的VLA模型(提升实时性),针对图像、文本、车辆状态等多模态数据,基于Qwen-3B设计多行为专家的MoE架构行为推理架构,基于不同场景下自适应思维链行为推理方案设计,设计基于diffusion架构的驾驶多模轨迹生成

荣誉与奖励 Honors and Award

  • 第十七届全国数学建模三等奖 2020年
  • 第十七届浙江省挑战杯三等奖 2021年
  • 杭州电子科技大学优秀毕业生 2022年
  • 第五届全国人工智能创新大赛一等奖 2023年
  • 第六届全国人工智能创新大赛三等奖 2024年
  • 第十九届电子设计竞赛初赛二等奖 2024年
  • 比亚迪学业奖学金 2024年
  • 2024年度优秀研究生

进一步了解我 About

研究 Research

相册图片
基于大模型的具身操作,让机器人感知-决策-操作一体,解决复杂混乱场景下视觉混淆和遮挡问题。
相册图片
基于视频的动态头势识别,加强机器人与让失语人员沟通。
相册图片
视觉-语言图像目标分割与抓取检测,增强任务导向能力和理解能力,实现人-机-物有效结合。
相册图片
基于头势-表情-语音融合的人机交互与机器人控制。
相册图片
无人驾驶示教系统,搭建模拟驾驶环境,完成无人车的感知、决策与控制
相册图片
基于移动机械臂的水果采摘示教系统,实现水果的识别与移动机械臂的控制与抓取

回忆 Memory

图片详细信息
我驾驭着速降自行车,在城市和山林间划出一道速度与激情的闪电,每一次跃动都是对重力的挑战,每一次冲刺都是对心跳的颂歌。
图片详细信息
在学术会议上,我用数学的语言跨越国界,在学术的殿堂中激起共鸣的涟漪。
图片详细信息
在星空下,我与自然亲密相拥,帐篷如同一叶孤舟,承载着夜的宁静与梦的呢喃,静待晨曦的第一缕光辉。
图片详细信息
在蜿蜒的山径上,我以脚步丈量大地的脉搏,悬崖之巅,我以心灵触摸云端的自由,每一次呼吸都是与自然的对话。
图片详细信息
在圣彼得堡的涅瓦河畔,我的心灵在异国天空下自由翱翔,访学之旅不仅是对知识的追寻,更是对世界多样性的深情拥抱。