据WHO统计,仅2020年全球就有220万新发肺癌患者,约占所有新发癌症患者的11.4%,肺癌新发死亡人数约180万,约占所有癌症患者的18%[1]。约85%的肺癌患者被确诊时已为晚期,其5年存活率仅为3.5%[2,3]。目前,常规的肺癌检测技术包括计算机断层扫描(CT)、胸部X射线(CXR)、痰细胞学检查、低剂量CT (LDCT)和活检。然而,这些方法存在入侵性、假阳性高和辐射暴露风险等缺点[4-6]。因此寻找一种快速、非侵入、无辐射且经济有效的早期肺癌检测技术迫在眉睫。
近年来,呼气诊断由于其无创性、样品易得、患者可接受程度高和灵敏度高等优点,在肺癌及肺部炎症患者领域的应用备受关注。气相色谱-质谱联用法(Gas chromatography-mass spectrometry,GC-MS)作为传统的挥发性有机物(Volatile organic compounds,VOCs)分析方法在呼气VOCs标志物筛查领域的应用也日益拓展。早在1985年,Gordon等[7]首次采用气相色谱-质谱法对肺癌患者呼气中VOCs进行了检测分析,引发了人们对呼气VOCs用于肺癌诊断的探索。谢少华等[8]应用GC-MS研究了呼出气VOCs对50岁以下人群患良/恶性肺结节的预测价值,发现环戊烷、3-甲基戊烷和乙苯可以作为区分肺结节良/恶性的特征性VOCs。Zou等[9]研究发现将机器算法和呼气分析相结合,置信样本区分肺癌患者和健康志愿者的准确率可达93%。茹立华等[10]应用TD-GC-MS探究79名肺癌患者和101名健康志愿者,检测到10种特征性VOCs,其模型准确率为96.25%。然而,肺癌呼气特征性VOCs的分析和筛查与样本量大小和实验队列设计等因素密切相关,先前的研究大多单纯地将健康对照和肺癌患者进行了比较[9,11-13],缺乏肺癌与其他癌症特征性VOCs的筛选和对比,可能导致一些特征性VOCs出现假阳性的结果。
基于此,本研究将应用热脱附-气相色谱-质谱联用法(TD-GC-MS)对肺癌患者的呼气VOCs进行定性定量分析,并通过与乳腺癌患者和健康对照组呼气VOCs比较,运用统计学的方法研究肺癌患者呼气VOCs与乳腺癌患者及健康人群的呼气VOCs的差异性,筛查肺癌患者的呼气特征性VOCs,运用机器学习模型决策树(DT)、逻辑回归(LR)、支持向量(SVM)和朴素贝叶斯(NB)验证这些特征性VOCs的准确性并探究其来源和代谢途径,为呼气诊断运用于肺癌提供新的思路和方法。
BPG-9070A型鼓风干燥箱(上海一恒科学仪器有限公司);QP2020 NX型GC-MS分析仪(岛津企业管理有限公司);U-KORI-XR型热脱附仪(英国Markes国际有限公司);1 L Tedlar袋(大连德霖有限公司)。
高纯氮气、高纯氦气(99.999%、河南迎众化工产品有限公司)。
本研究于2021年11月至2023年7月在河南中医药大学和河南中医药大学第三附属医院肿瘤科进行,共采集呼气样本360例,其中肺癌患者176例,乳腺癌患者50例,健康人群134例,其人口统计学特征如表1所示,受试者在采集样品前签署受试者信息调查表和知情同意书。肺癌患者入组标准:经病理学或支气管镜检查确诊为肺癌患者,年龄>18岁,排除患有其他肿瘤、慢性呼吸道疾病,不能配合呼气采集或者在任何阶段要求终止实验的患者。乳腺癌患者入组标准:经穿刺或活检证实为乳腺癌患者,没有肺部转移,年龄>18岁,排除标准如肺癌。健康对照组没有任何肺部和乳腺疾病。
表1 参与者基本特征注
Tab.1 Basic characteristics of participants
注:N/A:Not applicable。
变量健康对照(n=134)肺癌组(n=176)乳腺癌组(n=50)年龄/岁23.12±4.6762.03±9.7052.48±10.70性别/% 男33.3355.70N/A 女66.6745.30100.00身高/m1.67±0.081.66±0.081.61±0.04体重/kg61.50±12.7665.55±14.4052.48±10.70体重指数/(kg·m-2)21.78±3.2023.63±4.5523.10±3.54合并疾病 高血压N/A15.6414.00 2型糖尿病N/A8.3816.00吸烟史/% 吸烟2.962.23N/A 戒烟2.2236.31N/A 从不吸烟94.8161.45100.00
呼出气体采集在固定的房间进行,为排除食物等外源性污染,受试者在采样前遵循以下原则:
(1)采样前8 h禁烟禁酒禁食且采样时空腹,不刷牙,不涂抹化妆品。
(2)采样开始前漱口,采样时平静呼气 15 min,排除因剧烈活动引起的异戊二烯升高[14],深呼吸3次后憋气10 s(鼻吸口呼),最后通过一次性吹嘴将气体吹入1 L Tedlar袋中,如吹不满重复上述操作,直至吹满为止。
(3)每个参与者采集3个平行样,为了排除环境的干扰,同时采集环境样作为背景气。
呼出气体采集完成后对样品编号,将样品保存在4 ℃恒温保温箱避光保存,在2 h内运回实验室,24 h内完成分析。
使用GC-MS,所用色谱柱包括DB-1(60.0 m×0.25 mm×1 μm)和Rt-Alumina BOND/Na2SO4(30.0 m×0.32 mm×5 μm),同时搭载中心切割系统,能将C2和C3物质更好的分离。采集的呼出气经热脱附预浓缩后进行检测。GC-MS的分析条件如表2所示。
表2 GC-MS分析操作条件
Tab.2 Operating conditions of analysis GC-MS
步骤参数数值GC分析载气柱温箱升温程序氦气35 ℃维持1 min5 ℃/min升至100 ℃10 ℃/min升至190 ℃,维持10 minMS分析离子源接口温度离子源温度EI(70 eV)200 ℃200 ℃
采用GC-MS solution对呼气样本中的VOCs进行定性和定量,对360个呼气样本进行Mann-Whitney检验(U检验)以及正交偏最小二乘判别(OPLS-DA)分析,选定P<0.05以及变量投影重要值(Variable influence in projection,VIP)≥1.5的VOCs为特征性VOCs,将呼气样本中选定的特征性VOCs划分为60%的训练集和40%的验证集,构建不同的机器学习模型,分析其准确度、精准度、灵敏度和特异性,进一步验证特征性VOCs对肺癌的诊断性能。根据京都基因与基因组百科全书(KEGG,http://www.genome.jp/kegg/)数据库对代谢物进行定性评估,对P<0.05的物质进行代谢途径KEGG富集分析,探究呼出气体潜在的代谢途径。
将采集到的肺癌患者、乳腺癌患者和健康对照组的呼出气体VOCs进行GC-MS分析,依据差异倍数log2FC>1且P<0.05,将检测到的VOCs绘制火山图,如图1所示。从图中可以看出,部分VOCs在肺癌患者、乳腺癌和健康人群中分别呈现不同上调和下调趋势,说明VOCs在不同的癌症患者和健康人群中有一定的差异。
HC:健康志愿者;LC:肺癌患者;BC:乳腺癌患者
a.HC &LC;b.HC &BC;c.LC &BC
图1 VOCs在不同人群中表现的火山图
Fig.1 Volcano map of VOCs in different populations
2.1.1 健康对照组、肺癌患者和乳腺癌患者呼出气体中特征性VOCs
OPLS-DA是一种有监督的判别分析方法,在降维的同时考虑了分组信息,目前广泛用于特征选择及分类[15]。本研究将测得的健康对照组、肺癌患和乳腺癌患者的VOCs浓度信息建立OPLS-DA模型,如图2所示。从图2a可以看出,健康人群、肺癌患者和乳腺癌患者的呼气VOCs存在显著差异,组内聚集性良好,在95%的置信区间内组间差异明显。此外,如图2b所示,模型中R2和Q2分别为0.880和0.930,表明模型拟合的主成分有良好的解释能力,同时预测的准确率高达93%。为了防止OPLS-DA模型出现过拟合,本研究进行了200次交叉置换检验验证,发现R2和Q2均低于原始数据,如图2c所示,说明模型不存在过拟合且具有良好的稳定性和可靠性。因此基于OPLS-DA分类,健康人群、肺癌患者和乳腺癌患者可以进行区分。
a.健康对照组、肺癌患者和乳腺癌患者得分图,HC:健康志愿者;LC:肺癌患者;BC:乳腺癌患者;b.模型参数图,R2:模型解释能力;Q2:模型预测能力;c.200次交叉置换验证图
图2 健康参与者、肺癌患者和乳腺癌患者OPLS-DA模型图
Fig.2 OPLS-DA model for healthy participants,lung cancer patients,and breast cancer patients
2.1.2 肺癌患者呼出气体中特征性VOCs
为进一步探究肺癌患者呼气中的特征性VOCs,将测得的健康对照组和肺癌患者的VOCs浓度建立OPLS-DA模型,如图3所示。从图3a可以看出,肺癌患者和健康人群的呼气VOCs存在显著差异,组内聚集性良好,在95%的置信区间内组间差异明显。此外,如图3b所示,模型中R2和Q2分别为0.870和0.863,表明模型拟合的主成分有良好的解释能力,同时预测的准确率高达86.3%。为了防止OPLS-DA模型出现过拟合,本研究进行了200次交叉置换检验验证,发现R2和Q2均低于原始数据,如图3c所示,说明模型不存在过拟合且具有良好的稳定性和可靠性。基于OPLS-DA分类,进一步的,将模型贡献较大的变量信息以VIP值来衡量。如图3d和表3所示,当VIP≥1.5时,共筛选出8种存在显著差异的VOCs (P<0.05)。因此,顺式-2-丁烯、苯、1,2-二氯丙烷、三氯乙烯、4-甲基-2-戊酮、3-甲基戊烷、正辛烷和萘可作为肺癌的特征性VOCs。特征性VOCs的浓度变化箱式图具体如图4所示,其中苯、萘、三氯乙烯和正辛烷的浓度在肺癌患者中表现为下降,顺式-2-丁烯、1,2-二氯丙烷、4-甲基-2-戊酮和3-甲基戊烷的浓度在肺癌患者中表现为上升。
a.健康对照组和肺癌患者得分图,HC:健康志愿者;LC:肺癌患者;b.模型参数图,R2:模型解释能力;Q2:模型预测能力;c.200次交叉置换验证图;d.特异性VOCs的VIP值示意图,数字对应VOC见表3
图3 健康志愿者和肺癌患者OPLS-DA模型图
Fig.3 OPLS-DA model of healthy controls and lung cancer patients
a.顺式-2-丁烯;b.苯;c.1,2二氯丙烷;d.三氯乙烯;e.4-甲基-2-戊酮;f.2,3,4-三甲基戊烷;g.正辛烷;h.萘
图4 肺癌患者和健康对照组呼气中8种特征性VOCs的浓度差异
Fig.4 Differences in the concentration of eight characteristic breath VOCs of lung cancer patients and healthy control
表3 肺癌患者特征VOCs代谢信息表注
Tab.3 Characteristic breath VOCs metabolic information of lung cancer patients
注:***:具有显著统计学意义;1)“↑”为与健康志愿者比较浓度上升;2)“↓”与健康志愿者相比浓度下降。
序号VOCsCASP值AUC中位数/(nmol·mol-1)平均值/(nmol·mol-1)最大值/(nmol·mol-1)趋势1顺式-2-丁烯590-18-1<0.001∗∗∗0.7230.4010.3680.521↑1)2苯71-43-2<0.001∗∗∗0.7410.5670.5870.829↓2)3戊醛110-62-3<0.001∗∗∗0.7800.5920.4161.025↑1)4三氯乙烯75-09-2<0.001∗∗∗0.80200.4340.167↓1)54-甲基-2-戊酮108-10-1<0.001∗∗∗0.8370.5100.4510.531↑1)62,3,4-三甲基戊烷589-81-1<0.001∗∗∗0.8110.5410.4800.569↑1)7正辛烷111-65-9<0.001∗∗∗0.7630.6660.6450.708↓1)8萘91-20-3<0.001∗∗∗0.7060.6160.6050.686↓2)
2.1.3 乳腺癌患者呼出气体VOCs特征
从图5a可以看出,乳腺癌和健康人群呼气样本存在显著差异,在95%的置信区间内组间差异明显,组内聚集性良好。此外,如图5b所示,模型中R2和Q2分为0.910和0.864,表明模型拟合的主成分有良好的解释能力,同时预测的准确率高达86.4%。图5c给出了200次交叉置换检验验证图,发现R2和Q2均低于原始数据,说明OPLS-DA模型不存在过拟合且具有良好的稳定性和可靠性。对于乳腺癌患者和健康对照组,基于OPLS-DA模型对贡献相对较大的变量信息以VIP值来衡量。如图5d和表4所示,当VIP≥1.5时,共发现8种具有显著差异的VOCs(P<0.05)。依据建立的OPLS-DA模型,乙烯、正丁醛、1-己烯、三氯甲烷、苯、戊醛、4-甲基-2-戊酮和正辛烷可作为乳腺癌的特征性VOCs,其中4-甲基-2-戊酮、正辛烷和苯同时在肺癌患者和乳腺癌患者中被发现,这3种VOCs有可能是肺癌和乳腺癌共有的标志物,其中4-甲基-2-戊酮在乳腺癌患者中同样表现为浓度上升,而正辛烷和苯的浓度在乳腺癌患者中也表现为下降。
a.健康对照组和乳腺癌患者得分图,HC:健康志愿者;BC:乳腺癌患者;b.模型参数图,R2:模型解释能力;Q2:模型预测能力;c.200次交叉置换验证图;d.特征性VOCs的VIP值示意图,数字对应VOC如表4所示
图5 健康参与者和乳腺癌患者OPLS-DA模型图
Fig.5 OPLS-DA model of healthy controls and breast cancer patients
表4 乳腺癌患者特征VOCs代谢信息表注
Tab.4 Characteristic breath VOCs metabolic information of breast cancer patients
注;***:具有显著统计学意义;1)“↑”与健康志愿者比较浓度上升;2)“↓”与健康志愿者相比浓度下降。
序号VOCsCASP值AUC中位数/(nmol·mol-1)平均值/(nmol·mol-1)最大值/(nmol·mol-1)趋势1乙烯74-85-1<0.001∗∗∗0.9550.0230.0891.670↓2)2正丁醛123-72-8<0.001∗∗∗0.8560.6030.4780.806↑1)31-己烯592-41-6<0.001∗∗∗0.9480.5790.7743.320↑1)4三氯甲烷67-66-3<0.001∗∗∗0.8691.7781.7523.238↓2)5苯71-43-2<0.001∗∗∗0.8650.5440.5480.669↓2)6戊醛110-62-3<0.001∗∗∗0.9550.6300.5980.765↓2)74-甲基-2-戊酮108-10-1<0.001∗∗∗0.8590.5100.4940.517↑1)8正辛烷111-65-9<0.001∗∗∗0.9950.6300.6300.641↓2)
2.1.4 与乳腺癌患者比较,肺癌患者呼出气体VOCs特征
为了探究不同疾病中呼气特征性VOCs的不同,将乳腺癌患者呼气VOCs作为疾病对照组,与肺癌患者的呼气VOCs进行比较,如图6a所示。从图中可以看出,乳腺癌患者和肺癌患者的呼气VOCs存在显著差异,在95%的置信区间内组间差异明显,组内聚集性良好。此外,如图6b所示,模型中R2和Q2为0.921和0.832,表明模型拟合的主成分有良好的解释能力,同时预测的准确率高达83.2%。此外,根据200次交叉置换检验(图6c),R2和Q2均低于原始数据,说明模型不存在过拟合且具有良好的稳定性和可靠性。当VIP值≥1.5时,共筛选出10种存在显著性差异的VOCs(P<0.05),如图6d和表5所示。依据建立的OPLS-DA模型,顺式-2-丁烯、乙烯、丙烷、1-戊烯、1-己烯、2,3,4-三甲基戊烷、正辛烷、间对二甲苯和邻二甲苯在肺癌患者与乳腺癌患者中有较大差异。其中正辛烷同时在肺癌和乳腺癌患者中被发现,可能是两种癌症共同的特征性VOCs,但在肺癌和乳腺癌患者中的浓度差异不同,虽然在乳腺癌患者和肺癌患者中浓度均下降,但肺癌患者呼气中的浓度仍要高于乳腺癌患者。
a.肺癌患者和乳腺癌患者得分图,LC:肺癌患者;BC:乳腺癌患者;b.模型参数图,R2:模型解释能力;Q2:模型预测能力;c.200次交叉置换验证图;d.异性VOCs的VIP值示意图,数字对应VOC如表5所示
图6 肺癌患者和乳腺癌患者OPLS-DA模型图
Fig.6 OPLS-DA model of lung cancer patients and breast cancer patients
表5 肺癌患者与乳腺癌患者呼气中VOCs的特征注
Tab.5 Characteristic breath VOCs between lung cancer patients and breast cancer patients
注:***:具有显著统计学意义;1)“↑”与乳腺癌患者比较浓度上升;2)“↓”与乳腺癌患者相比浓度下降。
序号VOCsCASP值AUC中位数/(nmol·mol-1)平均值/(nmol·mol-1)最大值/(nmol·mol-1)趋势1顺式-2-丁烯590-18-1<0.001∗∗∗0.8320.4050.3680.520↑1)2乙烯74-85-1<0.001∗∗∗0.8120.1671.6307.066↓2)3丙烷74-98-6<0.001∗∗∗0.8821.4750.7711.111↓2)41-戊烯109-67-1<0.001∗∗∗0.7700.5760.4201.585↑1)51-己烯592-41-6<0.001∗∗∗0.85600.2273.080↓2)62,3,4-三甲基戊烷565-75-3<0.001∗∗∗0.8220.4600.4400.468↓2)7正辛烷111-65-9<0.001∗∗∗0.8810.6430.6450.708↑1)8乙苯100-41-4<0.001∗∗∗0.9181.3071.3301.955↓2)9间对二甲苯106-423/108-38-3<0.001∗∗∗0.9151.1001.1823.785↓2)10邻二甲苯95-47-6<0.001∗∗∗0.9110.8230.8652.231↓2)
为进一了解8种特征性VOCs对肺癌的诊断能力,计算肺癌患者筛选出的8种特征VOCs曲线下面积(Area under the curve,AUC)及其联合诊断能力,具体信息如表3和图7所示。从表3可以看出,每一种特征性VOCs的P值均小于0.001,在肺癌患者和健康人群中表现出显著的差异性,其AUC均在0.7~0.85之间,表现出适中的诊断价值。如图7所示,2种特征性VOCs联合应用时其AUC为0.929,随着特征VOCs的增加,AUC随之变大,当8种特征VOCs联合应用时其AUC高达0.981,且95%置信区间(CI)为0.952~0.994,表现出了良好的诊断价值。
图7 特征VOCs的联合诊断能力
Fig.7 Combined diagnostic capability of characteristic VOCs
随着人工智能的发展,越来越多的机器学习算法在医药行业运用[16,17],本研究基于肺癌患者和健康人群310个呼气样本的OPLS-DA模型选出的8种VOCs为自变量,运用6折交叉验证以 6∶4构建训练集和测试集(将训练集和测试集多次划分),建立4种常见的机器学习模型:决策树(DT)算法、逻辑回归(LR)算法、支持向量(SVM)算法和朴素贝叶斯(NB)算法。为防止模型出现过拟合,每种算法至少建模10次以上,发现每次结果相当,证明未出现过拟合。如表6所示,以60%的样本进行训练时,4种机器学习模型的准率、精准度、灵敏度和特异性均高于89%,其中SVM的诊断能力最佳,其准确率高达96.28%,F1分数为96.08%。模型中的准确度、精准度、灵敏度(召回率)、特异性和F1分数是按照下面公式计算。
表6 4种机器学习模型对训练集的诊断效果
Tab.6 Diagnostic effects of four machine learning models on training sets (%)
参数(训练集)DTLRSVMNB准确度94.91±2.5695.84±2.1696.28±1.9193.88±1.26精准度96.41±3.0495.78±2.6197.81±1.7995.54±1.14灵敏度92.78±5.8295.37±1.2994.44±1.7589.69±2.22特异性97.64±1.8397.12±1.4598.51±1.2696.98±0.73F1分数94.41±2.7195.56±1.7396.08±0.9692.51±1.25
准确度(Accuracy)=(TP+TN)/(TP+TN+FP+FN)
(1)
精准度(Precision)=TP/(TP+FP)
(2)
灵敏度(Sensitivity)=召回率(Recall)=TP/(TN+FP)
(3)
特异性(Specificity)=TN/(TN+FP)
(4)
F1分数(F1-score)=[2×(Precision×Recall)]/(Precision+Recall)
(5)
其中TP、FP、TN和FN分别为真阳性、假阳性、真阴性和假阴性。为验证已建立的机器学习模型,以剩余40%样本为测试集,对受试者是否为癌症患者进行验证,其结果如表7所示,建立的4种机器学习模型的准确度、精准度、灵敏度和特异性均高于87%,且SVM模型的诊断能力最为突出,其准确度高达95.41%,F1分数为94.51%,因此基于8种潜在肺癌标志物的SVM机器学习模型在实现肺癌的正确分类中表现出了巨大的潜力。
表7 4种机器学习模型对测试集的诊断效果
Tab.7 Diagnostic effects of four machine learning models on test sets (%)
参数(测试集)DTLRSVMNB准确度91.72±3.8993.03±2.4595.41±1.1792.62±2.56精准度92.64±4.0991.56±6.8795.15±3.0994.73±3.12灵敏度87.41±7.7692.69±2.7993.99±2.6187.71±1.77特异性94.80±3.2593.95±4.5096.67±1.6296.43±1.85F1分数89.79±5.0991.94±3.1094.51±1.6591.01±3.01
为进一步探究特征VOCs的来源与代谢途径,将肺癌患者呼气中具有显著差异的VOCs(P<0.05)导入最新的差异代谢物KEGG数据库进行通路分析,发现15条代谢通路,如图8和表8所示。其中 P<0.05且矫正后的P值FDR (False discovery rate)小于0.05的通路有4条,如甲苯和二甲苯的降解、四氯乙烯的降解、萘和蒽的降解、细胞色素p450对外源性药物的代谢作。
P值越小,该通路富集越显著
图8 肺癌患者呼出气中具有显著差异VOCs的KEGG富集气泡图
Fig.8 KEGG enriched bubbles with significant differences in VOCs in exhaled breath of lung cancer patients
表8 肺癌患者呼出气体中特征VOCs的代谢途径信息
Tab.8 Metabolic pathway information of characteristic breath VOCs from lung cancer patients
KEGG编号代谢途径P值FDR化合物编号化合物map00622甲苯和二甲苯的降解<0.000 10.001 4C00261C07212苯甲醛邻二甲苯map00625四氯乙烯的降解<0.000 10.001 4C06789四氯乙烯map00626萘和蒽的降解0.001 00.001 9C00829萘map00980细胞色素p450对外源性药物的代谢作用0.003 00.003 0C00829C11088C06790萘1,2-二溴乙烷三氯乙烯
本研究中发现直链烷烃类化合物辛烷在肺癌患者中浓度下降,支链烷烃类化合物2,3,4-三甲基戊烷在肺癌患者中的浓度升高,它们的产生主要是由于多聚不饱和脂肪酸(Polyunsaturated fatty acids,PUFAs)的过氧化作用。脂质过氧化是机体损伤的主要原因,可能是癌症、炎症疾病、衰老的主要原因[18-20]。
研究表明戊醛可以用于区分肺癌患者和健康人群,且在肺癌患者体内浓度升高[19],醛主要是细胞色素p450对过氧化氢的还原生成,p450是脂质过氧化的次级代谢物,因此肺癌患者体内肿瘤组织氧化活性增强会导致醛含量升高。4-甲基-2-戊酮作为肺癌的标志物[20],在肺癌患者中浓度升高已经被证实,在体内没有代谢的碳氢化合物会在几分钟内释放到呼吸中[21]。酮类主要通过细胞色素p450对脂质过氧化的β-裂解反应产生,在恶病质状态(如癌症等疾病)下,蛋白质代谢会增加,导致酮体水平升高[22]。
在本研究中发现了细胞色素p450对外源性药物的代谢作用,细胞色素p450在内源性和外源性物质尤其是药物的代谢中发挥重要作用。越来越多的流行病学、诊断和临床报告表明p450在癌症的形成、预防和转移中发挥重要作用[23]。其代谢途径主要涉及的化合物有萘和三氯乙烯,两者均被选为潜在肺癌标志物,目前虽然没有证据能够证明萘和三氯乙烯与肺癌的关,但是二者均被国际癌症研究机构(IARC)评定为可能致癌物,且三氯乙烯在小鼠毒性试验中能够引起肺纤维化[24]。萘主要来源于汽车尾气和香烟中[24],存在一定的毒性作用,有研究发现其在肺癌和健康人群中存在显著差异[25]。同时还发现了四氯乙烯的降解途径,四氯乙烯与三氯乙烯结构相似,表现出相似的毒性作用[26]。与Zou等[27]的研究一致,同样发现了甲苯和二甲苯的降解,这类代谢途径主要涉及芳香类化合物,本研究中发现了苯、苯甲醛和邻二甲苯,虽然目前没有发现任何文献报道这一途径和肺癌发病率的关系,但是苯[18,28]、甲苯[9,18,29]、二甲苯[18]、苯甲醛[12]确实是肺癌的危险因素,它们也在呼出气体中被检测,被报道作为肺癌的潜在标志物。但这类物质通常被认为是外源性污染物,Koureas等[18]通过对肺癌患者、良性肺部疾病患者和健康志愿者呼气中的VOCs进行靶向分析,发现与健康对照组相比,乙苯、苯乙烯、甲苯、二甲苯在肺癌患者的呼气中浓度水平显著升高,其作为肺癌标志物受到了质疑,因此需要进一步研究。
本研究基于TD-GC-MS对176名肺癌患者,50名乳腺癌患者和134名健康人群的呼出气体进行研究。通过OPLS-DA模型发现有10种VOCs可以区分肺癌和乳腺癌,有8种VOCs可以区分肺癌患者健康人群,其中有3种VOCs,即4-甲基-2-戊酮、正辛烷和苯同时出现在肺癌和乳腺癌患者中,可能是两种癌症共同的特征性VOCs,有5种VOCs为肺癌独有的化合物包括:顺式-2-丁烯、戊醛、三氯乙烯、2,3,4-三甲基戊烷和萘。此外,基于肺癌患者呼气中发现的8种特征性VOCs建立了SVM的机器学习模型,其准确度、精准度、灵敏度和特异性分别达到95.41%、95.15%、93.99%和96.67%。本研究建立了一种呼气VOCs用于无创诊断肺癌的方法,同时联合代谢数据库,解释了这些VOCs可能的来源和代谢途径,为呼气用于肺癌的诊断提供了一些新的思路和方法。在未来的研究工作中,我们将进一步细化肺癌分期,增加样本量,提高肺癌呼气特异性VOCs筛查的准确性。
[1]SUNG H,FERLAY J,SIEGEL R L,et al.Global cancer statistics 2020:Globocan estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J].CA Cancer J.Clin.,2021,71(3):209-249.
[2]LI W,DAI W,LIU M,et al.VOC biomarkers identification and predictive model construction for lung cancer based on exhaled breath analysis:Research protocol for an exploratory study[J].BMJ Open,2019,9(8):e028 448.
[3]CAO M,CHEN W.Epidemiology of lung cancer in China[J].Thoracic.Cancer,2019,10(1):3-7.
[4]MCWILLIAMS A,SHAIPANICH T,LAM S.Fluorescence and navigational bronchoscopy[J].Thoracic Surgery Clinics,2013,23(2):153-161.
[5]FOLEY R W,NASSOUR V,OLIVER H C,et al.Chest X-ray in suspected lung cancer is harmful[J].Eur.Radiol.,2021,31(8):6 269-6 274.
[6]LAWAL O,AHMED W M,NIJSEN T M E,et al.Exhaled breath analysis:A review of ‘breath-taking’ methods for off-line analysis[J].Metabolomics,2017,13(10):1-16.
[7]GORDON S M,SZIDON J P,KROTOSZYNSKI B K,et al.Volatile organic compounds in exhaled air from patients with lung cancer[J].Clinic.Chem.,1985,31(8):1 278-1 282.
[8]谢少华,戴维,刘明心,等.呼出气中挥发性有机化合物对<50岁人群肺结节良恶性的预测价值[J].中国胸心血管外科临床杂志,2020,27(6):675-680.
[9]ZOU Y,WANG Y,JIANG Z,et al.Breath profile as composite biomarkers for lung cancer diagnosis[J].Lung Cancer,2021,154:206-213.
[10]茹立华,吕伟,王祥麒,等.基于呼气中特异性VOCs筛查的肺癌早期诊断与模型评估[J].分析测试学报,2023,42(3):275-282.
[11]SMIRNOVA E,MALLOW C,MUSCHELLI J,et al.Predictive performance of selected breath volatile organic carbon compounds in stage 1 lung cancer[J].Transl.Lung Cancer Res.,2022,11(6):1 009-1 018.
[12]TSOU P H,LIN Z L,PAN Y C,et al.Exploring volatile organic compounds in breath for high-accuracy prediction of lung cancer[J].Cancers (Basel),2021,13(6):1-14.
[13]WANG P,HUANG Q,MENG S,et al.Identification of lung cancer breath biomarkers based on perioperative breathomics testing:A prospective observational study[J].EclinicalMedicine,2022,47:101 384.
[14]KING J,KUPFERTHALER A,UNTERKOFLER K,et al.Isoprene and acetone concentration profiles during exercise on an ergometer[J].J.Breath Res.,2009,3(2):027 006.
[15]苏媛媛,姜雪,仓义鹏,等.紫外-可见光谱传感对高温大曲白酒真实性的准确鉴别[J].化学试剂,2023,45(10):8-13.
[16]胡子康,刘庭恺,饶艳敏,等.近红外光谱结合化学计量学的掺伪杜仲判别[J].化学试剂,2023,45(10):1-7.
[17]杜潇楠,周慧宇,王玉成,等.人工智能在药物肝脏毒性预测中的应用[J].化学试剂,2021,43(5):640-648.
[18]KOUREAS M,KIRGOU P,AMOUTZIAS G,et al.Target analysis of volatile organic compounds in exhaled breath for lung cancer discrimination from other pulmonary diseases and healthy persons[J].Metabolites,2020,10(8):1-18.
[19]FUCHS P,LOESEKEN C,SCHUBERT J K,et al.Breath gas aldehydes as biomarkers of lung cancer[J].Int.J.Cancer,2010,126(11):2 663-2 670.
[20]WANG M,SHENG J,WU Q,et al.Confounding effect of benign pulmonary diseases in selecting volatile organic compounds as markers of lung cancer[J].J.Breath.Res.,2018,12(4):046 013.
[21]KING J,MOCHALSKI P,KUPFERTHALER A,et al.Dynamic profiles of volatile organic compounds in exhaled breath as determined by a coupled PTR-MS/GC-MS study[J].Physiol.Meas.,2010,31(9):1 169-1 184.
[22]HAKIM M,BROZA Y Y,BARASH O,et al.Volatile organic compounds of lung cancer and possible biochemical pathways[J].Chem.Rev.,2012,112(11):5 949-5 966.
[23]ALZAHRANI A M,RAJENDRAN P.The multifarious link between cytochrome p450s and cancer[J].Oxid.Med.Cell Longev.,2020,1:3 028 387.
[24]HABIBAGAHI A,ALDERMAN N,KUBWABO C.A review of the analysis of biomarkers of exposure to tobacco and vaping products[J].Anal.Methods,2020,12(35):4 276-4 302.
[25]JANSSENS E,MEERBEECK J P,LAMOTE K.Volatile organic compounds in human matrices as lung cancer biomarkers:A systematic review[J].Crit.Rev.Oncol.Hematol.,2020,153:103 037.
[26]LUO Y S,FURUYA S,SOLDATOV V Y,et al.Metabolism and toxicity of trichloroethylene and tetrachloroethylene in cytochrome p450 2E1 knockout and humanized transgenic mice[J].Toxicol.Sci.,2018,164(2):489-500.
[27]ZOU Y,HU Y,JIANG Z,et al.Exhaled metabolic markers and relevant dysregulated pathways of lung cancer:A pilot study[J].Ann.Med.,2022,54(1):790-802.
[28]CHEN X,MUHAMMAD K G,MADEEHA C,et al.Calculated indices of volatile organic compounds (VOCs) in exhalation for lung cancer screening and early detection[J].Lung Cancer,2021,154:197-205.
[29]SAKUMURA Y,KOYAMA Y,TOKUTAKE H,et al.Diagnosis by volatile organic compounds in exhaled breath from lung cancer patients using support vector machine algorithm[J].Sensors (Basel),2017,17(2):1-12.