Paper的来源
Papers with Code
paperswithcode是一站式的门户网站,可访问包括机器学习模型、数据集、方法、评估表和代码在内的开源资源
各类出版社的数据库
IEEE Xplore,检索IEEE旗下期刊和会议的文章
ACM Digital Library,检索ACM旗下期刊和会议的文章(如ACM Transactions on Knowledge Discovery from Data,即TKDD,CCF-B类期刊)
ScienceDirect,出版商Elsevier(中文:爱思唯尔)的数据库,多学科门类
dblp & WoS
如果只是找文章,且只找计算机学科的英文文章,dblp比Web of Science更好用。
arXiv
arXiv是一个预印本(preprint)网站,上面的文章很多都没有经过同行评审,质量没有保证但容易发现很新很潮的东西(2023年7月:Retentive Network,2023年10月:Vision RetNet)。总体来说不适合初学者投入大量精力
评估Paper的好坏
SCI分区与CCF目录
中科院、JCR分区是各个学科比较通用的评估指标。计算机学科有其特殊性,会议的重要程度不容小觑。CCF目录应当作为重要参照。
CCF不能代表一切
International Conference on Learning Representations, 即ICLR,含金量相当于CCF-A会议
如ICLR2018 - DCRNN,交通流量预测的经典Baseline之一,使用Bidirectional random walk来对空间依赖进行建模,使用encoder-decoder架构来对时间依赖进行建模;
再如ICLR2018 - GATs,Graph Attention Networks (GATs),即图注意力网络。
IEEE Transactions on Intelligent Vehicles,即T-IV,类似T-ITS(CCF-B期刊),IF也大差不差,也是智能交通领域的期刊(不在CCF目录)
T-IV上,一篇轨迹预测的综述A Survey on Trajectory-Prediction Methods for Autonomous Driving
(所以啊,像T大,就自己搞了个列表内部使用,替代CCF列表)
关于OA期刊
MDPI出版社旗下的期刊(Hindawi、MDPI与Frontiers合称开源出版商三巨头),和IEEE Access等,这些开源期刊中的文章质量方差比较大,学有余力的时候,从相关期刊上查找文献需要仔细甄别质量;尽管MDPI也有SCI 2区的期刊,IEEE Access现在是3区,曾经是2区。
研究方向的关键词
知道了研究方向的关键词(Index Terms, Key Words)后,可以快速找论文看。以交通预测方向为例
交通流量预测: traffic flow prediction, traffic prediction/forecasting
多维时序预测: Multivariate Time Series (MTS) Forecasting
时序预测: Time Series Forecasting
时空数据(时空数据挖掘): Spatial-Temporal (Data Mining)
开始写作
一篇IEEE Trans的结构
可以下载一份IEEE Trans期刊的Word模板来看。
├─Abstract, Index Terms
├─I.Introduction
├─II.Related Works
| ├─A.[Related Works of This Field]
| ├─B.[Related Works of Your Method]
| ├─C.[Optional]
| ├─D.[Optional]
├─III.Method (Methodology)
| ├─A.Problem Formulation (Preliminaries)
| ├─B.Framework Overview
| ├─C.[Framework Part.1] Preprocessing & Data Embedding
| ├─D.[...]
| ├─E.[End of Framework] Decoders & Output
├─IV.Experiments
| ├─A.Datasets
| | ├─1).Statistics (Details of each dataset)
| | ├─2).Data Splitting (6:2:2 or 7:2:1, with optional preprocessing)
| ├─B.Experimental Settings
| ├─C.Performance
| | ├─1).Eval Metrics(MAE, MAPE, RMSE, Recall)
| | ├─2).Baselines
| | ├─3).Benchmark
| ├─D.Ablation Study
| ├─E.[Optional] Comparisons of Computation Time
├─V.Conclusion
先做实验,再讲故事
做实验是不可能不失败的。
理想状态下的科研:
Idea产生->理论推导->写专利->做实验->投期刊/会议
但实验失败发生在上述链条中的倒数第二环,且经常发生,发生之后难以补救。
AI科研成本可以很低,小规模数据集一张2080Ti就能玩,ML基础和代码能力练好即可。可以这样调整CS.AI的科研模式:
Idea产生->改进主流模型->反复实验到效果能看->包装Idea(讲故事)->写期刊/会议论文->用小论文缩一篇专利来(可选)
动笔开始写
没跑出SOTA的数据之前,也可以练习写点东西。比如可以试着提前把小论文的Introduction和Realted Works(引言和文献综述部分)给写了。以下面两篇IEEE Trans为例:
Bidirectional Spatial-Temporal Adaptive Transformer for Urban Traffic Flow Forecasting
CT-Net: Arbitrary-Shaped Text Detection via Contour Transformer
注意到两篇文章的II.Realted Works部分结束时,参考文献的标号都在40~50,也就是说把小论文的前两章写好大约需要粗读+精读文章的总数量大约是这么多,并且需要产生一些自己的理解(即使引用了也不可以完全抄,不然可能过不了查重系统)。
不推荐新手在共同作者没有IEEE Fellow的情况下,真的去写Survey(综述),顶刊的一篇Survey一般在200~300篇参考文献,全文双列排版大约20页。
另外,我个人认为在这个年代,一份双列排版、12页左右的期刊论文(专指Regular Papers),参考文献的数量应控制在50~70篇。
文献管理工具
用EndNote或NoteExpress吧,大部分学校会买的,在图书馆的网站上获取。图为EndNote。