ClinicalTrials.gov APIをPythonで叩いて、がん領域のモダリティ別臨床試験を可視化する
> Source: Zenn_Python
Execute Primary Source
// Problem
論文等の文献調査のみでは、特定のモダリティが臨床試験のどのフェーズにどの程度分布しているかという全体像を定量的に把握することが困難である。
// Approach
PythonのrequestsライブラリでAPIから構造化データを取得し、正規表現を用いたキーワードマッチングにより介入名を複数のモダリティに分類する。その後、pandasを用いてデータを整形し、seabornで可視化を行う。
// Result
モダリティと試験フェーズの分布をヒートマップとして出力可能となった。一方で、分類ルールから漏れた「Other」カテゴリが膨大になるという課題も明らかになった。
Senior Engineer Insight
> 正規表現による分類は実装が容易だが、未知の薬剤名やコードへの対応が課題となる。NLPを用いた高度なエンティティ抽出への拡張が望ましい。