kobak | смирнов про ящериц

Интересное интервью Смирнова Гельфанду: http://trv-science.ru/2017/01/17/stanislav-smirnov-mathwalks/. Среди прочего, Смирнов говорит: "Последняя статья, которую я написал с коллегами, как раз по биологии. Мы изучаем раскраску конкретного семейства ящериц и показываем, что уравнения реакции-диффузии Тьюринга, связывающие концентрации хроматофоров, при переменных коэффициентах..." (тут Гельфанд его перебивает). Попытался найти эту статью и не могу; в архиве нет, в google scholar нет, на женевском сайте Смирнова нет, на сайте лаборатории Чебышева тоже нет. Может быть, статья еще не написана? Судя по разговору, непохоже: Гельфанд там хмыкает, мол, это простая математика и простая биология, а Смирнов ему на это -- ты не торопись, лучше почитай. Никто не знает, о чем речь?

Еще Смирнов рассказывает про (в ML хорошо известные) recommender systems для нетфликсовского конкурса на базе SVD with missing data и говорит, что это "похоже на биологические вещи". Это спорно, и Гельфанд сразу начинает спорить; но может быть, и правда похоже. Я вот как раз с нового года настраиваю что-то подобное для single cell RNA sequencing: технология фантастическая, но глубина секвенирования (пока?) не очень и существенный процент генов не детектируется, т.е. их уровень экспрессии измерен как нулевой, хотя на самом деле это missing value.

Flat | Top-Level Comments Only

From:

kobak.livejournal.com

Я имею в виду high-throughput scRNA-seq, там все довольно фантастическое. Можно взять и секвенировать РНК из 25000 отдельных клеток так, чтобы на выходе знать, какие РНК из какой клетки (пример: http://www.cell.com/cell/abstract/S0092-8674(16)31007-8). Все РНК при этом высасываются из клеток и сливаются в один бульон, который потом и секвенируется, но надо же каждый фрагмент при этом пометить уникальным кодом, соответствующим клетке, из которой этот фрагмент достали.

Ну или т.н. patch-seq (http://www.nature.com/nbt/journal/v34/n2/abs/nbt.3445.html и http://www.nature.com/nbt/journal/v34/n2/abs/nbt.3443.html). Это совсем новые работы: сначала делают patch-clamp, записывают электрофизиологию, а потом прямо через ту же пипетку высасывают содержимое клетки и секвенируют РНК. Это, конечно, не high-throughput, а ручная работа, так что на выходе пока получается 100-200 клеток, но сочетание электрофизиологии и секвенирования впечатляет.

vvz.livejournal.com

Интересно, с немецким Нанионом или датским Софионом авторы уже связались? High-throughput patch clamp системы уже давно используются и, говорят, крысиные нейроны на них тоже удается записывать. 384 клетки за раз и разгребай потом данные ;-)

am.livejournal.com

Очень интересно. А есть у вас там семинар или Journal club, где об этих направлениях рассказывается? Или, м.б., какой приезжий гость с докладом в ближайшее время приглашен?

Вроде бы нет и нет, но если что-то появится или кто-то приедет, я дам знать.

Спасибо.

vasja-iz-aa.livejournal.com

спасибо, прочитал первую статью -- они пытаются работать на качественном уровне(есть экспрессия гена/нет экспрессии). не думаю что у них получится, но хотя бы понятно почему возник интерес к пропущенным значениям. мне не кажется, что SVD with missing data удасться полезно применить к експрессионным данным. его уже пытались использовать в начале веке, для коррекции гибридизационных результатов. развития, насколько я знаю, эта техника и тогда не получила, хотя некоторая логика в теории была. а к резутатам современного RNA-Seq даже теоретически не очень понятно как он может быть полезен

Почему на качественном? Ну т.е. на marker genes они там тоже смотрят, но основная работа dimensionality reduction + clustering (Figure 1C) сделана на количественных уровнях экспрессии. Большое кол-во отсутствующих значений в data matrix может такой анализ сильно попортить. Но насколько эти значения можно восстановить тем или иным образом (не обязательно SVD), я пока не могу сказать.

The median number of reads supporting each detected transcript was 4 (IQR 3-7), but this distribution was very wide (Figure S1B).
95% of non-zero gene-counts in the filtered matrix had a value less than or equal to 3 (75% 1’s, 16% 20s and 4% 30s), suggesting that
our data (given the shallow sequencing depth) primarily reflected presence/absence of transcripts and did not capture the full dynamic
range for most transcripts (Figure S1C).

Да, Вы правы: там очень "shallow" секвенирование, порядка 10 тыс. reads на клетку. Данные, с которыми я сейчас работаю (Cadwell et al 2016), -- это глубокое секвенирование, >1 млн reads на клетку.

не перечитывал, но вроде бы у них 8К в среднем детектированых транскриптов и пара сотен К полезных ридов на клетку

миллион все равно очень мало, при лобовом подходе на RNASeq надо 10-30 миллионов. в этом одна из основных проблем метода: в общем потоке секвинируется куча хорошо представленой но малоинтересной РНК,которая отжирает reads у важных и интересных исследователю генов

S	M	T	W	T	F	S
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

dmitry kobak

смирнов про ящериц

смирнов про ящериц

no subject

no subject

no subject

no subject

no subject

no subject

no subject

Почему на качественном?

no subject

no subject

Profile

May 2026

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags